Model proporcionálních rizik - Proportional hazards model

Proporcionální modely rizik jsou ve statistikách třídou modelů přežití . Modely přežití se týkají času, který uplyne, než dojde k nějaké události, k jedné nebo více kovariátám, které mohou být spojeny s tímto množstvím času. V modelu proporcionálních rizik je jedinečný účinek zvýšení jednotky v kovariátu multiplikativní s ohledem na míru rizika . Například užívání léku může snížit na polovinu míru rizika vzniku mozkové mrtvice nebo změna materiálu, ze kterého je vyrobena vyrobená součástka, může zdvojnásobit míru rizika selhání. Jiné typy modelů přežití, jako jsou modely se zrychlenou dobou selhání, nevykazují proporcionální rizika. Zrychlil čas selhání modelu popisuje situaci, kdy se zrychluje biologický nebo mechanický život historie události (nebo zpomalí).

Pozadí

Na modely přežití lze pohlížet tak, že se skládá ze dvou částí: základní základní riziková funkce , často označovaná , popisující, jak se riziko události za časovou jednotku mění v čase na základních úrovních kovariát; a parametry účinku, které popisují, jak se riziko mění v reakci na vysvětlující proměnné. Typický lékařský příklad by zahrnoval proměnné, jako je přiřazení léčby, a také charakteristiky pacienta, jako je věk na začátku studie, pohlaví a přítomnost dalších onemocnění na začátku studie, aby se snížila variabilita a / nebo kontrola zmatení. ${\ displaystyle \ lambda _ {0} (t)}$

Úměrné nebezpečí podmínka říká, že proměnnými jsou násobně týkající se nebezpečí. V nejjednodušším případě stacionárních koeficientů může například léčba lékem, řekněme, snížit riziko subjektu v kterémkoli okamžiku , zatímco základní riziko se může lišit. Všimněte si však, že to neznásobuje životnost subjektu; přesný účinek proměnných na životnost závisí na typu . Kovariáta není omezen na binární prediktorů; v případě spojité proměnné se obvykle předpokládá, že nebezpečí reaguje exponenciálně; každé zvýšení jednotky vede k proporcionálnímu škálování rizika. ${\ displaystyle t}$ ${\ displaystyle \ lambda _ {0} (t)}$ ${\ displaystyle x}$ ${\ displaystyle x}$

Model Cox

Coxova částečná pravděpodobnost, zobrazená níže, je získána pomocí Breslowova odhadu základní rizikové funkce, zapojením do plné pravděpodobnosti a následným pozorováním, že výsledek je součinem dvou faktorů. Prvním faktorem je níže uvedená částečná pravděpodobnost, kdy se základní riziko „zrušilo“. Druhý faktor neobsahuje regresní koeficienty a závisí na datech pouze prostřednictvím cenzurovacího vzoru . Účinek proměnných odhadovaný jakýmkoli modelem proporcionálních rizik lze tedy označit jako poměry rizik .

Sir David Cox poznamenal, že pokud předpoklad proporcionálního rizika platí (nebo se předpokládá, že bude platit), pak je možné odhadnout parametry efektu (parametrů) bez ohledu na funkci rizika. Tento přístup k datům o přežití se nazývá aplikace Coxova modelu proporcionálních rizik , někdy zkráceně na Coxův model nebo na model proporcionálních rizik . Cox však také poznamenal, že biologická interpretace předpokladu proporcionálních rizik může být docela choulostivá.

Nechť $X i = (X i 1,\dots, X ip)$ jsou realizované hodnoty kovariát pro předmět i . Funkce rizika pro model Coxova proporcionálního rizika má formu

{\ displaystyle \ lambda (t | X_ {i}) = \ lambda _ {0} (t) \ exp (\ beta _ {1} X_ {i1} + \ cdots + \ beta _ {p} X_ {ip} ) = \ lambda _ {0} (t) \ exp (X_ {i} \ cdot \ beta).}

Tento výraz udává nebezpečnou funkci v čase t pro subjekt i s kovariátovým vektorem (vysvětlující proměnné) X _i .

Pravděpodobnost výskytu události, kterou lze pozorovat u subjektu i v čase Y _i, lze zapsat jako:

{\ displaystyle L_ {i} (\ beta) = {\ frac {\ lambda (Y_ {i} \ střední X_ {i})} {\ součet _ {j: Y_ {j} \ geq Y_ {i}} \ lambda (Y_ {i} \ mid X_ {j})}} = {\ frac {\ lambda _ {0} (Y_ {i}) \ theta _ {i}} {\ sum _ {j: Y_ {j} \ geq Y_ {i}} \ lambda _ {0} (Y_ {i}) \ theta _ {j}}} = {\ frac {\ theta _ {i}} {\ sum _ {j: Y_ {j} \ geq Y_ {i}} \ theta _ {j}}},}

kde $θ j = exp (X j \cdot β$ ) a součet je nad množinou subjektů j, kde k události nedošlo před časem Y _i (včetně samotného subjektu i ). Je zřejmé, že 0 < L _i (β) ≤ 1. To je částečná pravděpodobnost : účinek kovariantů lze odhadnout, aniž by bylo nutné modelovat změnu rizika v čase.

Společná pravděpodobnost všech realizovaných událostí je vzhledem k tomu, že byli navzájem statisticky nezávislí, následující částečná pravděpodobnost, kde je výskyt události indikován C _i = 1:

{\ displaystyle L (\ beta) = \ prod _ {i: C_ {i} = 1} L_ {i} (\ beta).}

Odpovídající částečná pravděpodobnost protokolu je

{\ displaystyle \ ell (\ beta) = \ součet _ {i: C_ {i} = 1} \ vlevo (X_ {i} \ cdot \ beta - \ log \ součet _ {j: Y_ {j} \ geq Y_ {i}} \ theta _ {j} \ right).}

Tuto funkci lze maximalizovat nad β, aby se vytvořily odhady maximální dílčí pravděpodobnosti parametrů modelu.

Funkce částečného skóre je

{\ displaystyle \ ell ^ {\ prime} (\ beta) = \ součet _ {i: C_ {i} = 1} \ vlevo (X_ {i} - {\ frac {\ součet _ {j: Y_ {j} \ geq Y_ {i}} \ theta _ {j} X_ {j}} {\ sum _ {j: Y_ {j} \ geq Y_ {i}} \ theta _ {j}}} \ vpravo),}

a hesenská matice pravděpodobnosti částečného logaritmu je

{\ displaystyle \ ell ^ {\ prime \ prime} (\ beta) = - \ sum _ {i: C_ {i} = 1} \ left ({\ frac {\ sum _ {j: Y_ {j} \ geq Y_ {i}} \ theta _ {j} X_ {j} X_ {j} ^ {\ prime}} {\ sum _ {j: Y_ {j} \ geq Y_ {i}} \ theta _ {j}} } - {\ frac {\ left [\ sum _ {j: Y_ {j} \ geq Y_ {i}} \ theta _ {j} X_ {j} \ right] \ left [\ sum _ {j: Y_ { j} \ geq Y_ {i}} \ theta _ {j} X_ {j} ^ {\ prime} \ right]} {\ left [\ sum _ {j: Y_ {j} \ geq Y_ {i}} \ theta _ {j} \ right] ^ {2}}} \ right).}

Pomocí této funkce skóre a hesenské matice lze částečnou pravděpodobnost maximalizovat pomocí Newton-Raphsonova algoritmu. Inverzi hesenské matice, vyhodnocenou při odhadu β , lze použít jako přibližnou matici variance-kovarianční pro odhad a použít ji k získání přibližných standardních chyb pro regresní koeficienty.

Svázané časy

Bylo navrženo několik přístupů k řešení situací, kdy existují vazby v časových datech. Breslowova metoda popisuje přístup, při kterém se výše popsaný postup používá beze změny, i když jsou přítomny vazby. Alternativní přístup, který je považován za poskytující lepší výsledky, je Efronova metoda . Nechť t _j označuje jedinečné časy, nechť H _j označuje množinu indexů i tak, že Y _i = t _j a C _i = 1, a nechme m _j = | H _j |. Efronův přístup maximalizuje následující částečnou pravděpodobnost.

{\ displaystyle L (\ beta) = \ prod _ {j} {\ frac {\ prod _ {i \ v H_ {j}} \ theta _ {i}} {\ prod _ {\ ell = 0} ^ { m-1} \ left [\ sum _ {i: Y_ {i} \ geq t_ {j}} \ theta _ {i} - {\ frac {\ ell} {m}} \ sum _ {i \ v H_ {j}} \ theta _ {i} \ right]}}.}

Odpovídající částečná pravděpodobnost protokolu je

{\ displaystyle \ ell (\ beta) = \ součet _ {j} \ vlevo (\ součet _ {i \ v H_ {j}} X_ {i} \ cdot \ beta - \ součet _ {\ ell = 0} ^ {m-1} \ log \ left (\ sum _ {i: Y_ {i} \ geq t_ {j}} \ theta _ {i} - {\ frac {\ ell} {m}} \ sum _ {i \ in H_ {j}} \ theta _ {i} \ right) \ right),}

funkce skóre je

{\ displaystyle \ ell ^ {\ prime} (\ beta) = \ součet _ {j} \ vlevo (\ součet _ {i \ v H_ {j}} X_ {i} - \ součet _ {\ ell = 0} ^ {m-1} {\ frac {\ sum _ {i: Y_ {i} \ geq t_ {j}} \ theta _ {i} X_ {i} - {\ frac {\ ell} {m}} \ součet _ {i \ in H_ {j}} \ theta _ {i} X_ {i}} {\ sum _ {i: Y_ {i} \ geq t_ {j}} \ theta _ {i} - {\ frac {\ ell} {m}} \ sum _ {i \ v H_ {j}} \ theta _ {i}}} \ vpravo),}

a hesenská matice je

{\ displaystyle \ ell ^ {\ prime \ prime} (\ beta) = - \ sum _ {j} \ sum _ {\ ell = 0} ^ {m-1} \ left ({\ frac {\ sum _ { i: Y_ {i} \ geq t_ {j}} \ theta _ {i} X_ {i} X_ {i} ^ {\ prime} - {\ frac {\ ell} {m}} \ sum _ {i \ v H_ {j}} \ theta _ {i} X_ {i} X_ {i} ^ {\ prime}} {\ phi _ {j, \ ell, m}}} ​​- {\ frac {Z_ {j, \ ell, m} Z_ {j, \ ell, m} ^ {\ prime}} {\ phi _ {j, \ ell, m} ^ {2}}} \ vpravo),}

kde

{\ displaystyle \ phi _ {j, \ ell, m} = \ součet _ {i: Y_ {i} \ geq t_ {j}} \ theta _ {i} - {\ frac {\ ell} {m}} \ sum _ {i \ in H_ {j}} \ theta _ {i}}

{\ displaystyle Z_ {j, \ ell, m} = \ sum _ {i: Y_ {i} \ geq t_ {j}} \ theta _ {i} X_ {i} - {\ frac {\ ell} {m }} \ sum _ {i \ v H_ {j}} \ theta _ {i} X_ {i}.}

Všimněte si, že když H _j je prázdný (všechny pozorování se čas t _j cenzurovány) se sčítanců v těchto výrazů jsou považovány za nulu.

Časově proměnné prediktory a koeficienty

Rozšíření časově závislých proměnných, časově závislých vrstev a více událostí na subjekt lze začlenit do formulace procesu počítání Andersena a Gilla. Jedním z příkladů použití rizikových modelů s časově proměnnými regresory je odhad vlivu pojištění v nezaměstnanosti na období nezaměstnanosti.

Kromě umožnění časově proměnných proměnných (tj. Prediktorů) lze Coxův model zobecnit i na časově proměnné koeficienty. To znamená, že proporcionální účinek léčby se může časem měnit; např. lék může být velmi účinný, pokud je podán do jednoho měsíce od morbidity , a postupem času bude méně účinný. Poté lze testovat hypotézu, že nedojde ke změně času (stacionárnosti) koeficientu. Podrobnosti a software ( balíček R ) jsou k dispozici v Martinussen a Scheike (2006). V matematice spolehlivosti se uvažuje o použití Coxova modelu s časově proměnnými proměnnými.

V této souvislosti lze také zmínit, že je teoreticky možné určit účinek kovariací pomocí aditivních nebezpečí, tj. Specifikací

{\ displaystyle \ lambda (t | X_ {i}) = \ lambda _ {0} (t) + \ beta _ {1} X_ {i1} + \ cdots + \ beta _ {p} X_ {ip} = \ lambda _ {0} (t) + X_ {i} \ cdot \ beta.}

Pokud se takové modely aditivních rizik používají v situacích, kdy je cílem maximalizace (log-) pravděpodobnosti, je třeba dbát na omezení na nezáporné hodnoty. Možná v důsledku této komplikace jsou takové modely zřídka vidět. Pokud je cíl namísto nejmenších čtverců, omezení negativity není striktně vyžadováno. ${\ displaystyle \ lambda (t \ mid X_ {i})}$

Určení základní funkce nebezpečí

Coxův model může být specializovaný, pokud existuje důvod předpokládat, že základní riziko má určitou formu. V tomto případě je základní riziko nahrazeno danou funkcí. Například za předpokladu, že riziková funkce bude Weibullova nebezpečná funkce, získá Weibullův model proporcionálních rizik . ${\ displaystyle \ lambda _ {0} (t)}$

Mimochodem, použití Weibullova základního nebezpečí je jedinou okolností, za níž model splňuje jak proporcionální rizika, tak modely zrychlené doby selhání .

Obecný termín parametrické modely proporcionálních rizik lze použít k popisu modelů proporcionálních rizik, ve kterých je specifikována funkce nebezpečí. Coxův model proporcionálních rizik se naopak nazývá semiparametrický model .

Někteří autoři používají termín Coxův model proporcionálních rizik, i když specifikují základní funkci rizika, aby uznali dluh celého pole vůči Davidovi Coxovi.

Termín Coxův regresní model (vynechání proporcionálních rizik ) se někdy používá k popisu rozšíření Coxova modelu tak, aby zahrnoval časově závislé faktory. Toto použití je však potenciálně nejednoznačné, protože Coxův model proporcionálních rizik lze sám popsat jako regresní model.

Vztah k Poissonovým modelům

Mezi modely proporcionálních rizik a Poissonovými regresními modely existuje vztah, který se někdy používá k přizpůsobení přibližných modelů proporcionálních rizik v softwaru pro Poissonovu regresi. Obvyklým důvodem je to, že výpočet je mnohem rychlejší. To bylo důležitější ve dnech pomalejších počítačů, ale stále to může být užitečné pro zvláště velké datové sady nebo složité problémy. Laird a Olivier (1981) poskytují matematické podrobnosti. Poznamenávají: „Nepředpokládáme, že [Poissonův model] je pravdivý, ale jednoduše jej použijeme jako prostředek pro odvození pravděpodobnosti.“ Kniha McCullagha a Neldera o zobecněných lineárních modelech obsahuje kapitolu o převodu modelů proporcionálních rizik na zobecněné lineární modely .

Ve vysokodimenzionálním nastavení

Ve vysoké dimenzi, kdy je počet kovariátů p velký ve srovnání s velikostí vzorku n, je metoda LASSO jednou z klasických strategií výběru modelu. Tibshirani (1997) navrhl lasův postup pro parametr proporcionální regrese nebezpečí. Odhad laso regresního parametru β je definován jako minimalizátor opaku Coxovy částečné logaritmické pravděpodobnosti při omezení typu L ¹ -norm .

{\ displaystyle \ ell (\ beta) = \ součet _ {j} \ vlevo (\ součet _ {i \ v H_ {j}} X_ {i} \ cdot \ beta - \ součet _ {\ ell = 0} ^ {m-1} \ log \ left (\ sum _ {i: Y_ {i} \ geq t_ {j}} \ theta _ {i} - {\ frac {\ ell} {m}} \ sum _ {i \ in H_ {j}} \ theta _ {i} \ right) \ right) + \ lambda \ | \ beta \ | _ {1},}

V poslední době došlo v tomto tématu k teoretickému pokroku.

Viz také

Poznámky

Reference

Bagdonavicius, V .; Levuliene, R .; Nikulin, M. (2010). "Kritéria shody pro model Cox z dat zkrácených a správně cenzurovaných dat". Journal of Mathematical Sciences . 167 (4): 436–443. doi : 10,1007 / s10958-010-9929-6 .
Cox, DR; Oakes, D. (1984). Analýza údajů o přežití . New York: Chapman & Hall. ISBN 978-0412244902.
Collett, D. (2003). Modelování údajů o přežití v lékařském výzkumu (2. vydání). Boca Raton: CRC. ISBN 978-1584883258.
Gouriéroux, Christian (2000). "Modely trvání" . Ekonometrie kvalitativních závislých proměnných . New York: Cambridge University Press. 284–362. ISBN 978-0-521-58985-7.
Singer, Judith D .; Willett, John B. (2003). "Přizpůsobení Coxových regresních modelů" . Aplikovaná analýza podélných dat: Změna modelování a výskyt událostí . New York: Oxford University Press. 503–542. ISBN 978-0-19-515296-8.
Therneau, TM; Grambsch, PM (2000). Modelování údajů o přežití: Rozšíření Coxova modelu . New York: Springer. ISBN 978-0387987842.

Languages

In other projects