Survival analyse: Difference between revisions
No edit summary |
No edit summary |
||
Line 1: | Line 1: | ||
Survival analyse wordt gebruikt voor data | Survival analyse wordt gebruikt voor data die informatie geeft over de tijd tot het optreden van een bepaald event. Met tijd wordt in deze bedoeld het aantal jaren, maanden of weken vanaf de start van de follow-up van een patient tot aan het optreden van een event. Het event kan overlijden zijn (vandaar de naam survival analyse), maar ook een relapse, herstel of een ander helder gedefinieerd eindpunt. In het algemeen wordt er bij survival analyse vanuit gegaan dat er maar één type risico is en dat een event per individu maar hoogstens één keer kan optreden. Bij meerdere risico's of meerdere herhalingen van een event zijn meer geavanceerde analyse technieken nodig zoals [[recurrent event survival analyse]] of [[competing risks survival analyse]]. | ||
Bij het meten van tijd-tot-event data is vaak sprake van gecensureerde waarnemingen. Hierbij heb je iets aan informatie over de 'survival time' van een patient, maar weet je niet precies hoe lang de tijd-tot-event is. | Bij het meten van tijd-tot-event data is vaak sprake van gecensureerde waarnemingen. Hierbij heb je iets aan informatie over de 'survival time' van een patient, maar weet je niet precies hoe lang de tijd-tot-event is. Een voorbeeld. Stel dat in een studie patienten over een periode van twaalf weken gevolgd worden. Censurering (Eng.: censoring) kan op drie manieren optreden: | ||
*Een patient is gevolgd vanaf het begin van de | *Een patient is gevolgd vanaf het begin van de studie tot aan het eind van de 12 weekse studie periode. Op dat moment heeft de patient het event nog niet gekregen. We weten nu alleen dat de tijd-tot-event van deze persoon langer is dan 12 weken. | ||
*Een patient trekt zich terug uit de studie na 6 weken, dus voor het eind van de studieperiode. Van deze persoon weten we alleen dat de tijd-tot event langer is dan 6 weken. | *Een patient trekt zich terug uit de studie na 6 weken, dus voor het eind van de studieperiode. Van deze persoon weten we alleen dat de tijd-tot event langer is dan 6 weken. Of een patient start aan de studie maar raakt na het laatste contact op 8 weken 'lost to follow up'. Ook van deze patient weten we alleen dat de eventvrije periode langer is dan 8 weken. | ||
*Een patient kan niet tot het einde gevolgd worden doordat hij een ander type event krijgt. Bijvoorbeeld: we onderzoeken tijd tot relapse na operatie, maar een patient overlijdt tijdens de studie zonder een relapse gehad te hebben. | |||
Line 13: | Line 13: | ||
==Wanneer gebruik ik een Kaplan Meier analyse?== | ==Wanneer gebruik ik een Kaplan Meier analyse?== | ||
Om | Om de tijd tot het optreden van het event voor de gehele steekproef te kwantificeren, wordt er vaak een Kaplan Meier analyse gebruikt. De Kaplan Meier analyse is een niet-parametrische aanpak. Dat wil zeggen dat er geen aanname gedaan wordt ten aanzien van het soort verdeling (normaal, gamma etc.) van de event tijden. Toch zitten er wel een paar aannames achter deze methode: | ||
*De prognose van patienten die vroeg of laat zijn geïncludeerd in de studie is gelijk. | *De prognose van patienten die vroeg of laat zijn geïncludeerd in de studie is gelijk. | ||
*Patienten die | *Patienten die gecensureerd zijn op een bepaald tijdstip hebben dezelfde prognose als patienten die op datzelfde tijdstip wel in de studie zijn gebleven (en op dat moment nog geen event hebben gehad). Er wordt niet aan deze aanname voldaan als bijvoorbeeld personen met een grote kans op een event vlak voordat het event optreedt de studie verlaten. | ||
* | *De tijdstippen waarop de events optreden zijn exact bekend. | ||
De Kaplan Meier procedure | De basis gedachte achter de Kaplan Meier procedure is het opdelen van de tijdsschaal. Op ieder moment dat er bij één of meerdere patienten een event optreedt, wordt de kans daarop geschat door het aantal events op dat moment te delen door het aantal personen dat op dat moment nog in de studie zit (i.e. niet eerder al een event heeft gehad of gecensureerd is). De survival functie (of cumulatieve proportie van 'survivors') combineert deze schattingen over alle tijdstippen. Op deze manier wordt het resultaat minimaal beïnvloed door patienten die halverwege de rit gecensureerd raken. Een Kaplan-Meier analyse resulteert in een 'life table' en een survival curve. Bijvoorbeeld: | ||
[[Image:survivaltableandcurve6.jpg]] | [[Image:survivaltableandcurve6.jpg]] | ||
==Hoe test ik of Kaplan Meier curves van elkaar verschillen?== | ==Hoe test ik of Kaplan Meier curves van elkaar verschillen?== | ||
Om te testen of de Kaplan Meier curves van 2 (of meer) groepen significant van elkaar verschillen, wordt vaak de log-rank test gebruikt. | We kunnen de curves ook apart schatten en vergelijken voor twee (of meer) subgroepen in onze data. Om te testen of de Kaplan Meier curves van 2 (of meer) groepen significant van elkaar verschillen, wordt vaak de log-rank test gebruikt. Hierbij is de nulhypothese dat de curves niet van elkaar verschillen. De test vergelijkt de geobserveerde verschillen tussen de survival curves met verschillen die zouden kunnen ontstaan als er geen verschil is tussen de groepen. In het volgende voorbeeld concluderen we bijvoorbeeld dat het verschil tussen treatment A en treatment B significant is: | ||
[[Image:logranktest4.jpg]] | [[Image:logranktest4.jpg]] | ||
Line 37: | Line 37: | ||
==Wanneer gebruik ik een Cox proportional hazards model?== | ==Wanneer gebruik ik een Cox proportional hazards model?== | ||
Wanneer er bij een | Wanneer er bij een survival analyse slechts één voorspellende factor onderzocht wordt die slechts een paar mogelijke waardes kan aannemen, kan een [[survival analyse#Kaplan Meier analyse|Kaplan Meier analyse]] volstaan. Zijn er echter meerdere factoren die de overleving kunnen beinvloeden, dan is een uitgebreider model nodig. Een veel gebruikt model is het Cox proportional hazards model. Hiermee kun je net als met andere [[multivariabele regressie| multivariabele regressie modellen]] meerdere voorspellers tegelijk bestuderen. Voordeel van het Cox model boven een Kaplan Meier analyse is bovendien dat er naast de vraag "is er een effect" ook antwoord gegeven wordt op de vraag "hoe groot is het effect" van een bepaalde voorspeller. Het Cox model geeft de grootte van een effect weer met behulp van hazard ratio's (HR), waarbij een HR van 1 aangeeft dat er geen verschil is. De hazard is de instantane kans om een event te krijgen, en een hazard ratio is vergelijkbaar met een relatief risico. Bijvoorbeeld: "During the 31-year follow-up, 87 women developed lung cancer. There was no association between hormone use and lung cancer (hazard ratio, 1.13; 95% CI, 0.73-1.73)." | ||
Het Cox model maakt een belangrijke aanname: de proportional hazards assumptie. Deze zegt dat de HR's constant zijn in de tijd. Dit betekent dat het verschil in hazard | Het Cox model maakt een belangrijke aanname: de proportional hazards assumptie. Deze zegt dat de HR's constant zijn in de tijd. Dit betekent dat het relatieve verschil in hazard veroorzaakt door verschillende waardes van een voorspeller gelijk blijft in de tijd. Er wordt in het bovenstaande voorbeeld dus vanuit gegaan dat het wel of niet gebruiken van hormonen een zelfde invloed heeft na 1 jaar als na 30 jaar follow up: op ieder tijdstip wordt de kans op het optreden van longkanker bij hormoongebruik 1.13 keer hoger geschat dan dezelfde kans als er geen hormonen werden gebruikt. | ||
==Hoe test ik de proportional hazards assumptie binnen een Cox model?== | ==Hoe test ik de proportional hazards assumptie binnen een Cox model?== | ||
Line 46: | Line 46: | ||
*Grafisch | *Grafisch | ||
Als een variabele in het model voldoet aan de proportional hazards (PH) assumptie, dan zullen de geschatte overlevingscurves voor de | Als een variabele in het model voldoet aan de proportional hazards (PH) assumptie, dan zullen de geschatte overlevingscurves, op de zogenaamde log-schaal, voor de waardes van deze variabele parallel lopen. Je kunt hier naar kijken door in het cox model de variabele voor welke je de PH assumptie wilt onderzoeken niet meer als covariaat, maar als stratum mee te geven en te vragen om log minus log survival plots. De resulterende lijnen moeten op het oog parallel lopen (zeker elkaar niet kruisen) om te voldoen aan de PH assumptie voor deze variabele. Voor iedere variabele in het model is een dergelijke plot nodig. | ||
*Testen van (Schoenfeld) residuen | *Testen van (Schoenfeld) residuen | ||
Line 52: | Line 52: | ||
*Toevoegen van een tijdsafhankelijke variabele | *Toevoegen van een tijdsafhankelijke variabele | ||
Anticiperend op het mogelijk niet voldoen aan de PH assumptie kun je ook een time dependent | Anticiperend op het mogelijk niet voldoen aan de PH assumptie kun je ook een time dependent Cox model draaien met daarin een tijdsafhankelijke variabele opgenomen (bijvoorbeeld GENDER*T). Als deze tijdsafhankelijke variabele significant bijdraagt aan het model, is er blijkbaar niet aan de PH assumptie voldaan. | ||
= Referenties = | = Referenties = |
Revision as of 15:08, 19 May 2009
Survival analyse wordt gebruikt voor data die informatie geeft over de tijd tot het optreden van een bepaald event. Met tijd wordt in deze bedoeld het aantal jaren, maanden of weken vanaf de start van de follow-up van een patient tot aan het optreden van een event. Het event kan overlijden zijn (vandaar de naam survival analyse), maar ook een relapse, herstel of een ander helder gedefinieerd eindpunt. In het algemeen wordt er bij survival analyse vanuit gegaan dat er maar één type risico is en dat een event per individu maar hoogstens één keer kan optreden. Bij meerdere risico's of meerdere herhalingen van een event zijn meer geavanceerde analyse technieken nodig zoals recurrent event survival analyse of competing risks survival analyse.
Bij het meten van tijd-tot-event data is vaak sprake van gecensureerde waarnemingen. Hierbij heb je iets aan informatie over de 'survival time' van een patient, maar weet je niet precies hoe lang de tijd-tot-event is. Een voorbeeld. Stel dat in een studie patienten over een periode van twaalf weken gevolgd worden. Censurering (Eng.: censoring) kan op drie manieren optreden:
- Een patient is gevolgd vanaf het begin van de studie tot aan het eind van de 12 weekse studie periode. Op dat moment heeft de patient het event nog niet gekregen. We weten nu alleen dat de tijd-tot-event van deze persoon langer is dan 12 weken.
- Een patient trekt zich terug uit de studie na 6 weken, dus voor het eind van de studieperiode. Van deze persoon weten we alleen dat de tijd-tot event langer is dan 6 weken. Of een patient start aan de studie maar raakt na het laatste contact op 8 weken 'lost to follow up'. Ook van deze patient weten we alleen dat de eventvrije periode langer is dan 8 weken.
- Een patient kan niet tot het einde gevolgd worden doordat hij een ander type event krijgt. Bijvoorbeeld: we onderzoeken tijd tot relapse na operatie, maar een patient overlijdt tijdens de studie zonder een relapse gehad te hebben.
Kaplan Meier analyse
Wanneer gebruik ik een Kaplan Meier analyse?
Om de tijd tot het optreden van het event voor de gehele steekproef te kwantificeren, wordt er vaak een Kaplan Meier analyse gebruikt. De Kaplan Meier analyse is een niet-parametrische aanpak. Dat wil zeggen dat er geen aanname gedaan wordt ten aanzien van het soort verdeling (normaal, gamma etc.) van de event tijden. Toch zitten er wel een paar aannames achter deze methode:
- De prognose van patienten die vroeg of laat zijn geïncludeerd in de studie is gelijk.
- Patienten die gecensureerd zijn op een bepaald tijdstip hebben dezelfde prognose als patienten die op datzelfde tijdstip wel in de studie zijn gebleven (en op dat moment nog geen event hebben gehad). Er wordt niet aan deze aanname voldaan als bijvoorbeeld personen met een grote kans op een event vlak voordat het event optreedt de studie verlaten.
- De tijdstippen waarop de events optreden zijn exact bekend.
De basis gedachte achter de Kaplan Meier procedure is het opdelen van de tijdsschaal. Op ieder moment dat er bij één of meerdere patienten een event optreedt, wordt de kans daarop geschat door het aantal events op dat moment te delen door het aantal personen dat op dat moment nog in de studie zit (i.e. niet eerder al een event heeft gehad of gecensureerd is). De survival functie (of cumulatieve proportie van 'survivors') combineert deze schattingen over alle tijdstippen. Op deze manier wordt het resultaat minimaal beïnvloed door patienten die halverwege de rit gecensureerd raken. Een Kaplan-Meier analyse resulteert in een 'life table' en een survival curve. Bijvoorbeeld:
Hoe test ik of Kaplan Meier curves van elkaar verschillen?
We kunnen de curves ook apart schatten en vergelijken voor twee (of meer) subgroepen in onze data. Om te testen of de Kaplan Meier curves van 2 (of meer) groepen significant van elkaar verschillen, wordt vaak de log-rank test gebruikt. Hierbij is de nulhypothese dat de curves niet van elkaar verschillen. De test vergelijkt de geobserveerde verschillen tussen de survival curves met verschillen die zouden kunnen ontstaan als er geen verschil is tussen de groepen. In het volgende voorbeeld concluderen we bijvoorbeeld dat het verschil tussen treatment A en treatment B significant is:
Er zijn ook alternatieven voor de log rank test, namelijk:
- Wilcoxon test (in SPSS de Breslow test genoemd). Deze test weegt verschillen in het begin van de survival curves zwaarder dan verschillen aan het einde van de curves. De test is bijvoorbeeld geschikt om te bepalen of het effect van een behandeling op survival het sterkst is in de eerste fase en later minder effectief wordt.
- Tarone-Ware test. Deze test geeft net als de Wilcoxon test meer relatief meer gewicht aan verschillen op vroege momenten (maar minder uitgesproken dan de Wilcoxon test).
Waar vind ik de Kaplan Meier analyse in SPSS?
Je vindt de Kaplan Meier analyse in SPSS 16 onder Analyze -> Survival -> Kaplan-Meier.
Cox regressie
Wanneer gebruik ik een Cox proportional hazards model?
Wanneer er bij een survival analyse slechts één voorspellende factor onderzocht wordt die slechts een paar mogelijke waardes kan aannemen, kan een Kaplan Meier analyse volstaan. Zijn er echter meerdere factoren die de overleving kunnen beinvloeden, dan is een uitgebreider model nodig. Een veel gebruikt model is het Cox proportional hazards model. Hiermee kun je net als met andere multivariabele regressie modellen meerdere voorspellers tegelijk bestuderen. Voordeel van het Cox model boven een Kaplan Meier analyse is bovendien dat er naast de vraag "is er een effect" ook antwoord gegeven wordt op de vraag "hoe groot is het effect" van een bepaalde voorspeller. Het Cox model geeft de grootte van een effect weer met behulp van hazard ratio's (HR), waarbij een HR van 1 aangeeft dat er geen verschil is. De hazard is de instantane kans om een event te krijgen, en een hazard ratio is vergelijkbaar met een relatief risico. Bijvoorbeeld: "During the 31-year follow-up, 87 women developed lung cancer. There was no association between hormone use and lung cancer (hazard ratio, 1.13; 95% CI, 0.73-1.73)."
Het Cox model maakt een belangrijke aanname: de proportional hazards assumptie. Deze zegt dat de HR's constant zijn in de tijd. Dit betekent dat het relatieve verschil in hazard veroorzaakt door verschillende waardes van een voorspeller gelijk blijft in de tijd. Er wordt in het bovenstaande voorbeeld dus vanuit gegaan dat het wel of niet gebruiken van hormonen een zelfde invloed heeft na 1 jaar als na 30 jaar follow up: op ieder tijdstip wordt de kans op het optreden van longkanker bij hormoongebruik 1.13 keer hoger geschat dan dezelfde kans als er geen hormonen werden gebruikt.
Hoe test ik de proportional hazards assumptie binnen een Cox model?
Er zijn meerdere manieren om de PH assumptie van een Cox model te testen:
- Grafisch
Als een variabele in het model voldoet aan de proportional hazards (PH) assumptie, dan zullen de geschatte overlevingscurves, op de zogenaamde log-schaal, voor de waardes van deze variabele parallel lopen. Je kunt hier naar kijken door in het cox model de variabele voor welke je de PH assumptie wilt onderzoeken niet meer als covariaat, maar als stratum mee te geven en te vragen om log minus log survival plots. De resulterende lijnen moeten op het oog parallel lopen (zeker elkaar niet kruisen) om te voldoen aan de PH assumptie voor deze variabele. Voor iedere variabele in het model is een dergelijke plot nodig.
- Testen van (Schoenfeld) residuen
Er kan een formele test gedaan worden mbv Schoenfeld residuen. Er is geen standaard functie hiervoor in SPSS. In Stata (functie estat phtest) of R (functie cox.zph) kan het wel direct.
- Toevoegen van een tijdsafhankelijke variabele
Anticiperend op het mogelijk niet voldoen aan de PH assumptie kun je ook een time dependent Cox model draaien met daarin een tijdsafhankelijke variabele opgenomen (bijvoorbeeld GENDER*T). Als deze tijdsafhankelijke variabele significant bijdraagt aan het model, is er blijkbaar niet aan de PH assumptie voldaan.
Referenties
- Hosmer, D. W., and S. Lemeshow. 1999. Applied Survival Analysis. New York: John Wiley and Sons.
- Kleinbaum, D. G. 1996. Survival Analysis: A Self-Learning Text. New York: Springer-Verlag.
- Norusis, M. 2004. SPSS 13.0 Advanced Statistical Procedures Companion. Upper Saddle-River, N.J.: Prentice Hall, Inc..
Terug naar OVERZICHT voor een overzicht van alle statistische onderwerpen op deze wiki.
Terug naar KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse.