Multivariabele regressie: Difference between revisions
Line 19: | Line 19: | ||
== Referenties == | == Referenties == | ||
[[Media: | [[Media:Babyak_-_overfitting.pdf | What you see may not be what you get: a brief, nontechnical introduction to overfitting in regression-type models, Babyak M.A., Psychosom Med. 2004 May-Jun;66(3):411-21]] | ||
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"> | <div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"> |
Revision as of 17:52, 20 March 2009
Bij een multivariabele regressie worden er meerdere voorspellers tegelijkertijd gerelateerd aan de uitkomstmaat. Vaak wordt een multivariabel regressiemodel gebruikt om te corrigeren voor mogelijke confounders.
Hoe interpreteer ik een verschillende uitkomst in een univariabel en multivariabel model?
Voor een van mijn studies heb ik een logistische regressie analyse gedaan. Mijn outcome is een dichotome variabele: 1 is verbetering 0 is geen verbetering. Vervolgens wil ik weten of leeftijd en bepaalde genetische afwijkingen wel of geen invloed op die outcome hebben. Als ik alleen leeftijd toevoeg aan mijn model komt deze als zeer zeer significant uit de bus. Als ik daar dan vervolgens de genetische variabelen aan toevoeg, verdwijnt de significantie van age als predictor (p=0.054) en zijn alleen de genetische variabelen significante predictoren. Mijn vraag is nu, hoe moet ik dit interpreteren?
Als variabelen in je model zitten, maar ze zijn niet significant, dan betekent het dat ze geen significante associatie hebben met de uitkomstmaat, rekeninghoudend met het effect van de andere variabelen die op dat moment in je model zitten (dus conditioneel op die variabelen). Bij jou lijkt het er op dat het effect leeftijd gecorrigeerd voor de andere covariaten geen significant effect (bij een signniveau van 5%) heeft op de uitkomstmaat. Dit kan door twee zaken beïnvloed worden. Of de andere covariaten vagen het effect van leeftijd weg, of er is niet genoeg data om het effect van leeftijd als significant te bestempelen. Ook al is het conditionele verband even groot als het onconditionele, dan nog is vaak de precisie van het conditionele model minder groot (bredere betrouwbaarheidsintervallen), doordat men in een model meerdere verbanden schat en daardoor minder kracht heeft effecten aan te wijzen. Door niet alleen naar de p-waarde, maar ook naar het confidence interval te kijken, ben je iets minder afhankelijk van de harde (maar willekeurige) 5% grens.
Hoe kies ik welke variabelen ik meeneem in mijn multivariabele model?
Ik heb 90 patienten waarbij ik baseline parameters heb verzamled (9 lab parameters en 13 klinische parameters). Met een non-parameterische test heb ik gevonden dat 1 lab parameter en enkele klinische parameters verschillend zijn tussen beide uitkomst groepen (=diagnose wel/niet na 2 jaar). Nu wilde ik kijken welke parameters het beste voorspellend zijn voor uitkomst. Ik heb backward logistische regressie gedaan met de parameters die eerder een significant verschil lieten zien, maar ik weet niet zeker of dit de beste keuze is. Mogelijk moet het anders of moeten er meer parameters in of moeten parameters gecombineerd worden?
In jouw geval waarin je 90 patienten hebt en het effect van 21 (9+13) variabelen wilt testen, heb je niet genoeg patienten om al deze variabelen in 1 multivariabel model te testen (hetgeen natuurlijk het mooist zou zijn). Er moet dus een keuze gemaakt worden welke variabelen meegegeven gaan worden in een multivariabel model. Er bestaat geen consensus over de beste wijze om variabelen te selecteren, maar de keuze maak je altijd op basis van twee criteria:
- 1. Van welke variabelen verwacht ik een effect / welke variabelen vind ik relevant?
- 2. Voor welke variabelen geeft de data aan dat er een effect zou kunnen optreden?
Wat jij hebt gedaan is een soort univariabele preselectie van variabelen die je vervolgens in een multivariabel model meeneemt. Hoewel er methodologische nadelen te noemen zijn van deze aanpak, is het een veel gebruikte. Hierbij probeer je vraag 2 te beantwoorden. Je beschrijft echter dat je deze preselectie op basis van een niet-parametrische toets hebt gedaan, en dus niet op basis van hetzelfde (logistische?) model als waarin je de multivariabele analyse hebt gedaan. Als je hetzelfde model gebruikt, zou het de analyse consistenter maken. Verder is het zaak om bij de preselectie niet te streng te zijn met afwijzing. Een p-waarde van 0,10 of 0,20 zou hiervoor aangehouden kunnen worden. Je uiteindelijke conclusies zullen gebaseerd zijn op het multivariabele model waar je wel met een gebruikelijke strenge p-waarde kunt rekenen. Kijk ook nog eens kritisch naar de variabelen in het kader van vraag 1. Het combineren van variabelen ten slotte is ook een goede manier om het aantal te testen variabelen te verkleinen.
Referenties
Terug naar OVERZICHT voor een overzicht van alle statistische onderwerpen op deze wiki.
Terug naar KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse.