Diagnostisch onderzoek
Auteur | M. Soete | |
Co-Auteur | ir. N van Geloven | |
auteurschap op deze site |
Bij diagnostisch onderzoek, het onderzoeken van meetinstrumenten, gaat het vaak om de volgende drie vragen:
- Is het instrument valide/accuraat (meet het instrument wat hij moet meten en kan het meetinstrument onderscheid maken tussen zieke en niet zieke mensen, of onderscheid tussen ernstige klachten en niet ernstige klachten)?
- Is het betrouwbaar (levert het meetinstrument dezelfde resultaten op bij herhaling door een of door verschillende personen en bij verschillende proefpersonen)?
- Is het responsief (kan het meetinstrument een verandering aantonen)?
Wat is diagnostische accuraatheid?
De diagnostische accuraatheid (eng: diagnostic accuracy) van een test is de capaciteit van een test om personen (of dieren of zaken) in twee klassen (bijvoorbeeld personen met de door de test onderzochte ziekte en personen zonder de ziekte) correct in te delen (Šimundić).
Welke maten zijn er om diagnostische accuraatheid uit te drukken?
Men kan de diagnostische accuraatheid in verschillende maten uitdrukken. Frequent gebruikte maten zijn: sensitiviteit en specificiteit, likelihood ratios, (positieve en negatieve) predictieve waarden, de diagnostische odds ratio, de oppervlakte onder de ROC-curve (AUC, AUROC). Andere minder frequent gebruikte maten zijn onder meer Youden’s index, Yule’s Q, Yule’s Y.
Wat wordt bedoeld met sensitiviteit en specificiteit?
Sensitiviteit en specificiteit gebruik je wanneer je een nieuwe test of meetmethode met een "gouden standaard" vergelijkt. Sensitiviteit heeft betrekking op personen die door de gouden standaard als positief worden bestempeld. Sensitiviteit is dan het percentage van die groep die ook door de nieuwe test als positief worden bestempeld. Specificiteit heeft betrekking op personen die door de gouden standaard als negatief worden bestempeld. Specificiteit is dan het percentage van die groep die ook door de nieuwe test als negatief worden bestempeld. De informatie over het relatief aantal 'waar-positieven' en 'waar-negatieven' kan gecombineerd worden met behulp van de diagnostische odds ratio.
Hoe kies ik de geschikte maat voor diagnostische accuraatheid?
De keuze van de maat hangt af van het soort studie, het soort testvariabele en van de voorkeur van de onderzoeker.
Wanneer bijvoorbeeld de prevalentie niet bekend is zoals in case-control studies dan kunnen predictieve waarden (en posttestwaarschijnlijkheden van ziekte, nakansen) niet zinvol berekend worden. Inderdaad, predictieve waarden (en posttestwaarschijnlijkheden van ziekte, nakansen) zijn sterk afhankelijk van de prevalentie van de ziekte in de onderzochte populatie. In een niet representatieve steekproef, zoals in case-control studies kan deze prevalentie naar goeddunken gekozen worden in tegenstelling tot onderzoeksopzetten waar men een representatieve sample van de bestudeerde populatie neemt. Sensitiviteit en specificiteit, odds ratio, AUC’s (naast andere maten zoals onder meer Yule’s Q en Yule’s Y) zijn niet afhankelijk van de prevalentie en kunnen wel bij studies waar de prevalentie gemanipuleerd kan worden gebruikt worden.
De diagnostische odds ratio en de AUC zijn uitstekende maten om de globale diagnostische kwaliteit van testen uit te drukken. Deze maten kunnen volstaan voor een test met continue uitslagen. Voor testen met dichotome uitslagen (hoog-laag, ja-nee) en bij gedichotomiseerde testuitslagen bij middel van een afkappunt (bv. >= 5 t.o.v. <5) zal men maten moeten hanteren die afzonderlijk de kwaliteit van de test voor een positieve en voor een negatieve testuitslag uitdrukken. Het kan inderdaad dat een bepaalde test van dat soort goed is voor het uitsluiten of stellen van een diagnose of voor beide (respectievelijk een test met hoge sensitiviteit, hoge specificiteit of hoge sensitiviteit en specificiteit). Om over de graad van diagnostische kwaliteit te oordelen bij positief en negatief testresultaat zijn nakansen, predictieve waarden, sensitiviteit en specificiteit en likelihood ratios de geschikte soort maten.
Zo is bijvoorbeeld bij de ANA-test (anti-nuclear antibody) voor diagnose van SLE (systemic lupus erythematosus test) de waarde van een negatief resultaat om een overwogen diagnose SLE uit te sluiten zeer hoog maar de diagnostische waarde bij een positieve testuitslag voor de diagnose SLE is veel te laag (T.G. Tape). Zijn, in tegenstelling met de zopas vermelde ANA-test, zowel sensitiviteit als specificiteit erg hoog zoals bijvoorbeeld bij kwantitatieve EEG (QEEG) voor de diagnose van hersendysfunctie typisch voor organische hersenbeschadiging na ongeval (sensitiviteit = 95,4% en specificiteit = 97,4%) (Thornton & Carmody), dan mag men aannemen dat de diagnostische kwaliteit van de test zowel voor het stellen van de diagnose als voor het uitsluiten ervan zeer hoog is en dus dat de diagnose organische traumatische hersenbeschadiging bij positief resultaat met zeer hoge graad van zekerheid gesteld mag worden en dat de diagnose organische traumatische hersenbeschadiging bij negatief resultaat eveneens met practische zekerheid uitgesloten mag worden (Davidson, 2002).
Er is dus bij dichotome testuitslagen duidelijk nood aan minstens twee maten voor de weergave van de diagnostische kwaliteit van de test (wat niet belet een globale maat voor de testcapaciteit van dit soort testen er desgewenst betekenisvol aan toe te voegen). Bij testen met continue testuitslagen kan men verkiezen een afkappunt te bepalen in welk geval men ook nood zal hebben aan minstens twee maten.
Kan ik het relatief aantal goed geclassificeerde personen gebruiken als maat voor diagnostische accuraatheid?
Nee. Onterecht wordt soms de diagnostische efficiëntie (som van waar-positieven en waar-negatieven gedeeld door het totaal aantal observaties in de steekproef) als een maat voor diagnostische accuraatheid aangezien. De diagnostische efficiëntie is niet enkel een functie van de diagnostische accuraatheid maar ze wordt tevens sterk beïnvloed door de prevalentie en de positiviteit van de test (aantal positieven gedeeld door totaal aantal van de steekproef). Wanneer bv. er geen diagnostische accuraatheid is en de prevalentie en de positiviteit 50% zijn dan is de diagnostische efficiëntie 50%, indien evenwel de prevalentie 90% is en de positiviteit ook 90% dan is de diagnostische efficiëntie 82% indien er geen diagnostische accuraatheid is. De maat is niet in staat een gebrek aan diagnostische accuraatheid aan te wijzen, laat staan dat ze de graad ervan zou kunnen reflecteren.
Hoe kan ik grafisch de diagnostische accuraatheid weergeven?
De diagnostische capaciteit van een test kan grafisch voorgesteld worden door een ROC-curve die correspondeert met een bepaalde odds ratio te construeren. Uiteraard kan deze dan ook grafisch voorgesteld door de oppervlakte onder deze kromme. Deze werkwijze vooronderstelt dat de odds ratios bij iedere testuitslag op een test met continue testuitslagen niet significant van elkaar verschillen en dat testen met dichotome testuitslagen gedacht worden continue testuitslagen te produceren. Deze laatste aanname zorgt ervoor dat testen met continue of dichotome testresultaten met elkaar naar hun globale graad van diagnostische accuraatheid vergeleken kunnen worden (als aangenomen en/of verondersteld kan worden dat de odds ratio theoretisch gelijk blijft bij elk afkappunt).
Vaker worden bij continue testuitslagen empirische ROC-curven geconstrueerd. Ze zijn gekenmerkt door een schoksgewijze allesbehalve vloeiend, naar curveachtig tenderend verloop omdat ze de sensitiviteit en specificiteit bij gebruik van verschillende afkappunten weergeven. De berekening van de oppervlakte onder de curve gebeurt ook op andere wijze dan bij curven geconstrueerd door ze te laten corresponderen met de odds ratio.
Hoe analyseer ik de betrouwbaarheid van mijn meetmethode?
Als je naar de betrouwbaarheid van een meetinstrument (of meetmethode) kijkt, worden vaak de volgende analyses gedaan:
- Inter-observer agreement (2 of meer beoordelaars)
- Intra-observer agreement (meerdere beoordelingen van 1 beoordelaar)
Inter-observer agreement geeft aan in hoeverre verschillende observers tot hetzelfde oordeel komen bij het uitvoeren van eenzelfde meting. Het geeft daarmee aan hoe gevoelig de metingen zijn voor de persoon die de metingen verricht. Bij intra-observer agreement wordt gekeken in hoeverre een observer tot hetzelfde oordeel komt bij het herhaalderlijk uitvoeren van een meting.
Voor deze analyses worden vaak de intraclass correlatie coefficient en Cohen's kappa gebruikt.
Hoe kan ik toetsen of er een verschil bestaat tussen 2 gepaarde AUC's?
Ik wil graag de diagnostische waarde van twee variabelen vergelijken in termen van area under the ROC curve. Deze AUC's zijn afkomstig van dezelfde dataset.
AUC1 0.56 (95% CI 0.51 to 0.61) variabele 1 tov uitkomst
AUC2 0.53 (95% CI 0.48 to 0.58) variabele 2 tov uitkomst
Dan zal de vergelijking van de AUCs rekening moeten houden met de gepaardheid. De onderste referentie op deze pagina geeft aan hoe dat gedaan kan worden. Helaas is er geen directe procedure voor in SPSS. . Er is wel een programma op het web verkijgbaar (medcalc: http://www.medcalc.org/index.php, kijk onder download) waarin de Hanley & McNeil methode is geimplementeerd. Je kunt het 15 dagen gratis proberen voordat je het aanschaft. Ook zijn er in andere paketten als Stata (roccomp) en R (meer geavanceerde) functies voor.
Referenties
- Bland J.M., Altman D.G. Statistical methods for assessing agreement between two methods of clinical measurement, Lancet 1986, 1:307-310)
- SPSS handleiding met oa uitleg over hoe een Bland-Altman plot te maken.
- Obuchowski, N.A., Estimating and Comparing Diagnostic Tests’ Accuracy When the Gold Standard Is Not Binary, Academic Radiology, Vol 12, No 9, September 2005
- ROC curve op www.anaesthetist.com Zeer veel uitleg over allerhande toepassingen van de ROC curve.
- A. Šimundić. Measures of diagnostic accuracy: basic definitions. Medical and Biological Sciences, 2008, 22/4; 61-65
- T.G. Tape. Interpretating diagnostic tests. Internettekst, laatste raadpleging: 24.11.2010.
- K.E. Thornton & D.P. Carmody. Traumatic Brain Injury Rehabilitation. Efficacy Review of Computers, Strategies, QEEG Guided Neurofeedback and Medications, Technical Report #1 of the Brain Foundation. Internettekst, laatste raadpleging: 24.11.2010.
- M. Davidson. The interpretation of diagnostic tests: a primer for physiotherapists. Australian Journal for Physiotherapists, 2002, 48:227-233.
- Hanley JA, McNeil BJ. A Method of Comparing the Areas under Receiver Operating Characteristic Curves Derived from the Same Cases. Radiology 1983. A simple though somewhat rough way to test the difference between two AUCs derived from the same cases.
Terug naar OVERZICHT voor een overzicht van alle statistische onderwerpen op deze wiki.
Terug naar KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse.