Diagnostisch onderzoek
Auteur | M. Soete | |
Co-Auteur | dr. ir. N van Geloven | |
auteurschap op deze site |
Bij diagnostisch onderzoek, het onderzoeken van meetinstrumenten, gaat het vaak om de volgende drie vragen:
- Is het instrument valide/accuraat (meet het instrument wat hij moet meten en kan het meetinstrument onderscheid maken tussen zieke en niet zieke mensen, of onderscheid tussen ernstige klachten en niet ernstige klachten)?
- Is het betrouwbaar (levert het meetinstrument dezelfde resultaten op bij herhaling door een of door verschillende personen en bij verschillende proefpersonen)?
- Is het responsief (kan het meetinstrument een verandering aantonen)?
Wat is diagnostische accuraatheid?
De diagnostische accuraatheid (eng: diagnostic accuracy) van een test is de capaciteit van een test om personen (of dieren of zaken) in twee klassen (bijvoorbeeld personen met de door de test onderzochte ziekte en personen zonder de ziekte) correct in te delen (Šimundić).
Welke maten zijn er om diagnostische accuraatheid uit te drukken?
Men kan de diagnostische accuraatheid in verschillende maten uitdrukken. Frequent gebruikte maten zijn: sensitiviteit en specificiteit, likelihood ratios, (positieve en negatieve) predictieve waarden, de diagnostische odds ratio, de oppervlakte onder de ROC-curve (AUC, AUROC). Andere minder frequent gebruikte maten zijn onder meer Youden’s index, Yule’s Q, Yule’s Y.
Wat wordt bedoeld met sensitiviteit en specificiteit?
Sensitiviteit en specificiteit gebruik je wanneer je een nieuwe test of meetmethode met een "gouden standaard" vergelijkt. Sensitiviteit heeft betrekking op personen die door de gouden standaard als positief worden bestempeld. Sensitiviteit is dan het percentage van die groep die ook door de nieuwe test als positief worden bestempeld. Specificiteit heeft betrekking op personen die door de gouden standaard als negatief worden bestempeld. Specificiteit is dan het percentage van die groep die ook door de nieuwe test als negatief worden bestempeld. De informatie over het relatief aantal 'waar-positieven' en 'waar-negatieven' kan gecombineerd worden met behulp van de diagnostische odds ratio.
Hoe kies ik de geschikte maat voor diagnostische accuraatheid?
De keuze van de maat hangt af van het soort studie, het soort testvariabele en van de voorkeur van de onderzoeker.
Wanneer bijvoorbeeld de prevalentie niet bekend is zoals in case-control studies dan kunnen predictieve waarden (en posttestwaarschijnlijkheden van ziekte, nakansen) niet zinvol berekend worden. Inderdaad, predictieve waarden (en posttestwaarschijnlijkheden van ziekte, nakansen) zijn sterk afhankelijk van de prevalentie van de ziekte in de onderzochte populatie. In een niet representatieve steekproef, zoals in case-control studies kan deze prevalentie naar goeddunken gekozen worden in tegenstelling tot onderzoeksopzetten waar men een representatieve sample van de bestudeerde populatie neemt. Sensitiviteit en specificiteit, odds ratio, AUC’s (naast andere maten zoals onder meer Yule’s Q en Yule’s Y) zijn niet afhankelijk van de prevalentie en kunnen wel bij studies waar de prevalentie gemanipuleerd kan worden gebruikt worden.
De diagnostische odds ratio en de AUC zijn uitstekende maten om de globale diagnostische kwaliteit van testen uit te drukken. Deze maten kunnen volstaan voor een test met continue uitslagen. Voor testen met dichotome uitslagen (hoog-laag, ja-nee) en bij gedichotomiseerde testuitslagen bij middel van een afkappunt (bv. >= 5 t.o.v. <5) zal men maten moeten hanteren die afzonderlijk de kwaliteit van de test voor een positieve en voor een negatieve testuitslag uitdrukken. Het kan inderdaad dat een bepaalde test van dat soort goed is voor het uitsluiten of stellen van een diagnose of voor beide (respectievelijk een test met hoge sensitiviteit, hoge specificiteit of hoge sensitiviteit en specificiteit). Om over de graad van diagnostische kwaliteit te oordelen bij positief en negatief testresultaat zijn nakansen, predictieve waarden, sensitiviteit en specificiteit en likelihood ratios de geschikte soort maten.
Zo is bijvoorbeeld bij de ANA-test (anti-nuclear antibody) voor diagnose van SLE (systemic lupus erythematosus test) de waarde van een negatief resultaat om een overwogen diagnose SLE uit te sluiten zeer hoog maar de diagnostische waarde bij een positieve testuitslag voor de diagnose SLE is veel te laag (T.G. Tape). Zijn, in tegenstelling met de zopas vermelde ANA-test, zowel sensitiviteit als specificiteit erg hoog zoals bijvoorbeeld bij kwantitatieve EEG (QEEG) voor de diagnose van hersendysfunctie typisch voor organische hersenbeschadiging na ongeval (sensitiviteit = 95,4% en specificiteit = 97,4%) (Thornton & Carmody), dan mag men aannemen dat de diagnostische kwaliteit van de test zowel voor het stellen van de diagnose als voor het uitsluiten ervan zeer hoog is en dus dat de diagnose organische traumatische hersenbeschadiging bij positief resultaat met zeer hoge graad van zekerheid gesteld mag worden en dat de diagnose organische traumatische hersenbeschadiging bij negatief resultaat eveneens met practische zekerheid uitgesloten mag worden (Davidson, 2002).
Er is dus bij dichotome testuitslagen duidelijk nood aan minstens twee maten voor de weergave van de diagnostische kwaliteit van de test (wat niet belet een globale maat voor de testcapaciteit van dit soort testen er desgewenst betekenisvol aan toe te voegen). Bij testen met continue testuitslagen kan men verkiezen een afkappunt te bepalen in welk geval men ook nood zal hebben aan minstens twee maten.
Kan ik het relatief aantal goed geclassificeerde personen gebruiken als maat voor diagnostische accuraatheid?
Nee. Onterecht wordt soms de diagnostische efficiëntie (som van waar-positieven en waar-negatieven gedeeld door het totaal aantal observaties in de steekproef) als een maat voor diagnostische accuraatheid aangezien. De diagnostische efficiëntie is niet enkel een functie van de diagnostische accuraatheid maar ze wordt tevens sterk beïnvloed door de prevalentie en de positiviteit van de test (aantal positieven gedeeld door totaal aantal van de steekproef). Wanneer bv. er geen diagnostische accuraatheid is en de prevalentie en de positiviteit 50% zijn dan is de diagnostische efficiëntie 50%, indien evenwel de prevalentie 90% is en de positiviteit ook 90% dan is de diagnostische efficiëntie 82% indien er geen diagnostische accuraatheid is. De maat is niet in staat een gebrek aan diagnostische accuraatheid aan te wijzen, laat staan dat ze de graad ervan zou kunnen reflecteren.
Hoe kan ik grafisch de diagnostische accuraatheid weergeven?
De diagnostische capaciteit van een test kan grafisch voorgesteld worden door een ROC-curve die correspondeert met een bepaalde odds ratio te construeren. Uiteraard kan deze dan ook grafisch voorgesteld door de oppervlakte onder deze kromme. Deze werkwijze vooronderstelt dat de odds ratios bij iedere testuitslag op een test met continue testuitslagen niet significant van elkaar verschillen en dat testen met dichotome testuitslagen gedacht worden continue testuitslagen te produceren. Deze laatste aanname zorgt ervoor dat testen met continue of dichotome testresultaten met elkaar naar hun globale graad van diagnostische accuraatheid vergeleken kunnen worden (als aangenomen en/of verondersteld kan worden dat de odds ratio theoretisch gelijk blijft bij elk afkappunt).
Vaker worden bij continue testuitslagen empirische ROC-curven geconstrueerd. Ze zijn gekenmerkt door een schoksgewijze allesbehalve vloeiend, naar curveachtig tenderend verloop omdat ze de sensitiviteit en specificiteit bij gebruik van verschillende afkappunten weergeven. De berekening van de oppervlakte onder de curve gebeurt ook op andere wijze dan bij curven geconstrueerd door ze te laten corresponderen met de odds ratio.
Hoe analyseer ik de betrouwbaarheid van mijn meetmethode?
Als je naar de betrouwbaarheid van een meetinstrument (of meetmethode) kijkt, worden vaak de volgende analyses gedaan:
- Inter-observer agreement (2 of meer beoordelaars)
- Intra-observer agreement (meerdere beoordelingen van 1 beoordelaar)
Inter-observer agreement geeft aan in hoeverre verschillende observers tot hetzelfde oordeel komen bij het uitvoeren van eenzelfde meting. Het geeft daarmee aan hoe gevoelig de metingen zijn voor de persoon die de metingen verricht. Bij intra-observer agreement wordt gekeken in hoeverre een observer tot hetzelfde oordeel komt bij het herhaalderlijk uitvoeren van een meting.
Voor deze analyses worden vaak de intraclass correlatie coefficient en Cohen's kappa gebruikt.
Hoe toets ik het verschil in sensitiviteit en specificiteit tussen twee diagnostische instrumenten?
Ik ben 2 beeldvormende strategieën aan het vergelijken bij patiënten die verdacht worden van appendicitis. De eerste strategie is de 'conditionele CT strategie': eerst bij iedereen een echo en indien deze negatief of inconclusief is daarna een CT. De andere strategie is de 'direct CT' strategie, waarbij iedereen die verdacht wordt van appendicitis direct een CT ondergaat. Ik wil de diagnostische accuratesse van deze twee strategieën met elkaar vergelijken. Allereerst wil ik de sensitiviteit en specificiteit van beide strategieën vergelijken. Dit heb ik gedaan middels de McNemar toets: allereerst selectie van de patiënten met appendicitis volgens de referentiewaarden, en dan cross tabs creëren voor conditioneel x direct (=sensitiviteit vergelijken). Hetzelfde voor de negatieven volgens de ref waarden (= specificiteit). Echter, ik ben in meerdere artikelen tegengekomen dat ze voor het vergelijken van sens en spec ook de chi-kwadraat toets test kan gebruiken. Wanneer moet/mag je nou de McNemar toets gebruiken voor het vergelijken van sens/sens en spec/spec en wanneer de chi-kwadraat toets?
De McNemar toets hoort bij een gepaarde opzet, de chi-kwadraat toets bij een ongepaarde opzet. Je hebt een gepaarde opzet als je van iedere patiënt zowel de uitslag van de 'conditionele CT strategie' als van de 'direct CT strategie' weet. In een ongepaarde opzet weet je bij een deel van patiënten de ene uitslag en bij een andere groep patiënten de tweede uitslag. Ik meen uit jouw dataset op te maken dat jij een gepaarde opzet hebt en de geschetste McNemar aanpak is daar dus de geëigende manier om de sens en spec te vergelijken.
Hoe kan ik in SPSS het verschil in sens en spec tussen twee ongepaarde diagnostische instrumenten toetsen?
Ik ben bezig met een retrospectief onderzoek naar diagnostiek van galgangatresie. Twee testen worden vergeleken: ERCP en leverbiopt, uitgevoerd in twee verschillende patiëntenpopulaties. Ik wil nu onderzoeken of er een significant verschil is in sensitiviteit en specificiteit tussen de twee testen. Ik heb begrepen dat je dit kunt testen met de Chi-kwadraat toets, maar hoe voer ik dat uit in SPSS?
Hiervoor is het nodig om de testuitslagen van de twee testen onder elkaar in 1 variabele te hebben staan. Daarnaast staat een variabele die aangeeft welke test het betreft en daarnaast staat aangegeven een variabele met de werkelijke uitslag (gouden standaard). Als volgt:
patiënt | testuitslag | type test | gouden standaard |
1 | pos | ERCP | pos |
2 | neg | biopt | pos |
3 | neg | ERCP | neg |
4 | etc | etc | etc |
Voor het vergelijken van de sensitiviteit moet er vervolgens een selectie gemaakt worden op de volgens de gouden standaard positieven (bijv via ‘Data -> Select Cases’). In deze patiëntselectie kan de Chi-kwadraat toets gedaan worden gebruik makend van de variabelen ‘testuitslag’ en ‘type test’ (via analyze -> crosstabs). Voor het vergelijken van de specificiteit is juist selectie op gouden standaard = neg nodig.
Hoe kan ik het verschil toetsen tussen twee gepaarde positief of negatief predictieve waarden?
Ik heb een groep van 420 patiënten, waarvan 231 patiënten met een negatieve test. Ondanks de negatieve test zijn er 4 patiënten met de ziekte (aangetoond met gouden standaard). In dezelfde groep van 420 patiënten heb ik 248 patiënten met een soortgelijke (maar net iets andere test) van wie er slechts een de ziekte heeft (aangetoond met gouden standaard). De testen hebben dus een negatief voorspellende waarde van 227/231 en 247/248 respectievelijk. Nu wil ik weten of dit significant van elkaar verschilt. Ik verwacht dat dat niet zo is gezien de overlappende CIs maar ik wil een p-waarde weten. Hoe voer ik hier een toets op uit?
Bij het vergelijken van dergelijke gepaarde negatief (of positief) voorspellende waardes is het statistisch lastige aspect dat een deel van de data gepaard zijn (deze patiënten scoorden op beide testen negatief) en deel van de data ongepaard (deze patiënten scoorden slechts op een van de twee testen negatief). Zowel de Chi-kwadraat toets als de McNemar toets is daardoor niet geschikt voor een dergelijke vergelijking. Dit vergt verdergaande statistische modellen, bijvoorbeeld een multilevel model of GEE. Details zijn te vinden in het standaardboek over diagnostische toetsen van Margaret Pepe) en ook deze paper van Wendy Leisenring. Deze methodes zijn o.a. geïmplementeerd in de R package DTComPair.
Hoe kan ik toetsen of er een verschil bestaat tussen 2 gepaarde AUC's?
Ik wil graag de diagnostische waarde van twee variabelen vergelijken in termen van area under the ROC curve. Deze AUC's zijn afkomstig van dezelfde dataset.
AUC1 0.56 (95% CI 0.51 to 0.61) variabele 1 tov uitkomst
AUC2 0.53 (95% CI 0.48 to 0.58) variabele 2 tov uitkomst
Dan zal de vergelijking van de AUCs rekening moeten houden met de gepaardheid. De onderste referentie op deze pagina geeft aan hoe dat gedaan kan worden. Helaas is er geen directe procedure voor in SPSS. . Er is wel een programma op het web verkijgbaar (medcalc: http://www.medcalc.org/index.php, kijk onder download) waarin de Hanley & McNeil methode is geïmplementeerd. Je kunt het 15 dagen gratis proberen voordat je het aanschaft. Ook zijn er in andere paketten als Stata (roccomp) en R (meer geavanceerde) functies voor.
Referenties
- Bland J.M., Altman D.G. Statistical methods for assessing agreement between two methods of clinical measurement, Lancet 1986, 1:307-310)
- Obuchowski, N.A., Estimating and Comparing Diagnostic Tests’ Accuracy When the Gold Standard Is Not Binary, Academic Radiology, Vol 12, No 9, September 2005
- ROC curve op www.anaesthetist.com Zeer veel uitleg over allerhande toepassingen van de ROC curve.
- A. Šimundić. Measures of diagnostic accuracy: basic definitions. Medical and Biological Sciences, 2008, 22/4; 61-65
- T.G. Tape. Interpretating diagnostic tests. Internettekst, laatste raadpleging: 24.11.2010.
- K.E. Thornton & D.P. Carmody. Traumatic Brain Injury Rehabilitation. Efficacy Review of Computers, Strategies, QEEG Guided Neurofeedback and Medications, Technical Report #1 of the Brain Foundation. Internettekst, laatste raadpleging: 24.11.2010.
- M. Davidson. The interpretation of diagnostic tests: a primer for physiotherapists. Australian Journal for Physiotherapists, 2002, 48:227-233.
- Hanley JA, McNeil BJ. A Method of Comparing the Areas under Receiver Operating Characteristic Curves Derived from the Same Cases. Radiology 1983. A simple though somewhat rough way to test the difference between two AUCs derived from the same cases.
Klaar met lezen? Je kunt naar het OVERZICHT van alle statistische onderwerpen op deze wiki gaan of naar de pagina KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse. Wil je meer leren over biostatistiek? Volg dan de AMC e-learning Practical Biostatistics. Vind je op deze pagina's iets dat niet klopt? Werkt een link niet? Of wil je bijdragen aan de wiki? Neem dan contact met ons op.
De wiki biostatistiek is een initiatief van de voormalige helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC kunnen via intranet ondersteuning aanvragen.