Cohen's kappa
Kappa (ook wel Cohen's kappa genoemd) is een maat voor intra- en interobserver agreement. De kappa coëfficiënt is een voor kans gecorrigeerde maat van overeenkomst tussen beoordelingen. Een kappa van 0 betekent dat de overeenkomst tussen beoordelingen volledig op kans berust, een kappa van 1 is een volledige overeenkomst.
Hoe wordt kappa berekend?
Cohen’s kappa - of kortweg kappa - is een veel gebruikte statistische maat om de mate van intra- of inter-beoordelaarsbetrouwbaarheid vast te stellen. Meestal betreft het een situatie waarin een bepaald klinisch fenomeen op dichotome wijze door beoordelaars wordt gescoord (bijv. wel of geen ECG afwijking), maar de berekening kan eenvoudig worden uitgebreid naar drie of meer beoordelingscategorieën.
Kappa drukt een voor kans gecorrigeerde overeenkomst uit, en wordt als volgt berekend:
Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle \kappa=\frac{\text{\% voor kans gecorrigeerde geobserveerde overeenkomst}}{\text{\% voor kans gecorrigeerde potentiele overeenkomst}}}
Voorbeeld berekening kappa
Laten we ervan uitgaan dat we willen nagaan of verpleegkundigen de pupilreflexen van patiënten in de acute fase van een beroerte betrouwbaar kunnen beoordelen. Om dit na te gaan, vragen we aan 2 willekeurig gekozen verpleegkundigen om onafhankelijk van elkaar de reflexen bij 100 patiënten te beoordelen.
beoordelaar 1 | ||||
afwezig | aanwezig | |||
beoordelaar 2 | afwezig | 20 | 15 | 35 |
aanwezig | 10 | 55 | 65 | |
30 | 70 | 100 |
De geobserveerde overeenkomst tussen beide beoordelingen is hier 75 / 100 = 75%. Dat percentage lijkt redelijk goed te zijn, maar behoeft nuance. Immers, de verpleegkundigen kunnen het soms (of vaak) ook toevallig met elkaar eens zijn geweest. Het is dan ook zinvol om als vervolgstap het percentage overeenkomst te berekenen dat gebaseerd is op kans. De kansfrequentie van een cel in een kruistabel kan worden berekend door de betreffende kolomtotaal te vermenigvuldigen met de betreffende rijtotaal, en het product vervolgens te delen door het totaal aantal waarnemingen.
beoordelaar 1 | ||||
afwezig | aanwezig | |||
beoordelaar 2 | afwezig | 10.5 | 35 | |
aanwezig | 45.5 | 65 | ||
30 | 70 | 100 |
De kansfrequentie van cel A is dan en de kansfrequentie van cel D is . De kansovereenkomst tussen de beoordelaars is derhalve . Nu kunnen we de voor kans gecorrigeerde geobserveerde overeenkomst uitrekenen; in dit voorbeeld is dat . Als absoluut getal zegt dit percentage nog niet zo veel. De 19% krijgt pas betekenis als het wordt afgezet tegen hetgeen potentieel (uiteraard opnieuw voor kans gecorrigeerd) aan overeenkomst mogelijk is. De voor kans gecorrigeerde potentiële overeenkomst is . Kappa (% voor kans gecorrigeerde geobserveerde overeenkomst / % voor kans gecorrigeerde potentiële overeenkomst) is dus: (een ‘redelijke’ overeenkomst).
Hoe interpreteer ik Cohen’s Kappa?
Kappa waarden worden (op arbitraire(!) afkappunten) geïnterpreteerd in termen van: ‘slecht’ (k < 0); ‘gering’ (0-0,20); ‘matig’ (0,21-0,40); ‘redelijk’ (0,41-0,60); ‘voldoende tot goed’(0,61-0,80) en ‘bijna perfect’(0,81-1,00).
Mijn kappa komt veel lager uit dan ik verwacht, waar kan dit door komen?
Ik wil uitrekenen wat de kappa tussen drie radiologen is bij het beoordelen van kleine longembolien. Het gaat mij er om hoe vaak zij een mini-longembolie zien (heb ik waarde 2 gegeven, grotere longembolie of geen longembolie heb ik waarde 1 gegeven). De meeste waarden zijn 1, met in een paar gevallen (en verschillende voor de drie radiologen) een 2. Ook al is er discrepantie tussen de radiologen, toch zou je verwachten dat het nog een redelijke kappa zou hebben: zo vaak komt zo'n mini-longembolie niet voor. Toch krijg ik juist een hele lage kappa (0.08). Dit snap ik niet.
Niet zeker te zeggen zonder de data te zien, maar een plausibele verklaring voor het verkrijgen van een dergelijke lage kappa in dit geval is het volgende. Kappa berekent niet de overeenkomst tussen de raters sec, maar berekent de mate waarin de raters meer overeenkomen dat wat puur op basis van toeval verwacht zou worden. Wanneer het meerendeel van de embolien door de raters als 1 gescoord worden, en de keuze van welke embolien een 2 krijgen puur op basis van toeval gemaakt zou worden, dan is er nog steeds een grote kans dat de raters in veel gevallen beide een 1 gescoord hebben. Het is dus lastig om nog veel toe te voegen aan deze op toeval berustende overeenstemming. Blijkbaar is de werkelijke overeenstemming niet veel beter gebleken.
Waar vind ik kappa in SPSS?
Voor twee beoordelaars kan Cohen's Kappa als volgt in SPSS 16 berekenend worden. Zet de variabelen (de beoordeling van de 1e en 2e beoordelaar) in kolommen naast elkaar. Ga dan naar Analyze->Descriptive statistics- >Crosstabs, voert de ene variabele in bij "rows", de andere bij "columns", klikt op "statistics" en vinkt "Kappa" aan. Dan klik je op continue en op ok. Je krijgt in de output de kruistabel en Cohen's Kappa.
Voor meedere beoordelaars (generalized kappa) is er nog geen standaard procedure in SPSS 16. Op deze website vind je meerdere macro's (o.a. in excel, SPSS en SAS) die een kappa bij meerdere observers uit kunnen rekenen.
Voor een weighted kappa is er ook geen standaard procedure in SPSS. Wel is er de volgende mogelijkheid: de weighted kappa (gebruikt voor ordinale uitkomstmaten) is in wezen gelijk aan een intraclass correlatie coefficient. Een duidelijke omschrijving hiervan kun je vinden in "Biostatistiscs, The Bare Essentials, Norman & Streiner - pag 220-222". Hoe een intraclass correlatie coefficient uit te rekenen in SPSS vind je uitgebreid beschreven op de pagina reliability van statnotes.
Referenties
- Zeer heldere uitleg over kappa op de Kennisbasis Statistiek [1]
- Douglas G, Altman, Practical Statistics for Medical Research, pag. 404
- Discussie over het nut van kappa en een uitgebreide verwijzing naar literatuur[2].
Terug naar OVERZICHT voor een overzicht van alle statistische onderwerpen op deze wiki.
Terug naar KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse.