Cohen's kappa

From Wikistatistiek
Jump to navigation Jump to search
Auteur prof.dr. R.J. de Haan
Co-Auteur
auteurschap op deze site

Kappa (ook wel Cohen's kappa genoemd) is een maat voor intra- en interobserver agreement. De kappa coëfficiënt is een voor kans gecorrigeerde maat van overeenkomst tussen beoordelingen. Een kappa van 0 betekent dat de overeenkomst tussen beoordelingen volledig op kans berust, een kappa van 1 is een volledige overeenkomst.

Hoe wordt kappa berekend?

Cohen’s kappa - of kortweg kappa - is een veel gebruikte statistische maat om de mate van intra- of inter-beoordelaarsbetrouwbaarheid vast te stellen. Meestal betreft het een situatie waarin een bepaald klinisch fenomeen op dichotome wijze door beoordelaars wordt gescoord (bijv. wel of geen ECG afwijking), maar de berekening kan eenvoudig worden uitgebreid naar drie of meer beoordelingscategorieën.

Kappa drukt een voor kans gecorrigeerde overeenkomst uit, en wordt als volgt berekend:

Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle \kappa=\frac{\text{\% voor kans gecorrigeerde geobserveerde overeenkomst}}{\text{\% voor kans gecorrigeerde potentiele overeenkomst}}}

Voorbeeld berekening kappa

Laten we ervan uitgaan dat we willen nagaan of verpleegkundigen de pupilreflexen van patiënten in de acute fase van een beroerte betrouwbaar kunnen beoordelen. Om dit na te gaan, vragen we aan 2 willekeurig gekozen verpleegkundigen om onafhankelijk van elkaar de reflexen bij 100 patiënten te beoordelen.


    beoordelaar 1  
    afwezig aanwezig  
beoordelaar 2 afwezig 20 15 35
aanwezig 10 55 65
    30 70 100

De geobserveerde overeenkomst tussen beide beoordelingen is hier 75 / 100 = 75%. Dat percentage lijkt redelijk goed te zijn, maar behoeft nuance. Immers, de verpleegkundigen kunnen het soms (of vaak) ook toevallig met elkaar eens zijn geweest. Het is dan ook zinvol om als vervolgstap het percentage overeenkomst te berekenen dat gebaseerd is op kans. De kansfrequentie van een cel in een kruistabel kan worden berekend door de betreffende kolomtotaal te vermenigvuldigen met de betreffende rijtotaal, en het product vervolgens te delen door het totaal aantal waarnemingen.

    beoordelaar 1  
    afwezig aanwezig  
beoordelaar 2 afwezig 10.5   35
aanwezig   45.5 65
    30 70 100

De kansfrequentie van cel A is dan en de kansfrequentie van cel D is . De kansovereenkomst tussen de beoordelaars is derhalve . Nu kunnen we de voor kans gecorrigeerde geobserveerde overeenkomst uitrekenen; in dit voorbeeld is dat . Als absoluut getal zegt dit percentage nog niet zo veel. De 19% krijgt pas betekenis als het wordt afgezet tegen hetgeen potentieel (uiteraard opnieuw voor kans gecorrigeerd) aan overeenkomst mogelijk is. De voor kans gecorrigeerde potentiële overeenkomst is . Kappa (% voor kans gecorrigeerde geobserveerde overeenkomst / % voor kans gecorrigeerde potentiële overeenkomst) is dus: (een ‘redelijke’ overeenkomst).

Hoe interpreteer ik Cohen’s Kappa?

Kappa waarden worden (op arbitraire(!) afkappunten) geïnterpreteerd in termen van: ‘slecht’ (k < 0); ‘gering’ (0-0,20); ‘matig’ (0,21-0,40); ‘redelijk’ (0,41-0,60); ‘voldoende tot goed’(0,61-0,80) en ‘bijna perfect’(0,81-1,00).

Mijn kappa komt veel lager uit dan ik verwacht, waar kan dit door komen (1)?

Ik wil uitrekenen wat de kappa tussen drie radiologen is bij het beoordelen van kleine longembolien. Het gaat mij er om hoe vaak zij een mini-longembolie zien (heb ik waarde 2 gegeven, grotere longembolie of geen longembolie heb ik waarde 1 gegeven). De meeste waarden zijn 1, met in een paar gevallen (en verschillende voor de drie radiologen) een 2. Ook al is er discrepantie tussen de radiologen, toch zou je verwachten dat het nog een redelijke kappa zou hebben: zo vaak komt zo'n mini-longembolie niet voor. Toch krijg ik juist een hele lage kappa (0.08). Dit snap ik niet.

Niet zeker te zeggen zonder de data te zien, maar een plausibele verklaring voor het verkrijgen van een dergelijke lage kappa in dit geval is het volgende. Kappa berekent niet de overeenkomst tussen de raters sec, maar berekent de mate waarin de raters meer overeenkomen dat wat puur op basis van toeval verwacht zou worden. Wanneer het meerendeel van de embolien door de raters als 1 gescoord worden, en de keuze van welke embolien een 2 krijgen puur op basis van toeval gemaakt zou worden, dan is er nog steeds een grote kans dat de raters in veel gevallen beide een 1 gescoord hebben. Het is dus lastig om nog veel toe te voegen aan deze op toeval berustende overeenstemming. Blijkbaar is de werkelijke overeenstemming niet veel beter gebleken.

Zie ook de referenties naar Feinstein, Cicchetti en Lantz onder aan deze pagina.

Mijn kappa komt veel lager uit dan ik verwacht, waar kan dit door komen (2)?

De Cohens Kappa neemt een waarde van 0,82 aan. Het is echter maar bij 3 van de 332 pt zo dat er discrepantie bestaat tussen rater 1 en rater 2. Kunt u uitleggen hoe het komt dat er bij minder dan 1% van de ‘populatie’ geen overeenstemming is en er dan relatief gezien zo een lage kappa waarde uitkomt? Wanneer je dit bv vergelijkt met de agreement voor een andere uitkomstparameter, waar er discrepantie is bij 6 van de 129 patiënten (4.6%) en dit leidt tot een cohens kappa (nominale waarden) van 0,91, snap ik de discrepantie niet helemaal. Komt dit door de correctie voor het percentage voor kans gecorrigeerde overeenkomst?

Dit kan inderdaad komen doordat er voor kansovereenstemming gecorrigeerd wordt. Doordat er in de analyses van 332 patienten heel vaak dezelfde categorie voorkwam (bij beide raters) is de kans om op basis van toeval overeenstemming te hebben ook heel groot. Het is moeilijk om daar nog iets aan toe te voegen. Zie ook de vraag hierboven. In de 2e analyse is er over het geheel meer variatie in de categorien die voorkomen en is het dus op basis van kans minder waarschijnlijk zoveel overeenstemming te vinden.

Zie ook de referenties naar Feinstein, Cicchetti en Lantz onder aan deze pagina.

Waar vind ik kappa in SPSS?

Voor twee beoordelaars kan Cohen's Kappa als volgt in SPSS 16 berekenend worden. Zet de variabelen (de beoordeling van de 1e en 2e beoordelaar) in kolommen naast elkaar. Ga dan naar Analyze->Descriptive statistics- >Crosstabs, voert de ene variabele in bij "rows", de andere bij "columns", klikt op "statistics" en vinkt "Kappa" aan. Dan klik je op continue en op ok. Je krijgt in de output de kruistabel en Cohen's Kappa. Voor het berekenen van intra-observer agreement (twee beoordelingen van 1 beoordelaar) kun je dezelfde manier aanhouden. Je zet dan de eerste beoordeling en tweede beoordeling in kolommen naast elkaar en voert die in bij "rows" en "columns".

Voor meedere beoordelaars/beoordelingen (generalized kappa of Fleiss' kappa) is er nog geen standaard procedure in SPSS 16. Op deze website vind je meerdere macro's (o.a. in excel, SPSS en SAS) die een kappa bij meerdere observers uit kunnen rekenen.

Voor een weighted kappa welke gebruikt wodt voor ordinale uitkomstmaten is er ook geen standaard procedure in SPSS. Er wordt o.a. een rekenprogramma aangeboden op de website van Vassar college. Ook is er de volgende mogelijkheid: de weighted kappa (met kwadratische weegfunctie) is in wezen gelijk aan een intraclass correlatie coefficient. Een duidelijke omschrijving hiervan kun je vinden in "Biostatistiscs, The Bare Essentials, Norman & Streiner - pag 220-222"..

Referenties

Klaar met lezen? Je kunt naar het OVERZICHT van alle statistische onderwerpen op deze wiki gaan of naar de pagina KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse. Wil je meer leren over biostatistiek? Volg dan de AMC e-learning Practical Biostatistics. Vind je op deze pagina's iets dat niet klopt? Werkt een link niet? Of wil je bijdragen aan de wiki? Neem dan contact met ons op.

De wiki biostatistiek is een initiatief van de voormalige helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC kunnen via intranet ondersteuning aanvragen.