Cohen's kappa

From Wikistatistiek
(Redirected from Inter-observer agreement)
Jump to navigation Jump to search
Auteur prof.dr. R.J. de Haan
Co-Auteur dr. ir. N van Geloven
auteurschap op deze site

Kappa (ook wel Cohen's kappa genoemd) is een maat voor intra- en interobserver agreement. De kappa coëfficiënt is een voor kans gecorrigeerde maat van overeenkomst tussen beoordelingen. Een kappa van 0 betekent dat de overeenkomst tussen beoordelingen volledig op kans berust, een kappa van 1 is een volledige overeenkomst.

Hoe wordt kappa berekend?

Cohen’s kappa - of kortweg kappa - is een veel gebruikte statistische maat om de mate van intra- of inter-beoordelaarsbetrouwbaarheid vast te stellen. Meestal betreft het een situatie waarin een bepaald klinisch fenomeen op dichotome wijze door beoordelaars wordt gescoord (bijv. wel of geen ECG afwijking), maar de berekening kan eenvoudig worden uitgebreid naar drie of meer beoordelingscategorieën.

Kappa drukt een voor kans gecorrigeerde overeenkomst uit, en wordt als volgt berekend:

Voorbeeld berekening kappa

Laten we ervan uitgaan dat we willen nagaan of verpleegkundigen de pupilreflexen van patiënten in de acute fase van een beroerte betrouwbaar kunnen beoordelen. Om dit na te gaan, vragen we aan 2 willekeurig gekozen verpleegkundigen om onafhankelijk van elkaar de reflexen bij 100 patiënten te beoordelen.


    beoordelaar 1  
    afwezig aanwezig  
beoordelaar 2 afwezig 20 15 35
aanwezig 10 55 65
    30 70 100

De geobserveerde overeenkomst tussen beide beoordelingen is hier 75 / 100 = 75%. Dat percentage lijkt redelijk goed te zijn, maar behoeft nuance. Immers, de verpleegkundigen kunnen het soms (of vaak) ook toevallig met elkaar eens zijn geweest. Het is dan ook zinvol om als vervolgstap het percentage overeenkomst te berekenen dat gebaseerd is op kans. De kansfrequentie van een cel in een kruistabel kan worden berekend door de betreffende kolomtotaal te vermenigvuldigen met de betreffende rijtotaal, en het product vervolgens te delen door het totaal aantal waarnemingen.

    beoordelaar 1  
    afwezig aanwezig  
beoordelaar 2 afwezig 10.5   35
aanwezig   45.5 65
    30 70 100

De kansfrequentie van cel A is dan en de kansfrequentie van cel D is . De kansovereenkomst tussen de beoordelaars is derhalve . Nu kunnen we de voor kans gecorrigeerde geobserveerde overeenkomst uitrekenen; in dit voorbeeld is dat . Als absoluut getal zegt dit percentage nog niet zo veel. De 19% krijgt pas betekenis als het wordt afgezet tegen hetgeen potentieel (uiteraard opnieuw voor kans gecorrigeerd) aan overeenkomst mogelijk is. De voor kans gecorrigeerde potentiële overeenkomst is . Kappa (% voor kans gecorrigeerde geobserveerde overeenkomst / % voor kans gecorrigeerde potentiële overeenkomst) is dus: (een ‘redelijke’ overeenkomst).

Hoe interpreteer ik Cohen’s Kappa?

Kappa waarden worden (op arbitraire(!) afkappunten) geïnterpreteerd in termen van: ‘slecht’ (k < 0); ‘gering’ (0-0,20); ‘matig’ (0,21-0,40); ‘redelijk’ (0,41-0,60); ‘voldoende tot goed’(0,61-0,80) en ‘bijna perfect’(0,81-1,00). In het Engels: k < 0 reflects ‘poor’ , 0 to 0.20 ‘slight’, 0.21 to 0.4 ‘fair’, 0.41 to 0.60 ‘moderate’, 0.61 to 0.8 ‘substantial’, and above 0.81 ‘almost perfect’ (zie referentie Landis en Koch).

Mijn kappa komt veel lager uit dan ik verwacht, waar kan dit door komen (1)?

Ik wil uitrekenen wat de kappa tussen drie radiologen is bij het beoordelen van kleine longembolien. Het gaat mij er om hoe vaak zij een mini-longembolie zien (heb ik waarde 2 gegeven, grotere longembolie of geen longembolie heb ik waarde 1 gegeven). De meeste waarden zijn 1, met in een paar gevallen (en verschillende voor de drie radiologen) een 2. Ook al is er discrepantie tussen de radiologen, toch zou je verwachten dat het nog een redelijke kappa zou hebben: zo vaak komt zo'n mini-longembolie niet voor. Toch krijg ik juist een hele lage kappa (0.08). Dit snap ik niet.

Niet zeker te zeggen zonder de data te zien, maar een plausibele verklaring voor het verkrijgen van een dergelijke lage kappa in dit geval is het volgende. Kappa berekent niet de overeenkomst tussen de raters sec, maar berekent de mate waarin de raters meer overeenkomen dat wat puur op basis van toeval verwacht zou worden. Wanneer het meerendeel van de embolien door de raters als 1 gescoord worden, en de keuze van welke embolien een 2 krijgen puur op basis van toeval gemaakt zou worden, dan is er nog steeds een grote kans dat de raters in veel gevallen beide een 1 gescoord hebben. Het is dus lastig om nog veel toe te voegen aan deze op toeval berustende overeenstemming. Blijkbaar is de werkelijke overeenstemming niet veel beter gebleken.

Zie ook de referenties naar Feinstein, Cicchetti en Lantz onder aan deze pagina.

Mijn kappa komt veel lager uit dan ik verwacht, waar kan dit door komen (2)?

De Cohens Kappa neemt een waarde van 0,82 aan. Het is echter maar bij 3 van de 332 pt zo dat er discrepantie bestaat tussen rater 1 en rater 2. Kunt u uitleggen hoe het komt dat er bij minder dan 1% van de ‘populatie’ geen overeenstemming is en er dan relatief gezien zo een lage kappa waarde uitkomt? Wanneer je dit bv vergelijkt met de agreement voor een andere uitkomstparameter, waar er discrepantie is bij 6 van de 129 patiënten (4.6%) en dit leidt tot een cohens kappa (nominale waarden) van 0,91, snap ik de discrepantie niet helemaal. Komt dit door de correctie voor het percentage voor kans gecorrigeerde overeenkomst?

Dit kan inderdaad komen doordat er voor kansovereenstemming gecorrigeerd wordt. Doordat er in de analyses van 332 patienten heel vaak dezelfde categorie voorkwam (bij beide raters) is de kans om op basis van toeval overeenstemming te hebben ook heel groot. Het is moeilijk om daar nog iets aan toe te voegen. Zie ook de vraag hierboven. In de 2e analyse is er over het geheel meer variatie in de categorien die voorkomen en is het dus op basis van kans minder waarschijnlijk zoveel overeenstemming te vinden.

Zie ook de referenties naar Feinstein, Cicchetti en Lantz onder aan deze pagina.

Waar vind ik kappa in SPSS?

Voor twee beoordelaars kan Cohen's Kappa als volgt in SPSS berekend worden. Zet de variabelen (de beoordeling van de 1e en 2e beoordelaar) in kolommen naast elkaar. Ga dan naar Analyze->Descriptive statistics- >Crosstabs, voert de ene variabele in bij "rows", de andere bij "columns", klikt op "statistics" en vinkt "Kappa" aan. Dan klik je op continue en op ok. Je krijgt in de output de kruistabel en Cohen's Kappa. Voor het berekenen van intra-observer agreement (twee beoordelingen van 1 beoordelaar) kun je dezelfde manier aanhouden. Je zet dan de eerste beoordeling en tweede beoordeling in kolommen naast elkaar en voert die in bij "rows" en "columns".

Voor meedere beoordelaars/beoordelingen (generalized kappa of Fleiss' kappa) is er nog geen standaard procedure in SPSS, er is wel een SPSS extensie beschikbaar (zie onder). Op deze website vind je meerdere macro's (o.a. in excel, SPSS en SAS) die een kappa bij meerdere observers uit kunnen rekenen.

Voor een gewogen (weighted) kappa welke gebruikt wodt voor ordinale uitkomstmaten is er ook nog geen standaard procedure in SPSS, er is wel een SPSS extensie beschikbaar (zie onder). Ook is er de volgende mogelijkheid: de weighted kappa (met kwadratische weegfunctie) is in wezen gelijk aan een intraclass correlatie coefficient. Een duidelijke omschrijving hiervan kun je vinden in "Biostatistiscs, The Bare Essentials, Norman & Streiner - pag 220-222"..

Voor zowel de Fleiss kappa als de weighted kappa zijn voor SPSS 20 extension budles beschikbaar. Na het downloaden hiervan komen er extra menu opties onder Analyze -> Scale. De volgende stappen zijn hiervoor nodig. Voordat deze extensies kunnen worden geïnstalleerd moet eerst de PythonEssentials plugin worden gedownload en geïnstalleerd. Hierbij moet de juiste versie voor het besturingssysteem worden gekozen (voor de meeste pc’s in het AMC zal dit windows 32 bits (win32) zijn). Het gedownloade installatieprogramma kan vervolgens worden uitgevoerd. Wanneer de Python plugin is geïnstalleerd kunnen de extensies voor het berekenen van een gewogen kappa of Fleiss kappa worden gedownload. Deze extensies zijn te activeren in SPSS, via Utilities > Extension Bundles > Install Extension Bundle. Vervolgens kan de bestandslocatie van de gedownloade extensiebundel worden geselecteerd.

Hoe kan ik bij een gewogen kappa zelf de gewichten specificeren?

Vooralsnog heb ik via de extensie in SPSS een lineair gewogen kappa gebruikt, maar we willen nu graag handmatig gewichten gaan toekennen aan verschillende categorieën. Dat handmatig gewichten toekennen is in de extensie van SPSS niet mogelijk. Weet u misschien een programma’tje dat ik kan gebruiken waarbij dat wel mogelijk is?

In SPSS door ipv de extensie te gebruiken een stuk syntax te gebruiken en daarin de gewenste gewichten te specificeren. Zie de referentie naar Valiquette op deze website van SPSS. In Stata kun je het direct specificeren bij gebruik van de functie kapwgt. In R kun je de weightmatrix ook direct specificeren in de ‘kappa2’ functie van de irr package. Hierin lijk je wel een symmetrische gewichten matrix in te moeten geven. In de cohen.kappa functie in package psych lijk je de hele matrix te kunnen specificeren.

Referenties


Klaar met lezen? Je kunt naar het OVERZICHT van alle statistische onderwerpen op deze wiki gaan of naar de pagina KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse. Wil je meer leren over biostatistiek? Volg dan de AMC e-learning Practical Biostatistics. Vind je op deze pagina's iets dat niet klopt? Werkt een link niet? Of wil je bijdragen aan de wiki? Neem dan contact met ons op.

De wiki biostatistiek is een initiatief van de voormalige helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC kunnen via intranet ondersteuning aanvragen.