Gemiddelde en mediaan
Moet ik de gemiddelden of de medianen van mijn data weergeven?
We hebben gekeken naar het verschil in doorlooptijden van de polikliniek in twee centra. Deze tijden waren niet normaal verdeeld, dus hebben we de waarden als mediaan [25ste–75ste percentiel] vermeld en de Mann-Whitney test gedaan om de verschillen tussen de centra te testen. Een reviewer vraagt nu echter om weergave van de gemiddelde doorlooptijden. Is het zinvol de waarden om te zetten naar mean?
Met niet-normaal verdeelde data is het inderdaad gebruikelijk om medianen te geven en niet-parametrische toetsen te gebruiken, dus dat hebben jullie prima gedaan. Volgens de reviewer is het duidelijker wanneer jullie gemiddelden geven en de data transformeren. Transformeren is mijns inziens niet wenselijk. Dit doe je eigenlijk alleen maar om in staat te zijn om parametriche testen uit te voeren (zoals regressie of t-test). De data die je krijgt na transformern zijn ook moeilijk om te interpreteren (wat moet je voorstellen van een gemiddelde van de logaritme van de tijd?). Om aan de reviewer's wensen toe te komen, kun je naast de mediane waarden ook de gemiddelden weergeven.
Hoe bereken ik de standard error van de mediaan?
Als je (vanwege niet normale verdeling) data weergeeft als median, en je wil daar een SE bijzetten, is dat dan de SE van de mean of moet dat dan altijd van de median zijn? Indien het dan de SE van de median moet zijn, hoe kan je dat bepalen? Welke handelingen in SPSS moet ik dan doen om deze data te verkrijgen (by explore namelijk alleen SE van mean weergegeven)?
Als de data weergegeven wordt mbv medianen, dan zou het vreemd zijn daar een se van de mean bij te zetten. Vaak zie je bij beschrijvingen van data de volgende notaties:
mean +/- SD median [rangelower,rangeupper] median [Q1,Q3]
Als je liever de SE rapporteert (en dus niet zo zeer de data beschrijft, maar een kwantificering geeft van de nauwkeurigheid van de schatting van de betreffende parameter), dan heb je in geval van de median dus de SE van de median nodig. SPSS geeft deze niet, omdat deze het best met behulp van bootstrapping berekend kan worden. Voor grote samples die normaal verdeeld zijn, kan de volgende approximatie gebruikt worden: SEmedian = 1.25 * SEmean. Maar in jouw geval zal dit niet passend zijn, vanwege ontbrekende normale verdeling.
Een andere aanpak is het noteren van een 95% betrouwbaarheidsinterval rondom de median. Volgens boek van Altman (Statistics with confidence) kan dan met de volgende formules:
r: n/2 - 1.96 * wortel(n)/2 s: 1+n/2 + 1.96 * wortel(n)/2
Rond r en s af naar de meest dichtbijzijnde gehele getallen. Nu zijn de r-de en s-de observatie van de gerankte dataset de grenzen van het 95% betrouwbaarheidsinterval.
Je kunt dus of kiezen voor een van bovenstaande alternatieve beschrijvingen, of mbv boorstrapping een schatting van de se van de median krijgen.
Referenties
Klaar met lezen? Je kunt naar het OVERZICHT van alle statistische onderwerpen op deze wiki gaan of naar de pagina KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse. Wil je meer leren over biostatistiek? Volg dan de AMC e-learning Practical Biostatistics. Vind je op deze pagina's iets dat niet klopt? Werkt een link niet? Of wil je bijdragen aan de wiki? Neem dan contact met ons op.
De wiki biostatistiek is een initiatief van de voormalige helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC kunnen via intranet ondersteuning aanvragen.