Gemiddelde en mediaan
Moet ik de gemiddelden of de medianen van mijn data weergeven?
We hebben gekeken naar het verschil in doorlooptijden van de polikliniek in twee centra. Deze tijden waren niet normaal verdeeld, dus hebben we de waarden als mediaan [25ste–75ste percentiel] vermeld en de Mann-Whitney test gedaan om de verschillen tussen de centra te testen. Een reviewer vraagt nu echter om weergave van de gemiddelde doorlooptijden. Is het zinvol de waarden om te zetten naar mean?
Met niet-normaal verdeelde data is het inderdaad gebruikelijk om medianen te geven en niet-parametrische toetsen te gebruiken, dus dat hebben jullie prima gedaan. Volgens de reviewer is het duidelijker wanneer jullie gemiddelden geven en de data transformeren. Transformeren is mijns inziens niet wenselijk. Dit doe je eigenlijk alleen maar om in staat te zijn om parametriche testen uit te voeren (zoals regressie of t-test). De data die je krijgt na transformern zijn ook moeilijk om te interpreteren (wat moet je voorstellen van een gemiddelde van de logaritme van de tijd?). Om aan de reviewer's wensen toe te komen, kun je naast de mediane waarden ook de gemiddelden weergeven.
Gemiddede of mediaan als ene groep wel normaal verdeeld is en andere niet?
In mijn studie vergelijk ik een patiëntengroep met een controlegroep. In m’n tabel 1 vergelijk ik de klinische eigenschappen van de groepen. Daarbij heb ik de normaal verdeelde parameters in mean + SD gegeven, en de niet normaal verdeelde parameters in median + IQR. O.a. de leeftijd van de patiëntengroep is echter niet normaal verdeeld, terwijl de leeftijd van de controlegroep wel normaal verdeeld is; ik zou dus de een in mean moeten geven, en de ander in median. Lezers kunnen daardoor de waarden niet in één oogopslag met elkaar vergelijken. Zou ik in dit geval beter allebei in median moeten uitdrukken, of toch één mean en één median?
Ik raad je aan beide groepen met dezelfde descriptieve maten te beschrijven. Zoals je zelf al schrijft kun je anders niet goed vergelijken. Als voor een van de groepen geldt dat het weergeven van mean en sd geen goede weergave is van waar de meeste waardes zich bevinden, dan zou ik beide groepen met median en IQR beschrijven.
Hoe bereken ik de standard error van de mediaan?
Als je (vanwege niet normale verdeling) data weergeeft als median, en je wil daar een SE bijzetten, is dat dan de SE van de mean of moet dat dan altijd van de median zijn? Indien het dan de SE van de median moet zijn, hoe kan je dat bepalen? Welke handelingen in SPSS moet ik dan doen om deze data te verkrijgen (by explore namelijk alleen SE van mean weergegeven)?
Als de data weergegeven wordt mbv medianen, dan zou het vreemd zijn daar een se van de mean bij te zetten. Vaak zie je bij beschrijvingen van data de volgende notaties:
mean +/- SD
median [rangelower,rangeupper]
median [Q1,Q3]
Als je liever de SE rapporteert (en dus niet zo zeer de data beschrijft, maar een kwantificering geeft van de nauwkeurigheid van de schatting van de betreffende parameter), dan heb je in geval van de median dus de SE van de median nodig. SPSS geeft deze niet, omdat deze het best met behulp van bootstrapping berekend kan worden. Voor grote samples die normaal verdeeld zijn, kan de volgende approximatie gebruikt worden: SEmedian = 1.25 * SEmean. Maar in jouw geval zal dit niet passend zijn, vanwege ontbrekende normale verdeling.
Een andere aanpak is het noteren van een 95% betrouwbaarheidsinterval rondom de median. Volgens boek van Altman (Statistics with confidence) kan dan met de volgende formules:
r= n/2 - 1.96 * wortel(n)/2
s= 1+n/2 + 1.96 * wortel(n)/2
Rond r en s af naar de meest dichtbijzijnde gehele getallen. Nu zijn de r-de en s-de observatie van de gerankte dataset de grenzen van het 95% betrouwbaarheidsinterval.
Je kunt dus of kiezen voor een van bovenstaande alternatieve beschrijvingen, of mbv boorstrapping een schatting van de se van de median krijgen.
Hoe beschrijf ik het beste een kleine dataset?
Ik heb 5 metingen van spina bifida patienten, vier van dwarslaesiepatienten en 5 van controlebiopten. Hoe kan ik de data het beste beschrijven? Ik speel met ideeën, om bijvoorbeeld de mediaan en range per groep te gebruiken maar weet niet of dit zinvol is.
Als je de data apart per groep wilt beschrijven, dan heb je te maken met kleine groepen (5-4-5). Bij dergelijke kleine aantallen is een standaard deviatie doorgaans niet zo betrouwbaar. Het lijkt dus inderdaad gepast om op andere maat de spreiding in de data te beschrijven, bijv met een range. Het centrum van de data kun je indien de data redelijk symmetrisch is met een gemiddelde beschrijven, of zoals je voorstelt met mediaan. De mediaan van 4 getallen is wel iets lastiger te kiezen (vaak wordt gekozen voor het gemiddelde van de middelste twee getallen).
Met deze aanpak gebruik je 3 maten (laagste waarde, mean of median, hoogste waarde) om 4 of 5 datapunten te beschrijven. Je kunt ook overwegen de datapunten zelf te beschrijven, dit zijn maar 1 of 2 getallen extra en daarmee heeft een lezer alle informatie. Doorgaans gaat dit het overzichtelijke in een (jitter) plot, dus een plot waarin de individuele punten zichtbaar blijven door ze iets versprongen naast elkaar te plotten.
Referenties
Klaar met lezen? Je kunt naar het OVERZICHT van alle statistische onderwerpen op deze wiki gaan of naar de pagina KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse. Wil je meer leren over biostatistiek? Volg dan de AMC e-learning Practical Biostatistics. Vind je op deze pagina's iets dat niet klopt? Werkt een link niet? Of wil je bijdragen aan de wiki? Neem dan contact met ons op.
De wiki biostatistiek is een initiatief van de voormalige helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC kunnen via intranet ondersteuning aanvragen.