Gemiddelde en mediaan: Difference between revisions
No edit summary |
|||
Line 5: | Line 5: | ||
Met niet-normaal verdeelde data is het inderdaad gebruikelijk om medianen te geven en niet-parametrische toetsen te gebruiken, dus dat hebben jullie prima gedaan. Volgens de reviewer is het duidelijker wanneer jullie gemiddelden geven en de data transformeren. Transformeren is mijns inziens niet wenselijk. Dit doe je eigenlijk alleen maar om in staat te zijn om parametriche testen uit te voeren (zoals regressie of t-test). De data die je krijgt na transformern zijn ook moeilijk om te | Met niet-normaal verdeelde data is het inderdaad gebruikelijk om medianen te geven en niet-parametrische toetsen te gebruiken, dus dat hebben jullie prima gedaan. Volgens de reviewer is het duidelijker wanneer jullie gemiddelden geven en de data transformeren. Transformeren is mijns inziens niet wenselijk. Dit doe je eigenlijk alleen maar om in staat te zijn om parametriche testen uit te voeren (zoals regressie of t-test). De data die je krijgt na transformern zijn ook moeilijk om te | ||
interpreteren (wat moet je voorstellen van een gemiddelde van de logaritme van de tijd?). Om aan de reviewer's wensen toe te komen, kun je naast de mediane waarden ook de gemiddelden weergeven. | interpreteren (wat moet je voorstellen van een gemiddelde van de logaritme van de tijd?). Om aan de reviewer's wensen toe te komen, kun je naast de mediane waarden ook de gemiddelden weergeven. | ||
== Gemiddede of mediaan als ene groep wel normaal verdeeld is en andere niet? == | |||
''In mijn studie vergelijk ik een patiëntengroep met een controlegroep. In m’n tabel 1 vergelijk ik de klinische eigenschappen van de groepen. Daarbij heb ik de normaal verdeelde parameters in mean + SD gegeven, en de niet normaal verdeelde parameters in median + IQR. O.a. de leeftijd van de patiëntengroep is echter niet normaal verdeeld, terwijl de leeftijd van de controlegroep wel normaal verdeeld is; ik zou dus de een in mean moeten geven, en de ander in median. Lezers kunnen daardoor de waarden niet in één oogopslag met elkaar vergelijken. Zou ik in dit geval beter allebei in median moeten uitdrukken, of toch één mean en één median? | |||
Ik raad je aan beide groepen met dezelfde descriptieve maten te beschrijven. Zoals je zelf al schrijft kun je anders niet goed vergelijken. Als voor een van de groepen geldt dat het weergeven van mean en sd geen goede weergave is van waar de meeste waardes zich bevinden, dan zou ik beide groepen met median en IQR beschrijven. | |||
==Hoe bereken ik de standard error van de mediaan?== | ==Hoe bereken ik de standard error van de mediaan?== |
Revision as of 08:21, 29 July 2014
Moet ik de gemiddelden of de medianen van mijn data weergeven?
We hebben gekeken naar het verschil in doorlooptijden van de polikliniek in twee centra. Deze tijden waren niet normaal verdeeld, dus hebben we de waarden als mediaan [25ste–75ste percentiel] vermeld en de Mann-Whitney test gedaan om de verschillen tussen de centra te testen. Een reviewer vraagt nu echter om weergave van de gemiddelde doorlooptijden. Is het zinvol de waarden om te zetten naar mean?
Met niet-normaal verdeelde data is het inderdaad gebruikelijk om medianen te geven en niet-parametrische toetsen te gebruiken, dus dat hebben jullie prima gedaan. Volgens de reviewer is het duidelijker wanneer jullie gemiddelden geven en de data transformeren. Transformeren is mijns inziens niet wenselijk. Dit doe je eigenlijk alleen maar om in staat te zijn om parametriche testen uit te voeren (zoals regressie of t-test). De data die je krijgt na transformern zijn ook moeilijk om te interpreteren (wat moet je voorstellen van een gemiddelde van de logaritme van de tijd?). Om aan de reviewer's wensen toe te komen, kun je naast de mediane waarden ook de gemiddelden weergeven.
Gemiddede of mediaan als ene groep wel normaal verdeeld is en andere niet?
In mijn studie vergelijk ik een patiëntengroep met een controlegroep. In m’n tabel 1 vergelijk ik de klinische eigenschappen van de groepen. Daarbij heb ik de normaal verdeelde parameters in mean + SD gegeven, en de niet normaal verdeelde parameters in median + IQR. O.a. de leeftijd van de patiëntengroep is echter niet normaal verdeeld, terwijl de leeftijd van de controlegroep wel normaal verdeeld is; ik zou dus de een in mean moeten geven, en de ander in median. Lezers kunnen daardoor de waarden niet in één oogopslag met elkaar vergelijken. Zou ik in dit geval beter allebei in median moeten uitdrukken, of toch één mean en één median?
Ik raad je aan beide groepen met dezelfde descriptieve maten te beschrijven. Zoals je zelf al schrijft kun je anders niet goed vergelijken. Als voor een van de groepen geldt dat het weergeven van mean en sd geen goede weergave is van waar de meeste waardes zich bevinden, dan zou ik beide groepen met median en IQR beschrijven.
Hoe bereken ik de standard error van de mediaan?
Als je (vanwege niet normale verdeling) data weergeeft als median, en je wil daar een SE bijzetten, is dat dan de SE van de mean of moet dat dan altijd van de median zijn? Indien het dan de SE van de median moet zijn, hoe kan je dat bepalen? Welke handelingen in SPSS moet ik dan doen om deze data te verkrijgen (by explore namelijk alleen SE van mean weergegeven)?
Als de data weergegeven wordt mbv medianen, dan zou het vreemd zijn daar een se van de mean bij te zetten. Vaak zie je bij beschrijvingen van data de volgende notaties:
mean +/- SD median [rangelower,rangeupper] median [Q1,Q3]
Als je liever de SE rapporteert (en dus niet zo zeer de data beschrijft, maar een kwantificering geeft van de nauwkeurigheid van de schatting van de betreffende parameter), dan heb je in geval van de median dus de SE van de median nodig. SPSS geeft deze niet, omdat deze het best met behulp van bootstrapping berekend kan worden. Voor grote samples die normaal verdeeld zijn, kan de volgende approximatie gebruikt worden: SEmedian = 1.25 * SEmean. Maar in jouw geval zal dit niet passend zijn, vanwege ontbrekende normale verdeling.
Een andere aanpak is het noteren van een 95% betrouwbaarheidsinterval rondom de median. Volgens boek van Altman (Statistics with confidence) kan dan met de volgende formules:
r: n/2 - 1.96 * wortel(n)/2 s: 1+n/2 + 1.96 * wortel(n)/2
Rond r en s af naar de meest dichtbijzijnde gehele getallen. Nu zijn de r-de en s-de observatie van de gerankte dataset de grenzen van het 95% betrouwbaarheidsinterval.
Je kunt dus of kiezen voor een van bovenstaande alternatieve beschrijvingen, of mbv boorstrapping een schatting van de se van de median krijgen.
Referenties
Klaar met lezen? Je kunt naar het OVERZICHT van alle statistische onderwerpen op deze wiki gaan of naar de pagina KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse. Wil je meer leren over biostatistiek? Volg dan de AMC e-learning Practical Biostatistics. Vind je op deze pagina's iets dat niet klopt? Werkt een link niet? Of wil je bijdragen aan de wiki? Neem dan contact met ons op.
De wiki biostatistiek is een initiatief van de voormalige helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC kunnen via intranet ondersteuning aanvragen.