Effect maten: Difference between revisions

From Wikistatistiek
Jump to navigation Jump to search
(New page: == Waarom komen onze effect sizes niet overeen met onze p-waardes?== ''We zijn bezig met een manuscript over neuropsychologie bij behandel en controle patienten. We hebben Cohen's d effec...)
 
mNo edit summary
 
(2 intermediate revisions by one other user not shown)
Line 1: Line 1:
== Waarom komen onze effect sizes niet overeen met onze p-waardes?==
== Waarom komen onze effect sizes niet overeen met onze p-waardes?==


''We zijn bezig met een manuscript over neuropsychologie bij behandel en controle patienten. We hebben Cohen's d effectsizes toegevoegd aan de tabel met de verschilscores (3 weken follow up tov baseline en 8 maanden follow up tov baseline). De effectsizes hebben we als volgt berekend: 'We computed effect sizes according to Cohen’s d. Effect size is defined as the difference between the mean change scores of both groups divided by the pooled SD of the change scores. An effect of 0.2 reflects a small effect, 0.5 a medium, and 0.8 a large effect.' Onze effect sizes zijn nogal groot, soms zelfs als de p-waarde niet significant is. We vinden dit moeilijk te interpreteren. Kan u ons adviseren?  
''We zijn bezig met een manuscript over neuropsychologie bij behandelde en controlepatiënten. We hebben Cohen's d effect sizes toegevoegd aan de tabel met de verschilscores (3 weken follow-up t.o.v. baseline en 8 maanden follow-up t.o.v. baseline). De effect sizes hebben we als volgt berekend: 'We computed effect sizes according to Cohen’s d. Effect size is defined as the difference between the mean change scores of both groups divided by the pooled SD of the change scores. An effect of 0.2 reflects a small effect, 0.5 a medium, and 0.8 a large effect.' Onze effect sizes zijn nogal groot, soms zelfs als de p-waarde niet significant is. We vinden dit moeilijk te interpreteren. Kunt u ons adviseren?  


De ogenschijnlijke discrepanties tussen effect size en p-waardes zouden statistisch als volgt verklaard kunnen worden: Cohen's d geeft een maat aan de sterkte van het effect, in relatie tot de spreiding (SD). Gegeven dat je een grote n hebt, kun je het effect en de SD goed schatten en zal deze maat in het algemeen in lijn zijn met de p-waardes. Bij kleine n echter, is Cohen's d niet in staat om de onzekerheid door de kleine aantallen te verwerken. Er wordt in de berekening nergens gecorrigeerd / rekening gehouden met het aantal datapunten dat als input heeft gediend voor het effect en de spreiding. Bij een toets (en resulterende p-waarde) wordt dat aspect uiteraard wel meegenomen. Maw: als je in een kleine groep een sterk effect ziet, dan zal er een grote Cohen's d zijn en een niet significante p-waarde. Andersom geldt dit ook: in een hele grote steekproef kan een kleine effect size (kleine Cohen's d) wel statistisch significant zijn. Wellicht verklaart dit bij jullie de vraagtekens?
De ogenschijnlijke discrepanties tussen effect size en p-waardes zouden statistisch als volgt verklaard kunnen worden: Cohen's d geeft een maat aan de sterkte van het effect, in relatie tot de spreiding (SD). Gegeven dat je een grote n hebt, kun je het effect en de SD goed schatten en zal deze maat in het algemeen in lijn zijn met de p-waardes. Bij kleine n echter, is Cohen's d niet in staat om de onzekerheid door de kleine aantallen te verwerken. Er wordt in de berekening nergens gecorrigeerd / rekening gehouden met het aantal datapunten dat als input heeft gediend voor het effect en de spreiding. Bij een toets (en resulterende p-waarde) wordt dat aspect uiteraard wel meegenomen. Met andere woorden: als je in een kleine groep een sterk effect ziet, dan zal er een grote Cohen's d zijn en een niet significante p-waarde. Andersom geldt dit ook: in een hele grote steekproef kan een kleine effect size (kleine Cohen's d) wel statistisch significant zijn. Wellicht verklaart dit bij jullie de vraagtekens?


== Referenties ==
== Hoe interpreteer ik mijn kleine maar statistisch significante effect size? ==
 
''Ik weet even niet goed hoe ik de gevonden effect size in mijn onderzoek naar trends in tevredenheid moet interpreteren. Ik heb een sample size tussen de 7000 en 9000 patiënten, en ik vind diverse significante positieve trendlijnen (met andere woorden, de tevredenheid is significant gestegen). Slechts in 1 geval zijn de verschillen tussen de metingen ook relevant (Cohen's d is hier > 0.20), bij de overige uitkomsten vind ik bij de significante trendlijnen effect sizes van 0.07-0.14. Wat zegt dit nou precies? Ik ben denk ik door de grote sample size in staat om kleine verschillen te vinden, maar wat zegt het nou of ze wel of niet klinisch relevant zijn in dit geval?
 
Er zijn altijd twee kanten van het verhaal:
 
- sterkte van het effect / effect size geeft aan of er sprake is van een relevant effect
 
- statistische significantie geeft aan of het effect op toeval zou kunnen kunnen berusten of naar verwachting werkelijk aanwezig is


Zeker in een grote dataset (zoals die van jou) is het goed mogelijk dat een klein en daarmee niet zo relevante trend als significant gevonden wordt. Het is dan bewezen dat het er is, maar het stelt op zich niet zo veel voor. De statistische significantie zegt niets over of iets ook relevant is. Overigens adviseer ik je voor het beoordelen van de relevantie ook naar de tevredenheidsscores zelf te kijken en niet alleen naar gestandaardiseerde effect sizes (zoals Cohen's d), omdat je op de originele schaal vaak nog makkelijker kan beoordelen of iets een relevante toename is of niet.


<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;">
== Referenties ==
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.


Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse.
{{onderschrift}}
<div>

Latest revision as of 11:35, 11 January 2023

Waarom komen onze effect sizes niet overeen met onze p-waardes?

We zijn bezig met een manuscript over neuropsychologie bij behandelde en controlepatiënten. We hebben Cohen's d effect sizes toegevoegd aan de tabel met de verschilscores (3 weken follow-up t.o.v. baseline en 8 maanden follow-up t.o.v. baseline). De effect sizes hebben we als volgt berekend: 'We computed effect sizes according to Cohen’s d. Effect size is defined as the difference between the mean change scores of both groups divided by the pooled SD of the change scores. An effect of 0.2 reflects a small effect, 0.5 a medium, and 0.8 a large effect.' Onze effect sizes zijn nogal groot, soms zelfs als de p-waarde niet significant is. We vinden dit moeilijk te interpreteren. Kunt u ons adviseren?

De ogenschijnlijke discrepanties tussen effect size en p-waardes zouden statistisch als volgt verklaard kunnen worden: Cohen's d geeft een maat aan de sterkte van het effect, in relatie tot de spreiding (SD). Gegeven dat je een grote n hebt, kun je het effect en de SD goed schatten en zal deze maat in het algemeen in lijn zijn met de p-waardes. Bij kleine n echter, is Cohen's d niet in staat om de onzekerheid door de kleine aantallen te verwerken. Er wordt in de berekening nergens gecorrigeerd / rekening gehouden met het aantal datapunten dat als input heeft gediend voor het effect en de spreiding. Bij een toets (en resulterende p-waarde) wordt dat aspect uiteraard wel meegenomen. Met andere woorden: als je in een kleine groep een sterk effect ziet, dan zal er een grote Cohen's d zijn en een niet significante p-waarde. Andersom geldt dit ook: in een hele grote steekproef kan een kleine effect size (kleine Cohen's d) wel statistisch significant zijn. Wellicht verklaart dit bij jullie de vraagtekens?

Hoe interpreteer ik mijn kleine maar statistisch significante effect size?

Ik weet even niet goed hoe ik de gevonden effect size in mijn onderzoek naar trends in tevredenheid moet interpreteren. Ik heb een sample size tussen de 7000 en 9000 patiënten, en ik vind diverse significante positieve trendlijnen (met andere woorden, de tevredenheid is significant gestegen). Slechts in 1 geval zijn de verschillen tussen de metingen ook relevant (Cohen's d is hier > 0.20), bij de overige uitkomsten vind ik bij de significante trendlijnen effect sizes van 0.07-0.14. Wat zegt dit nou precies? Ik ben denk ik door de grote sample size in staat om kleine verschillen te vinden, maar wat zegt het nou of ze wel of niet klinisch relevant zijn in dit geval?

Er zijn altijd twee kanten van het verhaal:

- sterkte van het effect / effect size geeft aan of er sprake is van een relevant effect

- statistische significantie geeft aan of het effect op toeval zou kunnen kunnen berusten of naar verwachting werkelijk aanwezig is

Zeker in een grote dataset (zoals die van jou) is het goed mogelijk dat een klein en daarmee niet zo relevante trend als significant gevonden wordt. Het is dan bewezen dat het er is, maar het stelt op zich niet zo veel voor. De statistische significantie zegt niets over of iets ook relevant is. Overigens adviseer ik je voor het beoordelen van de relevantie ook naar de tevredenheidsscores zelf te kijken en niet alleen naar gestandaardiseerde effect sizes (zoals Cohen's d), omdat je op de originele schaal vaak nog makkelijker kan beoordelen of iets een relevante toename is of niet.

Referenties

Klaar met lezen? Je kunt naar het OVERZICHT van alle statistische onderwerpen op deze wiki gaan of naar de pagina KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse. Wil je meer leren over biostatistiek? Volg dan de AMC e-learning Practical Biostatistics. Vind je op deze pagina's iets dat niet klopt? Werkt een link niet? Of wil je bijdragen aan de wiki? Neem dan contact met ons op.

De wiki biostatistiek is een initiatief van de voormalige helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC kunnen via intranet ondersteuning aanvragen.