Effect maten: Difference between revisions

From Wikistatistiek
Jump to navigation Jump to search
 
(2 intermediate revisions by the same user not shown)
Line 1: Line 1:
Een effectgrootte (Eng: [https://en.wikipedia.org/wiki/Effect_size effect size]) is een waarde die de grootte of sterkte van een effect of verband uitdrukt. Dat effect kan een correlatie zijn, maar ook een (geschat) verschil tussen twee groepen of meetmomenten. Een effect size heeft dus geen vaste eenheid en soms maakt dat interpretatie of vergelijking lastig. Er bestaan verschillende manieren om effect sizes te standaardiseren. Cohen's d is een voorbeeld van een gestandaardiseerde effectmaat.
= Gestandaardiseerde effectmaten =
== Waarom komen onze effect sizes niet overeen met onze p-waardes?==
== Waarom komen onze effect sizes niet overeen met onze p-waardes?==


''We zijn bezig met een manuscript over neuropsychologie bij behandel en controle patienten. We hebben Cohen's d effectsizes toegevoegd aan de tabel met de verschilscores (3 weken follow up tov baseline en 8 maanden follow up tov baseline). De effectsizes hebben we als volgt berekend: 'We computed effect sizes according to Cohen’s d. Effect size is defined as the difference between the mean change scores of both groups divided by the pooled SD of the change scores. An effect of 0.2 reflects a small effect, 0.5 a medium, and 0.8 a large effect.' Onze effect sizes zijn nogal groot, soms zelfs als de p-waarde niet significant is. We vinden dit moeilijk te interpreteren. Kan u ons adviseren?  
''We zijn bezig met een manuscript over neuropsychologie bij behandelde en controlepatiënten. We hebben Cohen's d effect sizes toegevoegd aan de tabel met de verschilscores (3 weken follow-up t.o.v. baseline en 8 maanden follow-up t.o.v. baseline). De effect sizes hebben we als volgt berekend: 'We computed effect sizes according to Cohen’s d. Effect size is defined as the difference between the mean change scores of both groups divided by the pooled SD of the change scores. An effect of 0.2 reflects a small effect, 0.5 a medium, and 0.8 a large effect.' Onze effect sizes zijn nogal groot, soms zelfs als de p-waarde niet significant is. We vinden dit moeilijk te interpreteren. Kunt u ons adviseren?  


De ogenschijnlijke discrepanties tussen effect size en p-waardes zouden statistisch als volgt verklaard kunnen worden: Cohen's d geeft een maat aan de sterkte van het effect, in relatie tot de spreiding (SD). Gegeven dat je een grote n hebt, kun je het effect en de SD goed schatten en zal deze maat in het algemeen in lijn zijn met de p-waardes. Bij kleine n echter, is Cohen's d niet in staat om de onzekerheid door de kleine aantallen te verwerken. Er wordt in de berekening nergens gecorrigeerd / rekening gehouden met het aantal datapunten dat als input heeft gediend voor het effect en de spreiding. Bij een toets (en resulterende p-waarde) wordt dat aspect uiteraard wel meegenomen. Maw: als je in een kleine groep een sterk effect ziet, dan zal er een grote Cohen's d zijn en een niet significante p-waarde. Andersom geldt dit ook: in een hele grote steekproef kan een kleine effect size (kleine Cohen's d) wel statistisch significant zijn. Wellicht verklaart dit bij jullie de vraagtekens?
De ogenschijnlijke discrepanties tussen effect size en p-waardes zouden statistisch als volgt verklaard kunnen worden: Cohen's d geeft een maat aan de sterkte van het effect, in relatie tot de spreiding (SD). Gegeven dat je een grote n hebt, kun je het effect en de SD goed schatten en zal deze maat in het algemeen in lijn zijn met de p-waardes. Bij kleine n echter, is Cohen's d niet in staat om de onzekerheid door de kleine aantallen te verwerken. Er wordt in de berekening nergens gecorrigeerd / rekening gehouden met het aantal datapunten dat als input heeft gediend voor het effect en de spreiding. Bij een toets (en resulterende p-waarde) wordt dat aspect uiteraard wel meegenomen. Met andere woorden: als je in een kleine groep een sterk effect ziet, dan zal er een grote Cohen's d zijn en een niet significante p-waarde. Andersom geldt dit ook: in een hele grote steekproef kan een kleine effect size (kleine Cohen's d) wel statistisch significant zijn. Wellicht verklaart dit bij jullie de vraagtekens?


== Hoe interpreteer ik mijn kleine maar statistisch significante effect size? ==
== Hoe interpreteer ik mijn kleine maar statistisch significante effect size? ==


''Ik weet even niet goed hoe ik de gevonden effect size in mijn onderzoek naar trends in tevredenheid moet interpreteren. Ik heb een sample size tussen de 7000 en 9000 patienten, en ik vind diverse significante positieve trendlijnen (maw, de tevredenheid is significant gestegen). Slechts in 1 geval zijn de verschillen tussen de metingen ook relevant (Cohen's d is hier > 0.20), bij de overige uitkomsten vind ik bij de significante trendlijnen effect sizes van 0.07-0.14. Wat zegt dit nou precies? Ik ben denk ik door de grote samplesize in staat om kleine verschillen te vinden, maar wat zegt het nou of ze wel of niet klinisch relevant zijn in dit geval?  
''Ik weet even niet goed hoe ik de gevonden effect size in mijn onderzoek naar trends in tevredenheid moet interpreteren. Ik heb een sample size tussen de 7000 en 9000 patiënten, en ik vind diverse significante positieve trendlijnen (met andere woorden, de tevredenheid is significant gestegen). Slechts in 1 geval zijn de verschillen tussen de metingen ook relevant (Cohen's d is hier > 0.20), bij de overige uitkomsten vind ik bij de significante trendlijnen effect sizes van 0.07-0.14. Wat zegt dit nou precies? Ik ben denk ik door de grote sample size in staat om kleine verschillen te vinden, maar wat zegt het nou of ze wel of niet klinisch relevant zijn in dit geval?  


Er zijn altijd twee kanten van het verhaal:  
Er zijn altijd twee kanten van het verhaal:  
Line 15: Line 19:
- statistische significantie geeft aan of het effect op toeval zou kunnen kunnen berusten of naar verwachting werkelijk aanwezig is
- statistische significantie geeft aan of het effect op toeval zou kunnen kunnen berusten of naar verwachting werkelijk aanwezig is


Zeker in een grote dataset (zoals die van jou) is het goed mogelijk dat een klein en daarmee niet zo relevante trend als significant gevonden wordt. Het is dan bewezen dat het er is, maar het stelt op zich niet zo veel voor. De statistische significantie zegt niets over of iets ook relevant is. Overigens adviseer ik je voor het beoordelen van de relevantie ook naar de tevredenheidsscores zelf te kijken en niet alleen naar gestandaardiseerde effect sizes (zoals cohen's d), omdat je op de originele schaal vaak nog makkelijker kan beoordelen of iets een relevante toename is of niet.
Zeker in een grote dataset (zoals die van jou) is het goed mogelijk dat een klein en daarmee niet zo relevante trend als significant gevonden wordt. Het is dan bewezen dat het er is, maar het stelt op zich niet zo veel voor. De statistische significantie zegt niets over of iets ook relevant is. Overigens adviseer ik je voor het beoordelen van de relevantie ook naar de tevredenheidsscores zelf te kijken en niet alleen naar gestandaardiseerde effect sizes (zoals Cohen's d), omdat je op de originele schaal vaak nog makkelijker kan beoordelen of iets een relevante toename is of niet.


== Referenties ==
== Referenties ==
== Aanvullende bronnen ==
* Wellicht heb je ook wat aan onze pagina's over [[poweranalyse | steekproefgrootteanalyse]] of [[Meta-analyse#Hoe_kan_ik_een_meta-analyse_op_kwaliteit_van_leven_uitvoeren? | meta-analyse ]].


{{onderschrift}}
{{onderschrift}}

Latest revision as of 17:11, 20 November 2024

Een effectgrootte (Eng: effect size) is een waarde die de grootte of sterkte van een effect of verband uitdrukt. Dat effect kan een correlatie zijn, maar ook een (geschat) verschil tussen twee groepen of meetmomenten. Een effect size heeft dus geen vaste eenheid en soms maakt dat interpretatie of vergelijking lastig. Er bestaan verschillende manieren om effect sizes te standaardiseren. Cohen's d is een voorbeeld van een gestandaardiseerde effectmaat.

Gestandaardiseerde effectmaten

Waarom komen onze effect sizes niet overeen met onze p-waardes?

We zijn bezig met een manuscript over neuropsychologie bij behandelde en controlepatiënten. We hebben Cohen's d effect sizes toegevoegd aan de tabel met de verschilscores (3 weken follow-up t.o.v. baseline en 8 maanden follow-up t.o.v. baseline). De effect sizes hebben we als volgt berekend: 'We computed effect sizes according to Cohen’s d. Effect size is defined as the difference between the mean change scores of both groups divided by the pooled SD of the change scores. An effect of 0.2 reflects a small effect, 0.5 a medium, and 0.8 a large effect.' Onze effect sizes zijn nogal groot, soms zelfs als de p-waarde niet significant is. We vinden dit moeilijk te interpreteren. Kunt u ons adviseren?

De ogenschijnlijke discrepanties tussen effect size en p-waardes zouden statistisch als volgt verklaard kunnen worden: Cohen's d geeft een maat aan de sterkte van het effect, in relatie tot de spreiding (SD). Gegeven dat je een grote n hebt, kun je het effect en de SD goed schatten en zal deze maat in het algemeen in lijn zijn met de p-waardes. Bij kleine n echter, is Cohen's d niet in staat om de onzekerheid door de kleine aantallen te verwerken. Er wordt in de berekening nergens gecorrigeerd / rekening gehouden met het aantal datapunten dat als input heeft gediend voor het effect en de spreiding. Bij een toets (en resulterende p-waarde) wordt dat aspect uiteraard wel meegenomen. Met andere woorden: als je in een kleine groep een sterk effect ziet, dan zal er een grote Cohen's d zijn en een niet significante p-waarde. Andersom geldt dit ook: in een hele grote steekproef kan een kleine effect size (kleine Cohen's d) wel statistisch significant zijn. Wellicht verklaart dit bij jullie de vraagtekens?

Hoe interpreteer ik mijn kleine maar statistisch significante effect size?

Ik weet even niet goed hoe ik de gevonden effect size in mijn onderzoek naar trends in tevredenheid moet interpreteren. Ik heb een sample size tussen de 7000 en 9000 patiënten, en ik vind diverse significante positieve trendlijnen (met andere woorden, de tevredenheid is significant gestegen). Slechts in 1 geval zijn de verschillen tussen de metingen ook relevant (Cohen's d is hier > 0.20), bij de overige uitkomsten vind ik bij de significante trendlijnen effect sizes van 0.07-0.14. Wat zegt dit nou precies? Ik ben denk ik door de grote sample size in staat om kleine verschillen te vinden, maar wat zegt het nou of ze wel of niet klinisch relevant zijn in dit geval?

Er zijn altijd twee kanten van het verhaal:

- sterkte van het effect / effect size geeft aan of er sprake is van een relevant effect

- statistische significantie geeft aan of het effect op toeval zou kunnen kunnen berusten of naar verwachting werkelijk aanwezig is

Zeker in een grote dataset (zoals die van jou) is het goed mogelijk dat een klein en daarmee niet zo relevante trend als significant gevonden wordt. Het is dan bewezen dat het er is, maar het stelt op zich niet zo veel voor. De statistische significantie zegt niets over of iets ook relevant is. Overigens adviseer ik je voor het beoordelen van de relevantie ook naar de tevredenheidsscores zelf te kijken en niet alleen naar gestandaardiseerde effect sizes (zoals Cohen's d), omdat je op de originele schaal vaak nog makkelijker kan beoordelen of iets een relevante toename is of niet.

Referenties

Aanvullende bronnen

Klaar met lezen? Je kunt naar het OVERZICHT van alle statistische onderwerpen op deze wiki gaan of naar de pagina KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse. Wil je meer leren over biostatistiek? Volg dan de AMC e-learning Practical Biostatistics. Vind je op deze pagina's iets dat niet klopt? Werkt een link niet? Of wil je bijdragen aan de wiki? Neem dan contact met ons op.

De wiki biostatistiek is een initiatief van de voormalige helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC kunnen via intranet ondersteuning aanvragen.