KEUZE TOETS: Difference between revisions
Line 136: | Line 136: | ||
Formeel gezien, moet je bij een p<0.05 de nul hypothese verwerpen. In jouw geval, zou je dus op basis van de p-waarde moeten besluiten om de data als niet normaal te zien. | Formeel gezien, moet je bij een p<0.05 de nul hypothese verwerpen. In jouw geval, zou je dus op basis van de p-waarde moeten besluiten om de data als niet normaal te zien. | ||
Echter, wanneer je voldoende data hebt, kun je zelfs een irrelevant, maar statistisch significante afwijking van de normale verdeling vinden. De test statistic W van de Shapiro-Wilk test loopt van 0 tot 1, waarbij 1 betekent dat de data perfect normaal verdeeld zijn. Vaak wordt meer naar deze waarde gekeken, dan naar de p-waarde, waarbij voor de W een ondergrens van 0.90 gehanteerd wordt. Als de test-stastistic W groter is dan 0.90 kan de data als normaal verdeeld beschouwd worden. (Er zijn veel voorbeelden waarbij de W > 0.99 is, terwijl de p < 0.05 is.) Soms wordt daarom aangeraden grote samples niet de Shaprio-Wilk maar de Kolmogorov-Smirnoff toets te gebruiken. | Echter, wanneer je voldoende data hebt, kun je zelfs een irrelevant, maar statistisch significante afwijking van de normale verdeling vinden. De test statistic W van de Shapiro-Wilk test loopt van 0 tot 1, waarbij 1 betekent dat de data perfect normaal verdeeld zijn. Vaak wordt meer naar deze waarde gekeken, dan naar de p-waarde, waarbij voor de W een ondergrens van 0.90 gehanteerd wordt. Als de test-stastistic W groter is dan 0.90 kan de data als normaal verdeeld beschouwd worden. (Er zijn veel voorbeelden waarbij de W > 0.99 is, terwijl de p < 0.05 is.) Soms wordt daarom aangeraden grote samples niet de Shaprio-Wilk maar de Kolmogorov-Smirnoff toets te gebruiken. | ||
===De Kolmogorov-Smirnoff toets uit de Explore functie geeft niet hetzelfde antwoord als die uit de 'Nonparametric Tests' menu.=== | |||
''De Kolmogorov-Smirnoff lijkt op twee manieren te kunnen via SPSS, namelijk via Explore -> Normality plots with tests of via Nonparametric tests ->1 sample K-S. Bij deze twee methoden komen er ‘omgekeerde’ resultaten uit, zo lijkt het bij mijn data.'' | |||
Scherpe observatie dat de twee K-S testen niet tot dezelfde conclusie komen. Ik citeer uit de help van SPSS behorend bij de non-parametric command: | |||
"The power of the test to detect departures from the hypothesized distribution may be seriously diminished. For testing against a normal distribution with estimated parameters, consider the adjusted K-S Lilliefors test (available in the Explore procedure)." | |||
Blijkbaar is de 'gewone' K-S test (onder de non-parametric opties) niet goed in staat om bij kleine samples een afwijking van normaliteit te vinden. Er is een correctie op de test die geimplementeerd is onder de Explore functie. (zie bijv http://en.wikipedia.org/wiki/Lilliefors_test voor details). | |||
Gebruik dus niet de K-S test uit de nonparametric tests opties. Beter nog: gebruik bij relatief kleine samples de Shapiro-Wilk test, deze zal als eerste een afwijking van normaliteit bemerken. | |||
Revision as of 19:24, 18 October 2010
Schema welke toets bij welke vergelijking
type vergelijking | |||||||
---|---|---|---|---|---|---|---|
1 groep | 2 groepen | >2 groepen | |||||
vs. referentie | gepaard | ongepaard | gepaard | ongepaard | |||
type data | continu | normaal
verdeeld |
1 sample t-toets | gepaarde t-toets | linear mixed models | One-way ANOVA | |
niet normaal
verdeeld |
sign toets | Wilcoxon signed rank toets | Mann-Whitney U toets | Friedman toets | Kruskal Wallis | ||
discreet | binair (proportie) | z-test voor proporties | McNemar toets | Chi-kwadraat toets/ | GLMM / GEE | Chi-kwadraat toets | |
nominaal /
ordinaal |
x | McNemar toets / | Chi-kwadraat toets (trend) | GLMM / GEE | Chi-kwadraat toets (trend) |
Schema welke analyse bij welke associatie
type associatie | ||||||
---|---|---|---|---|---|---|
crosssectioneel | longitudinaal | |||||
2 variabelen | meer onafhankelijke variabelen | 2 variabelen | meer onafhankelijke variabelen | |||
type data | continu | normaal
verdeeld |
Pearson's rho/enkelvoudige lineaire regressie | meervoudige lineaire regressie | herhaalde metingen | |
niet normaal
verdeeld |
Spearman's rho | Niet lineaire regressie | ||||
discreet | binair
(proporties) |
odds ratio/ risk ratio/
risk difference |
logistische regressie | survival analyse | Cox regressie | |
nominaal
/ordinaal |
x | multinomiale logistische regressie | x | x |
Van welk type is mijn data?
Continue variabelen
Het belangrijkste onderscheid naar type data is dat tussen continue en discrete variabelen. Een continue variabele kan in een bepaald interval iedere waarde aannemen. Lengte, gewicht en temperatuur zijn continue variabelen (bijvoorbeeld 37.3 graden Celsius).
Discrete variabelen
Voor discrete variabelen wordt onderscheid gemaakt tussen kwalitatieve en kwantitatieve variabelen. De waarden die kwalitatieve variabelen kunnen aannemen zijn geen getallen, maar kenmerken. We spreken ook wel van categorische variabelen. Kwalitatieve variabelen zijn per definitie discrete variabelen. Een voorbeeld van een kwalitatieve variabele is de bepaling van de bloedgroepen A, B, AB en 0.
Kwantitatieve discrete variabelen zijn gehele getallen. Een telling van het aantal polibezoeken van een patient is bijvoorbeeld een kwantitatieve discrete variabele. Als kwantitatieve discrete variabelen veel verschillende mogelijke waardes hebben (bijvoorbeeld het aantal CD4+ T cellen), worden ze vaak geanalyseerd als continue variabelen (er wordt dan wel eens gesproken over semi-continue data). Zijn er daarentegen maar een beperkt aantal uitkomstwaarden, dan zijn andere analysetechnieken vereist.
Voor de statistische analyse van kwalitatieve data en van kwantitatieve discrete variabelen met een beperkt aantal uitkomstmaten, wordt onderscheid gemaakt tussen binaire, nominale en ordinale discrete variabelen.
Binaire variabelen
Een binaire (of dichotome) uitkomstmaat heeft slechts 2 mogelijke uitkomsten of waarden. Voorbeelden zijn geslacht (man of vrouw), overleving (dood of levend) of hersteld (wel of niet).
Nominale variabelen
Op nominaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën niet in een vaste of zinvolle volgorde zijn te plaatsen. Voorbeeld. 'Bloedgroep' met als waarden A, B, AB en O of 'Behandeld vat' met als waarden LAD, LM, RCA en RCx.
Ordinale variabelen
Op ordinaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën wel in een vaste en zinvolle volgorde zijn te plaatsen. Bijvoorbeeld een stelling in een vragenlijst, zoals 'ik heb de laatste tijd vaak sombere gedachtes', met als antwoordcategorieen: 'geheel mee eens', 'mee eens', 'geen mening', 'niet mee eens' en 'geheel niet mee eens'.
Heb ik gepaarde of ongepaarde data?
Data zijn gepaard als er twee (of meer) maal bij dezelfde personen een meting gedaan is. Als er sprake is van aparte, onafhankelijke groepen, dan zijn data ongepaard. Bijvoorbeeld:
Wij hebben bij varkens een ziekte opgewekt. Daarna hebben bij de ene groep VROEG een interventie gedaan, en bij een andere groep LAAT een interventie gedaan. Welke statistische test moet ik gebruiken als ik: 1. Binnen een groep het verschil van VOOR en NA de interventie wil testen? 2. Het verschil tussen de 2 groepen (na de interventie) wil testen?
In het eerste geval zal er een gepaarde toets gedaan moeten worden, in het tweede geval een ongepaarde toets.
Hoe beoordeel ik de normaliteit van mijn data?
Je kunt beoordelen of de studie sample afkomstig kan zijn uit een normaal verdeelde populatie door naar het histogram en naar de normaliteitsplot kijken. Ook kan er een formele toets gedaan worden. Bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef eventueel de groepsvariabele op onder "Factor List").
Wanneer concludeert de Shapiro Wilk test dat data niet normaal verdeeld is?
Ik dacht dat een Shapiro-Wilk test met p<0.05 betekende dat de data niet normaal verdeeld zijn. Nu heb ik van een collega een syntax ingekeken waar een grens van 0.9 wordt aangehouden. Wat is nou waar?
Formeel gezien, moet je bij een p<0.05 de nul hypothese verwerpen. In jouw geval, zou je dus op basis van de p-waarde moeten besluiten om de data als niet normaal te zien. Echter, wanneer je voldoende data hebt, kun je zelfs een irrelevant, maar statistisch significante afwijking van de normale verdeling vinden. De test statistic W van de Shapiro-Wilk test loopt van 0 tot 1, waarbij 1 betekent dat de data perfect normaal verdeeld zijn. Vaak wordt meer naar deze waarde gekeken, dan naar de p-waarde, waarbij voor de W een ondergrens van 0.90 gehanteerd wordt. Als de test-stastistic W groter is dan 0.90 kan de data als normaal verdeeld beschouwd worden. (Er zijn veel voorbeelden waarbij de W > 0.99 is, terwijl de p < 0.05 is.) Soms wordt daarom aangeraden grote samples niet de Shaprio-Wilk maar de Kolmogorov-Smirnoff toets te gebruiken.
De Kolmogorov-Smirnoff lijkt op twee manieren te kunnen via SPSS, namelijk via Explore -> Normality plots with tests of via Nonparametric tests ->1 sample K-S. Bij deze twee methoden komen er ‘omgekeerde’ resultaten uit, zo lijkt het bij mijn data.
Scherpe observatie dat de twee K-S testen niet tot dezelfde conclusie komen. Ik citeer uit de help van SPSS behorend bij de non-parametric command:
"The power of the test to detect departures from the hypothesized distribution may be seriously diminished. For testing against a normal distribution with estimated parameters, consider the adjusted K-S Lilliefors test (available in the Explore procedure)."
Blijkbaar is de 'gewone' K-S test (onder de non-parametric opties) niet goed in staat om bij kleine samples een afwijking van normaliteit te vinden. Er is een correctie op de test die geimplementeerd is onder de Explore functie. (zie bijv http://en.wikipedia.org/wiki/Lilliefors_test voor details).
Gebruik dus niet de K-S test uit de nonparametric tests opties. Beter nog: gebruik bij relatief kleine samples de Shapiro-Wilk test, deze zal als eerste een afwijking van normaliteit bemerken.
Terug naar OVERZICHT voor een overzicht van alle statistische onderwerpen op deze wiki.