KEUZE TOETS: Difference between revisions

From Wikistatistiek
Jump to navigation Jump to search
No edit summary
 
(119 intermediate revisions by 5 users not shown)
Line 8: Line 8:
! style="background:#efefef;" colspan="2"|>2 groepen
! style="background:#efefef;" colspan="2"|>2 groepen
|-
|-
! referentie
! vs. referentie
! gepaard
! gepaard
! ongepaard
! ongepaard
Line 14: Line 14:
! ongepaard
! ongepaard
|-
|-
!style="background:#d0e5f5;" rowspan="4" width="50" | type  
!style="background:#d0e5f5;" rowspan="4" width="60" | type data
uit-
!style="background:#efefef;" rowspan="2" width="50"|numeriek (continu)
komst-
maat
!style="background:#efefef;" rowspan="2" width="50"|(semi-)
continu
!style= width="50" height="100" |normaal
!style= width="50" height="100" |normaal
verdeeld
|style="" width="100" | [[T-toets#one sample t-toets|1 sample t-toets]]
|style="" width="100" | [[T-toets#one sample t-toets|1 sample t-toets]]
|style="" width="100" | [[T-toets#gepaarde t-toets|gepaarde t-toets]]
|style="" width="100" | [[T-toets#gepaarde t-toets|gepaarde t-toets]]
Line 30: Line 27:
|-
|-
!style= height="100" |niet normaal
!style= height="100" |niet normaal
|style="" |sign test
verdeeld
|style="" |Wilcoxon signed rank test
|style="" |[[tekentoets]]
|style="" |Wilcoxon Ranksum test
|style="" |[[Wilcoxon signed rank toets]]
|style="" |Friedman test
|style="" |[[Mann-Whitney U toets]]
|style="" |Kruskal Wallis
|style="" |[[Friedman toets]]
|style="" |[[Kruskal Wallis]]
|-
|-
! style="background:#efefef;" rowspan="2"| categorisch
! style="background:#efefef;" rowspan="2"| categorisch (discreet)
! style= height="100" | binair (proportie)
! style= height="100" | binair
| style="" |z-test voor proporties
| style="" |[[proporties | tests voor enkele proportie]]
| style="" |McNemars test
| style="" |[[McNemar toets]]
| style="" |[[Chi-kwadraat toets]] /
| style="" |[[Chi-kwadraat toets]]/
[[Fisher's exact toets]]
| style="" |GLMM / GEE
| style=""| [[Chi-kwadraat toets]] /  
[[Fisher's exact toets]]
[[Fisher's exact toets]]
| style="" |[[Cochran's Q toets]]
| style=""| [[Chi-kwadraat toets]]/[[Fisher%27s_exact_toets#Ik_heb_meer_dan_twee_categorie.C3.ABn._Kan_ik_dan_ook_Fisher.27s_exact_toets_gebruiken.3F | Fisher-Freeman-Halton exact toets]]
|-
|-
! style= height="100" |nominaal / ordinaal
! style= height="100" |nominaal /  
ordinaal
| style="" |x
| style="" |x
| style="" |McNemars test
| style="" |[[McNemar toets]] /
| style="" |[[Chi-kwadraat toets]] (trend) /
[[Wilcoxon signed rank toets]]
[[Fisher's exact toets]]
| style="" |[[Chi-kwadraat toets]] (trend)
| style="" |GLMM / GEE
| style="" |[[Herhaalde metingen|GLMM / GEE]]
| style="" |[[Chi-kwadraat toets]] /
| style="" |[[Chi-kwadraat toets]] (trend) 
[[Fisher's exact toets]]
|}
|}


Line 64: Line 61:
! style="background:#efefef;" colspan="2" |longitudinaal  
! style="background:#efefef;" colspan="2" |longitudinaal  
|-
|-
!width="100" |2 variabelen
!width="100" |een onafhankelijke variabele
!width="100" |meer variabelen
!width="100" |meer onafhankelijke variabelen
!width="100" |2 variabelen
!width="100" |een onafhankelijke variabele
!width="100" |meer variabelen
!width="100" |meer onafhankelijke variabelen
|-
|-
!style="background:#faecc8;" rowspan="4" width="50" | type  
!style="background:#faecc8;" rowspan="5" width="60" | type data
uit-
!style="background:#efefef;" rowspan="2" width="50" |numeriek (continu)
komst-
maat
!style="background:#efefef;" rowspan="2" width="50" |(semi-)
continu
!height="100" width="50"| normaal
!height="100" width="50"| normaal
|[[Correlatie#Pearson's rho|Pearson's rho]]
verdeeld
|[[Correlatie#Pearson's rho|Pearson's rho]]/[[lineaire regressie|enkelvoudige lineaire regressie]]
   
   
|[[Lineaire regressie]]
|[[lineaire regressie|meervoudige lineaire regressie]]
|colspan="2" rowspan="2"| [[Herhaalde metingen]]
|colspan="2" rowspan="2"| [[herhaalde metingen]]
|-
|-
!height="100" |niet  
!height="100" |niet normaal
normaal
verdeeld
|[[Correlatie#Spearman's rho|Spearman's rho]] /
|[[Correlatie#Spearman's rho|Spearman's rho]]
[[Correlatie#Spearman's rho|Kendall's tau]]
|x
|Niet lineaire regressie
|-
|-
!style="background:#efefef;" rowspan="2" | categorisch
!style="background:#efefef;" rowspan="1" | gecensureerd numeriek
!|
|
|
|[[survival analyse|Kaplan Meier analyse]]
|[[survival analyse#Cox regressie|Cox regressie]]
|-
!style="background:#efefef;" rowspan="2" | categorisch (discreet)
!height="100" |binair  
!height="100" |binair  
(proporties)
|[[Associatiematen_2x2_tabel#Odds ratio|OR]]/ [[Associatiematen_2x2_tabel#Relatief_risico|RR]]/ [[Associatiematen_2x2_tabel#Relatieve risicoreductie|RRR]] / [[Associatiematen_2x2_tabel#Absolute_risicoreductie|ARR]] / [[Associatiematen_2x2_tabel#Number Needed to Treat|NNT]]
|odds ratio/ risk ratio/
|[[logistische regressie]]
risk difference
|colspan="2" rowspan="2" |[[herhaalde metingen|GLMM / GEE]]
|[[Logistische regressie]]
|[[Survival analyse]]
|[[Survival analyse#Cox regressie|Cox regressie]]
|-
|-
!height="100"| nominaal
!height="100"| nominaal
/ordinaal
/ordinaal
|x
|x
|multinomiale logistische regressie
|[[multinomiale logistische regressie|multinomiale]]
|x
/ [[ordinale logistische regressie]]
|x
|}
|}


= FAQ nav de twee schema's =
= Van welk type is mijn data?=
 
==Continue variabelen==
Het belangrijkste onderscheid naar type data is dat tussen continue en discrete variabelen. Een continue variabele kan in een bepaald interval iedere waarde aannemen. Lengte, gewicht en temperatuur zijn continue variabelen (bijvoorbeeld 37.3 graden Celsius).
 
==Discrete variabelen==
Voor discrete variabelen wordt onderscheid gemaakt tussen kwalitatieve en kwantitatieve variabelen. De waarden die kwalitatieve variabelen kunnen aannemen zijn geen getallen, maar kenmerken. We spreken ook wel van categorische variabelen. Kwalitatieve variabelen zijn per definitie discrete variabelen. Een voorbeeld van een kwalitatieve variabele is de bepaling van de bloedgroepen A, B, AB en 0.
 
Kwantitatieve discrete variabelen zijn gehele getallen. Een telling van het aantal polibezoeken van een patiënt is bijvoorbeeld een kwantitatieve discrete variabele. Als kwantitatieve discrete variabelen veel verschillende mogelijke waardes hebben (bijvoorbeeld het aantal CD4+ T cellen), worden ze vaak geanalyseerd als continue variabelen (er wordt dan wel eens gesproken over semi-continue data). Zijn er daarentegen maar een beperkt aantal uitkomstwaarden, dan zijn andere analysetechnieken vereist.


== Van welk type is mijn uitkomstmaat?==
Voor de statistische analyse van kwalitatieve data en van kwantitatieve discrete variabelen met een beperkt aantal uitkomstmaten, wordt onderscheid gemaakt tussen binaire, nominale en ordinale discrete variabelen.
== Heb ik gepaarde of ongepaarde data?==
 
===Binaire variabelen===
Een binaire (of dichotome) uitkomstmaat heeft slechts 2 mogelijke uitkomsten of waarden. Voorbeelden zijn geslacht (man of vrouw), overleving (dood of levend) of hersteld (wel of niet).
 
===Nominale variabelen===
Op nominaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën niet in een vaste of zinvolle volgorde zijn te plaatsen. Voorbeeld. 'Bloedgroep' met als waarden A, B, AB en O of 'Behandeld vat' met als waarden LAD, LM, RCA en RCx.
 
===Ordinale variabelen===
Op ordinaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën wel in een vaste en zinvolle volgorde zijn te plaatsen. Bijvoorbeeld een stelling in een vragenlijst, zoals 'ik heb de laatste tijd vaak sombere gedachtes', met als antwoordcategorieën: 'geheel mee eens', 'mee eens', 'geen mening', 'niet mee eens' en 'geheel niet mee eens'. (Discrete) numerieke variabelen zijn per definitie ordinaal (door het numerieke karakter is er een ordening in de getallen).
 
= Heb ik gepaarde of ongepaarde data?=
 
Data zijn gepaard als er twee (of meer) maal bij dezelfde personen een meting gedaan is. Als er sprake is van aparte, onafhankelijke groepen, dan zijn data ongepaard.
 
*Voorbeeld 1 ''Wij hebben bij varkens een ziekte opgewekt. Daarna hebben bij de ene groep VROEG een interventie gedaan, en bij een andere groep LAAT een interventie gedaan. Welke statistische test moet ik gebruiken als ik: 1. Binnen een groep het verschil van VOOR en NA de interventie wil testen? 2. Het verschil tussen de 2 groepen (na de interventie) wil testen?'' -> In het eerste geval zal er een gepaarde toets gedaan moeten worden, in het tweede geval een ongepaarde toets.
 
*Voorbeeld 2 ''Er is een nieuw apparaat op de markt dat bloeddruk kan meten. Wij willen dit apparaat vergelijken met de huidige gouden standaard van bloeddrukbepalingen met behulp van een bloeddrukband. We hebben bij 30 patiënten de bloeddruk bepaald, gelijkertijd met het nieuwe apparaat als met de gangbare bloeddrukband. Ik wil de gemiddelden van deze twee metingen, van dezelfde 30 patiënten met elkaar vergelijken. Kan dit met een ongepaarde toets? Zijn dit wel onafhankelijke metingen?'' -> Indien de metingen van het apparaat en de gouden standaard band betrekking hebben op dezelfde patienten (en op hetzelfde moment), dan zijn het geen onafhankelijke metingen. Je hebt dan gepaarde metingen en als je het verschil in gemiddelde waarden wilt vergelijken zul je een gepaarde toets moeten doen.
 
== Ik heb deels gepaarde en deels ongepaarde proporties, hoe kan ik deze vergelijken? ==
''Ik vergelijk de uitkomsten van kwaliteitsindicatoren in twee verschillende databronnen. Mijn patiënten hebben een "partial overlap": sommige kon ik matchen in beide databronnen, en sommige staan slechts in een van de twee bronnen. Dus zijn zij niet "paired" en ook niet "unpaired". Hoe kan ik de kwaliteitsindicatoren (binaire variabelen) met elkaar vergelijken?
 
De patiënten die in beide bronnen voorkomen kun je vergelijken mbv een gepaarde [[McNemar toets]]. De patiënten die slechts in een van de twee bronnen voorkomen kun je vergelijken met een ongepaarde [[Chi-kwadraat toets]]. Er zijn ook methoden om beide patiëntgroepen tegelijk te vergelijken. Zie daarvoor de volgende referenties:
 
*[http://www.ncbi.nlm.nih.gov/pubmed/7481184 Thomson PC. A hybrid paired and unpaired analysis for the comparison of proportions. Stat Med. 1995 Jul 15;14(13):1463-70]
*[http://www-users.york.ac.uk/~mb55/overlap.pdf Comparing proportions in overlapping samples. An unpublished paper by J Martin Bland and Barbara K Butland]
 
= Hoe beoordeel ik de normaliteit van mijn data? =
Je kunt beoordelen of de studie sample afkomstig kan zijn uit een [http://nl.wikipedia.org/wiki/Normale_verdeling normaal verdeelde populatie] door naar het histogram en naar de normaliteitsplot kijken. Ook kan er een formele toets gedaan worden. Bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef eventueel de groepsvariabele op onder "Factor List"). Let er echter op dat bij grote aantallen deze tests reeds een kleine (voor de beoogde analyse mogelijk irrelevante) afwijking van normaliteit significant kan worden terwijl er bij kleine aantallen grove afwijkingen van normaliteit niet statistisch significant uit de bus komen. Baseer je beoordeling dus nooit op enkel deze testen, maak ook een grafische inschatting en weeg de aantallen mee.
 
Bij datasets>25 kan er met een beperkte scheve verdeling alsnog gebruikt gemaakt worden van parametrische tests zoals de [[t-toets]], zie een heldere uitleg in dit artikel <cite>[cessie2020]</cite>.
 
===Wanneer concludeert de Shapiro Wilk test dat data niet normaal verdeeld is?===
 
''Ik dacht dat een Shapiro-Wilk test met p<0.05 betekende dat de data niet normaal verdeeld zijn. Nu heb ik van een collega een syntax ingekeken waar een grens van 0.9 wordt aangehouden. Wat is nou waar?
 
Formeel gezien, moet je bij een p<0.05 de nul hypothese verwerpen. In jouw geval, zou je dus op basis van de p-waarde moeten besluiten om de data als niet normaal te zien.
Echter, wanneer je voldoende data hebt, kun je zelfs een irrelevant, maar statistisch significante afwijking van de normale verdeling vinden. De test statistic W van de Shapiro-Wilk test loopt van 0 tot 1, waarbij 1 betekent dat de data perfect normaal verdeeld zijn. Vaak wordt meer naar deze waarde gekeken, dan naar de p-waarde, waarbij voor de W een ondergrens van 0.90 gehanteerd wordt. Als de test-stastistic W groter is dan 0.90 kan de data als normaal verdeeld beschouwd worden. (Er zijn veel voorbeelden waarbij de W > 0.99 is, terwijl de p < 0.05 is.) Soms wordt daarom aangeraden grote samples niet de Shaprio-Wilk maar de Kolmogorov-Smirnoff toets te gebruiken.
 
===De Kolmogorov-Smirnoff toets uit de Explore functie geeft niet hetzelfde antwoord als die uit de 'Nonparametric Tests' menu.===
 
''De Kolmogorov-Smirnoff lijkt op twee manieren te kunnen via SPSS, namelijk via Explore -> Normality plots with tests of via Nonparametric tests ->1 sample K-S. Bij deze twee methoden komen er ‘omgekeerde’ resultaten uit, zo lijkt het bij mijn data.''
 
Scherpe observatie dat de twee K-S testen niet tot dezelfde conclusie komen. Ik citeer uit de help van SPSS behorend bij de non-parametric command:
 
"The power of the test to detect departures from the hypothesized distribution may be seriously diminished. For testing against a normal distribution with estimated parameters, consider the adjusted K-S Lilliefors test (available in the Explore procedure)."
 
Blijkbaar is de 'gewone' K-S test (onder de non-parametric opties) niet goed in staat om bij kleine samples een afwijking van normaliteit te vinden. Er is een correctie op de test die geimplementeerd is onder de Explore functie. (zie bijv http://en.wikipedia.org/wiki/Lilliefors_test voor details).
 
Gebruik dus niet de K-S test uit de nonparametric tests opties. Beter nog: gebruik bij relatief kleine samples de Shapiro-Wilk test, deze zal als eerste een afwijking van normaliteit bemerken.
 
===Hoe beoordeel ik normaliteit bij een klein aantal observaties?===
 
''Voor een artikel wat ik aan het schrijven ben moet ik enkele statistische analyses doen waarbij het voor mij onduidelijk is hoe ik moet beoordelen of de te gebruiken data wel of niet normaal verdeeld zijn. Het betreft kleine aantallen proefpersonen (<10 patienten met voor en nameting gezien zeldzame ziektebeeld). Hierbij gaat het om algemene zaken als lichaamsgewicht en cholesterolinname en om specifiekere zaken als uitslagen van PET/CT- en MRI-scans. Een plot of histogram zegt hierbij denk ik niet zo veel (lijkt niet normaal, maar gewicht in de populatie is dat bijvoorbeeld wel). Kunt u mij vertellen hoe ik bij dit soort getallen kan beoordelen of iets wel of niet normaal verdeeld is? Is hier een stelregel voor bij kleine getallen?
 
Bij twijfel over het mogen aannemen van een normale verdeling in het algemeen kan inderdaad kennis over de verdeling in de totale populatie doorslag geven. In geval van kleine aantallen echter speelt er een ander probleem. Er zal bij kleine aantallen geen betrouwbare schatting gemaakt kunnen worden van het gemiddelde en de standaarddeviatie. Dus ook al is er een onderliggende normale verdeling, zal met de beschikbare data niet goed de parameters van die verdeling geschat kunnen worden. Om die reden is het bij twijfel over normaliteit en (echt) kleine aantallen aan te raden om geen normaliteit aan te nemen en uit te wijken naar non-parametrische toetsen. Met echt klein kun je denken aan <25, zie ook dit artikel <cite>[cessie2020]</cite>.
 
=Hoe kan ik in SPSS mijn data transformeren?=
 
''Ik wil mijn uitkomstmaat graag transformeren om te zien of hij dan wel normaal verdeeld is. Hoe doe ik dat in SPSS?
 
Dat kan onder Transform -> Compute Variable. Hier kun je een nieuwe variabele aanmaken die een tranformatie is van een oude variabele. Onder 'Target Variable' type je de naam van de nieuw te maken variabele in en onder 'Numeric Expression' type je hoe de variabele gemaakt kan worden. Bijvoorbeeld Lg10(VAROUD), om de 10 log van de variabele VAROUD te nemen.
 
==Ik heb een probleem met log transformatie vanwege nullen in de data==
''Er is nog iets waar ik over struikel in de log transformaties van mijn niet-normaal verdeelde continue uitkomstmaten (een aantal schalen voor psychische klachten). Bij het 'computen' van de log variabelen zegt SPSS iets van: "The argument for the Logbase 10 function is less or equal to 10 on the indicate command. The result has been set to the system missing value." Ik begrijp dus dat alle 0 waarden uit de oorspronkelijk variabele niet getransformeerd kunnen worden en daarom geen waarde krijgen in de getransformeerde variabele. Is hier iets aan te doen?
 
De log van 0 is inderdaad niet uit te rekenen (minus oneindig). Wat meestal gehanteerd wordt is dat er voor de transformatie bij alle (dus ook degene die niet nul zijn) waarden een vast getal wordt opgeteld (bijvoorbeeld 1). Op die manier ontwijk je de rekenproblemen met log 0 en hou je de afstand tussen de waardes in ere. De transformatie die je dan gebruikt is eigenlijk log(x+1).
 
==Wat is beter: een Mann Whitney U op niet normaal verdeelde data of een ongepaarde t-test op de log schaal van deze data welke wel normaal verdeeld zijn?==
 
''Of maakt het niet uit welke je kiest? Het verschil is klein (4 cijfers achter de komma), maar de T test komt iets significanter uit.
 
Het is altijd fijn als de analysemethode het resultaat niet beïnvloedt en dat er dus hetzelfde uitkomt. Een verschil in p-waarde 4 cijfers achter de komma is totaal irrelevant (daarop letten veinst een nauwkeurigheid die je in het algemeen niet hebt). De voor/na delen in het algemeen zijn:
 
-[[Mann-Whitney U toets]]: resultaat niet afhankelijk van aannames, non-parametrisch wordt in het algemeen als zeer objectief/betrouwbaar gezien
 
-[[t-toets]]: bij normaal verdeelde data (of na transformatie normaal verdeelde data) is er in theorie meer power om iets als significant aan te kunnen duiden
 
Verder zou ik letten op consistentie in het manuscript. Als je bij andere analyses wel normaliteit van de log getransformeerde data gebruikt (bijv omdat je ook [[multivariabele regressie|multivariabele analyses]] doet), is het raadzaam die lijn aan te houden.
 
==Geen normaliteit na log-transformatie, wat nu?==
 
''Mijn data zijn niet niet-normaal verdeeld. Na een logaritmische transformatie blijkt nu dat de data nog steeds niet normaal verdeeld zijn. Is het zo dat men een logaritmische transformatie uitvoert om testen te kunnen uitvoeren voor normaal verdeelde data? Zo ja, heeft het dan wel zin om in mijn geval een logaritmische transformatie uit te voeren en met die getallen te werken, terwijl ik nog steeds testen met moet gebruiken voor niet-normaal verdeelde data?
 
Inderdaad, de transformatie wordt in het algemeen toegepast om testen/analyses te kunnen gebruiken die normaal verdeelde data vereisen. Indien de logaritmische transformatie geen verbetering van de verdeling oplevert, dan heeft het geen zin deze te gebruiken. Indien je uitkomt qua geplande testen met non-parametrische varianten (die geen normale verdeling vereisen), dan zou ik gewoon de niet getransformeerde data gebruiken. Als normaliteit vereist is voor je doelen (bijvoorbeeld multivariabele analyse) dan zou je een andere transformatie dan de logtransformatie kunnen gebruiken.
 
==Hoe maak ik in SPSS een rangvolgorde van mijn scheef verdeelde data?==
 
Om een nieuwe variabele te maken die de rangnummers van de waarden van een scheef verdeelde variabele bevat, kun je gebruik maken van de 'Rank Cases' procedure in het 'Transform' menu.
 
=Referenties=
<biblio>
#cessie2020 le Cessie S, Goeman JJ, Dekkers OM. Who is afraid of non-normal data? Choosing between parametric and non-parametric tests. European Journal of
Endocrinology (2020) 182, E1–E3. [https://eje.bioscientifica.com/view/journals/eje/182/2/EJE-19-0922.xml]
#statnotes Statistics Notes: The use of transformation when comparing two means. MJ Bland, DG Altman. BMJ 1996;312:1153. [http://www.bmj.com/content/312/7039/1153]
</biblio>


<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;">
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;">
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.
Klaar met lezen? Je kunt naar het [[OVERZICHT]] van alle statistische onderwerpen op deze wiki gaan. Of ga terug naar de [[Main_Page|startpagina]]. Wil je meer leren over biostatistiek? Volg dan de [https://elearningbiostatistics.com AMC e-learning Practical Biostatistics]. Vind je op deze pagina's iets dat niet klopt, werkt een link niet of wil je bijdragen aan de wiki? Neem dan [[meeschrijven | contact]] met ons op.
<div>
 
De [[Wikistatistiek:About|wiki biostatistiek]] is een initiatief van de voormalige helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC kunnen via [https://intranet.amc.nl/web/organisatie/clusters/afdelingsoverzicht/eds-consult.htm intranet] statistische ondersteuning aanvragen.
 
</div>

Latest revision as of 12:16, 19 November 2024

Schema welke toets bij welke vergelijking

type vergelijking
1 groep 2 groepen >2 groepen
vs. referentie gepaard ongepaard gepaard ongepaard
type data numeriek (continu) normaal

verdeeld

1 sample t-toets gepaarde t-toets

ongepaarde t-toets

linear mixed models One-way ANOVA
niet normaal

verdeeld

tekentoets Wilcoxon signed rank toets Mann-Whitney U toets Friedman toets Kruskal Wallis
categorisch (discreet) binair tests voor enkele proportie McNemar toets Chi-kwadraat toets/

Fisher's exact toets

Cochran's Q toets Chi-kwadraat toets/ Fisher-Freeman-Halton exact toets
nominaal /

ordinaal

x McNemar toets /

Wilcoxon signed rank toets

Chi-kwadraat toets (trend) GLMM / GEE Chi-kwadraat toets (trend)

Schema welke analyse bij welke associatie

type associatie
crosssectioneel longitudinaal
een onafhankelijke variabele meer onafhankelijke variabelen een onafhankelijke variabele meer onafhankelijke variabelen
type data numeriek (continu) normaal

verdeeld

Pearson's rho/enkelvoudige lineaire regressie meervoudige lineaire regressie herhaalde metingen
niet normaal

verdeeld

Spearman's rho x
gecensureerd numeriek Kaplan Meier analyse Cox regressie
categorisch (discreet) binair OR/ RR/ RRR / ARR / NNT logistische regressie GLMM / GEE
nominaal

/ordinaal

x multinomiale

/ ordinale logistische regressie

Van welk type is mijn data?

Continue variabelen

Het belangrijkste onderscheid naar type data is dat tussen continue en discrete variabelen. Een continue variabele kan in een bepaald interval iedere waarde aannemen. Lengte, gewicht en temperatuur zijn continue variabelen (bijvoorbeeld 37.3 graden Celsius).

Discrete variabelen

Voor discrete variabelen wordt onderscheid gemaakt tussen kwalitatieve en kwantitatieve variabelen. De waarden die kwalitatieve variabelen kunnen aannemen zijn geen getallen, maar kenmerken. We spreken ook wel van categorische variabelen. Kwalitatieve variabelen zijn per definitie discrete variabelen. Een voorbeeld van een kwalitatieve variabele is de bepaling van de bloedgroepen A, B, AB en 0.

Kwantitatieve discrete variabelen zijn gehele getallen. Een telling van het aantal polibezoeken van een patiënt is bijvoorbeeld een kwantitatieve discrete variabele. Als kwantitatieve discrete variabelen veel verschillende mogelijke waardes hebben (bijvoorbeeld het aantal CD4+ T cellen), worden ze vaak geanalyseerd als continue variabelen (er wordt dan wel eens gesproken over semi-continue data). Zijn er daarentegen maar een beperkt aantal uitkomstwaarden, dan zijn andere analysetechnieken vereist.

Voor de statistische analyse van kwalitatieve data en van kwantitatieve discrete variabelen met een beperkt aantal uitkomstmaten, wordt onderscheid gemaakt tussen binaire, nominale en ordinale discrete variabelen.

Binaire variabelen

Een binaire (of dichotome) uitkomstmaat heeft slechts 2 mogelijke uitkomsten of waarden. Voorbeelden zijn geslacht (man of vrouw), overleving (dood of levend) of hersteld (wel of niet).

Nominale variabelen

Op nominaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën niet in een vaste of zinvolle volgorde zijn te plaatsen. Voorbeeld. 'Bloedgroep' met als waarden A, B, AB en O of 'Behandeld vat' met als waarden LAD, LM, RCA en RCx.

Ordinale variabelen

Op ordinaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën wel in een vaste en zinvolle volgorde zijn te plaatsen. Bijvoorbeeld een stelling in een vragenlijst, zoals 'ik heb de laatste tijd vaak sombere gedachtes', met als antwoordcategorieën: 'geheel mee eens', 'mee eens', 'geen mening', 'niet mee eens' en 'geheel niet mee eens'. (Discrete) numerieke variabelen zijn per definitie ordinaal (door het numerieke karakter is er een ordening in de getallen).

Heb ik gepaarde of ongepaarde data?

Data zijn gepaard als er twee (of meer) maal bij dezelfde personen een meting gedaan is. Als er sprake is van aparte, onafhankelijke groepen, dan zijn data ongepaard.

  • Voorbeeld 1 Wij hebben bij varkens een ziekte opgewekt. Daarna hebben bij de ene groep VROEG een interventie gedaan, en bij een andere groep LAAT een interventie gedaan. Welke statistische test moet ik gebruiken als ik: 1. Binnen een groep het verschil van VOOR en NA de interventie wil testen? 2. Het verschil tussen de 2 groepen (na de interventie) wil testen? -> In het eerste geval zal er een gepaarde toets gedaan moeten worden, in het tweede geval een ongepaarde toets.
  • Voorbeeld 2 Er is een nieuw apparaat op de markt dat bloeddruk kan meten. Wij willen dit apparaat vergelijken met de huidige gouden standaard van bloeddrukbepalingen met behulp van een bloeddrukband. We hebben bij 30 patiënten de bloeddruk bepaald, gelijkertijd met het nieuwe apparaat als met de gangbare bloeddrukband. Ik wil de gemiddelden van deze twee metingen, van dezelfde 30 patiënten met elkaar vergelijken. Kan dit met een ongepaarde toets? Zijn dit wel onafhankelijke metingen? -> Indien de metingen van het apparaat en de gouden standaard band betrekking hebben op dezelfde patienten (en op hetzelfde moment), dan zijn het geen onafhankelijke metingen. Je hebt dan gepaarde metingen en als je het verschil in gemiddelde waarden wilt vergelijken zul je een gepaarde toets moeten doen.

Ik heb deels gepaarde en deels ongepaarde proporties, hoe kan ik deze vergelijken?

Ik vergelijk de uitkomsten van kwaliteitsindicatoren in twee verschillende databronnen. Mijn patiënten hebben een "partial overlap": sommige kon ik matchen in beide databronnen, en sommige staan slechts in een van de twee bronnen. Dus zijn zij niet "paired" en ook niet "unpaired". Hoe kan ik de kwaliteitsindicatoren (binaire variabelen) met elkaar vergelijken?

De patiënten die in beide bronnen voorkomen kun je vergelijken mbv een gepaarde McNemar toets. De patiënten die slechts in een van de twee bronnen voorkomen kun je vergelijken met een ongepaarde Chi-kwadraat toets. Er zijn ook methoden om beide patiëntgroepen tegelijk te vergelijken. Zie daarvoor de volgende referenties:

Hoe beoordeel ik de normaliteit van mijn data?

Je kunt beoordelen of de studie sample afkomstig kan zijn uit een normaal verdeelde populatie door naar het histogram en naar de normaliteitsplot kijken. Ook kan er een formele toets gedaan worden. Bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef eventueel de groepsvariabele op onder "Factor List"). Let er echter op dat bij grote aantallen deze tests reeds een kleine (voor de beoogde analyse mogelijk irrelevante) afwijking van normaliteit significant kan worden terwijl er bij kleine aantallen grove afwijkingen van normaliteit niet statistisch significant uit de bus komen. Baseer je beoordeling dus nooit op enkel deze testen, maak ook een grafische inschatting en weeg de aantallen mee.

Bij datasets>25 kan er met een beperkte scheve verdeling alsnog gebruikt gemaakt worden van parametrische tests zoals de t-toets, zie een heldere uitleg in dit artikel [1].

Wanneer concludeert de Shapiro Wilk test dat data niet normaal verdeeld is?

Ik dacht dat een Shapiro-Wilk test met p<0.05 betekende dat de data niet normaal verdeeld zijn. Nu heb ik van een collega een syntax ingekeken waar een grens van 0.9 wordt aangehouden. Wat is nou waar?

Formeel gezien, moet je bij een p<0.05 de nul hypothese verwerpen. In jouw geval, zou je dus op basis van de p-waarde moeten besluiten om de data als niet normaal te zien. Echter, wanneer je voldoende data hebt, kun je zelfs een irrelevant, maar statistisch significante afwijking van de normale verdeling vinden. De test statistic W van de Shapiro-Wilk test loopt van 0 tot 1, waarbij 1 betekent dat de data perfect normaal verdeeld zijn. Vaak wordt meer naar deze waarde gekeken, dan naar de p-waarde, waarbij voor de W een ondergrens van 0.90 gehanteerd wordt. Als de test-stastistic W groter is dan 0.90 kan de data als normaal verdeeld beschouwd worden. (Er zijn veel voorbeelden waarbij de W > 0.99 is, terwijl de p < 0.05 is.) Soms wordt daarom aangeraden grote samples niet de Shaprio-Wilk maar de Kolmogorov-Smirnoff toets te gebruiken.

De Kolmogorov-Smirnoff toets uit de Explore functie geeft niet hetzelfde antwoord als die uit de 'Nonparametric Tests' menu.

De Kolmogorov-Smirnoff lijkt op twee manieren te kunnen via SPSS, namelijk via Explore -> Normality plots with tests of via Nonparametric tests ->1 sample K-S. Bij deze twee methoden komen er ‘omgekeerde’ resultaten uit, zo lijkt het bij mijn data.

Scherpe observatie dat de twee K-S testen niet tot dezelfde conclusie komen. Ik citeer uit de help van SPSS behorend bij de non-parametric command:

"The power of the test to detect departures from the hypothesized distribution may be seriously diminished. For testing against a normal distribution with estimated parameters, consider the adjusted K-S Lilliefors test (available in the Explore procedure)."

Blijkbaar is de 'gewone' K-S test (onder de non-parametric opties) niet goed in staat om bij kleine samples een afwijking van normaliteit te vinden. Er is een correctie op de test die geimplementeerd is onder de Explore functie. (zie bijv http://en.wikipedia.org/wiki/Lilliefors_test voor details).

Gebruik dus niet de K-S test uit de nonparametric tests opties. Beter nog: gebruik bij relatief kleine samples de Shapiro-Wilk test, deze zal als eerste een afwijking van normaliteit bemerken.

Hoe beoordeel ik normaliteit bij een klein aantal observaties?

Voor een artikel wat ik aan het schrijven ben moet ik enkele statistische analyses doen waarbij het voor mij onduidelijk is hoe ik moet beoordelen of de te gebruiken data wel of niet normaal verdeeld zijn. Het betreft kleine aantallen proefpersonen (<10 patienten met voor en nameting gezien zeldzame ziektebeeld). Hierbij gaat het om algemene zaken als lichaamsgewicht en cholesterolinname en om specifiekere zaken als uitslagen van PET/CT- en MRI-scans. Een plot of histogram zegt hierbij denk ik niet zo veel (lijkt niet normaal, maar gewicht in de populatie is dat bijvoorbeeld wel). Kunt u mij vertellen hoe ik bij dit soort getallen kan beoordelen of iets wel of niet normaal verdeeld is? Is hier een stelregel voor bij kleine getallen?

Bij twijfel over het mogen aannemen van een normale verdeling in het algemeen kan inderdaad kennis over de verdeling in de totale populatie doorslag geven. In geval van kleine aantallen echter speelt er een ander probleem. Er zal bij kleine aantallen geen betrouwbare schatting gemaakt kunnen worden van het gemiddelde en de standaarddeviatie. Dus ook al is er een onderliggende normale verdeling, zal met de beschikbare data niet goed de parameters van die verdeling geschat kunnen worden. Om die reden is het bij twijfel over normaliteit en (echt) kleine aantallen aan te raden om geen normaliteit aan te nemen en uit te wijken naar non-parametrische toetsen. Met echt klein kun je denken aan <25, zie ook dit artikel [1].

Hoe kan ik in SPSS mijn data transformeren?

Ik wil mijn uitkomstmaat graag transformeren om te zien of hij dan wel normaal verdeeld is. Hoe doe ik dat in SPSS?

Dat kan onder Transform -> Compute Variable. Hier kun je een nieuwe variabele aanmaken die een tranformatie is van een oude variabele. Onder 'Target Variable' type je de naam van de nieuw te maken variabele in en onder 'Numeric Expression' type je hoe de variabele gemaakt kan worden. Bijvoorbeeld Lg10(VAROUD), om de 10 log van de variabele VAROUD te nemen.

Ik heb een probleem met log transformatie vanwege nullen in de data

Er is nog iets waar ik over struikel in de log transformaties van mijn niet-normaal verdeelde continue uitkomstmaten (een aantal schalen voor psychische klachten). Bij het 'computen' van de log variabelen zegt SPSS iets van: "The argument for the Logbase 10 function is less or equal to 10 on the indicate command. The result has been set to the system missing value." Ik begrijp dus dat alle 0 waarden uit de oorspronkelijk variabele niet getransformeerd kunnen worden en daarom geen waarde krijgen in de getransformeerde variabele. Is hier iets aan te doen?

De log van 0 is inderdaad niet uit te rekenen (minus oneindig). Wat meestal gehanteerd wordt is dat er voor de transformatie bij alle (dus ook degene die niet nul zijn) waarden een vast getal wordt opgeteld (bijvoorbeeld 1). Op die manier ontwijk je de rekenproblemen met log 0 en hou je de afstand tussen de waardes in ere. De transformatie die je dan gebruikt is eigenlijk log(x+1).

Wat is beter: een Mann Whitney U op niet normaal verdeelde data of een ongepaarde t-test op de log schaal van deze data welke wel normaal verdeeld zijn?

Of maakt het niet uit welke je kiest? Het verschil is klein (4 cijfers achter de komma), maar de T test komt iets significanter uit.

Het is altijd fijn als de analysemethode het resultaat niet beïnvloedt en dat er dus hetzelfde uitkomt. Een verschil in p-waarde 4 cijfers achter de komma is totaal irrelevant (daarop letten veinst een nauwkeurigheid die je in het algemeen niet hebt). De voor/na delen in het algemeen zijn:

-Mann-Whitney U toets: resultaat niet afhankelijk van aannames, non-parametrisch wordt in het algemeen als zeer objectief/betrouwbaar gezien

-t-toets: bij normaal verdeelde data (of na transformatie normaal verdeelde data) is er in theorie meer power om iets als significant aan te kunnen duiden

Verder zou ik letten op consistentie in het manuscript. Als je bij andere analyses wel normaliteit van de log getransformeerde data gebruikt (bijv omdat je ook multivariabele analyses doet), is het raadzaam die lijn aan te houden.

Geen normaliteit na log-transformatie, wat nu?

Mijn data zijn niet niet-normaal verdeeld. Na een logaritmische transformatie blijkt nu dat de data nog steeds niet normaal verdeeld zijn. Is het zo dat men een logaritmische transformatie uitvoert om testen te kunnen uitvoeren voor normaal verdeelde data? Zo ja, heeft het dan wel zin om in mijn geval een logaritmische transformatie uit te voeren en met die getallen te werken, terwijl ik nog steeds testen met moet gebruiken voor niet-normaal verdeelde data?

Inderdaad, de transformatie wordt in het algemeen toegepast om testen/analyses te kunnen gebruiken die normaal verdeelde data vereisen. Indien de logaritmische transformatie geen verbetering van de verdeling oplevert, dan heeft het geen zin deze te gebruiken. Indien je uitkomt qua geplande testen met non-parametrische varianten (die geen normale verdeling vereisen), dan zou ik gewoon de niet getransformeerde data gebruiken. Als normaliteit vereist is voor je doelen (bijvoorbeeld multivariabele analyse) dan zou je een andere transformatie dan de logtransformatie kunnen gebruiken.

Hoe maak ik in SPSS een rangvolgorde van mijn scheef verdeelde data?

Om een nieuwe variabele te maken die de rangnummers van de waarden van een scheef verdeelde variabele bevat, kun je gebruik maken van de 'Rank Cases' procedure in het 'Transform' menu.

Referenties

  1. le Cessie S, Goeman JJ, Dekkers OM. Who is afraid of non-normal data? Choosing between parametric and non-parametric tests. European Journal of

    Endocrinology (2020) 182, E1–E3. [1]

    [cessie2020]
  2. Statistics Notes: The use of transformation when comparing two means. MJ Bland, DG Altman. BMJ 1996;312:1153. [1]

    [statnotes]

Klaar met lezen? Je kunt naar het OVERZICHT van alle statistische onderwerpen op deze wiki gaan. Of ga terug naar de startpagina. Wil je meer leren over biostatistiek? Volg dan de AMC e-learning Practical Biostatistics. Vind je op deze pagina's iets dat niet klopt, werkt een link niet of wil je bijdragen aan de wiki? Neem dan contact met ons op.

De wiki biostatistiek is een initiatief van de voormalige helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC kunnen via intranet statistische ondersteuning aanvragen.