Modellen voor geclusterde data

Als observaties 'niet' onafhankelijk zijn van elkaar, wanneer er een clustering van de data is, voldoen simpele regressietechnieken (generalized linear models) niet. Zie ook de pagina Herhaalde metingen. Er bestaan gelukkig verschillende alternatieve modellen.

Hoe specificeer ik een model dat rekening houdt met de multilevel/geclusterde aard van de data?

Bij het bepalen van een geschikt model is het zinvol om een onderscheid te maken tussen

onderzoeken waarbij alle patiënten op (min of meer) dezelfde tijdstippen (of onder dezelfde condities) herhaald worden gemeten, en
onderzoeken waarin het aantal herhaalde metingen per patiënt en/of de tijdstippen en condities verschillen tussen patiënten.

Situatie 1: herhaalde metingen op dezelfde momenten

Als alle patienten op dezelfde tijdstippen (onder dezelfde condities) zijn gemeten, kan het mixed-model gezien worden als een uitbreiding van een standaard lineair model. In formulevorm ziet de uitbreiding van het standaard model er als volgt uit:

$Y_{i, t} = a + b \times X_{i, t} + ϵ_{i, t}$

waarbij $Y_{i, t}$ de meting van de $i^{d e}$ patiënt is op het $t^{d e}$ tijdstip (conditie); $X_{i, t}$ is de meting van de covariaat op dat moment en $ϵ_{i, t}$ is de afstand (of: residu) van de datapunten tot de regressielijn. Bij een standaard lineaire regressie zijn al deze residuen onafhankelijk van elkaar, maar bij herhaalde metingen is dat niet per se het geval. Namelijk, als het eerste datapunt van een patient (ver) boven (of onder) de lijn ligt, is het goed voorstelbaar dat volgende datapunten van dezelfde persoon ook boven (of onder) de regressielijn zullen liggen. Anders geformuleerd: datapunten van dezelfde persoon lijken meer op elkaar dan op datapunten van andere personen. Bij een mixed model wordt rekening gehouden met de correlaties tussen de residuen van metingen bij dezelfde patient. Dit kan op verschillende manieren en moet door de gebruiker worden gespecificeerd. Veel voorkomende correlatiestructuren zijn:

compound symmetry, waarbij aangenomen wordt dat de correlaties tussen alle residuen van dezelfde persoon gelijk zijn. De eerste en de tweede meting van een persoon hangen dus even sterk met elkaar samen als de eerste en de laatste meting van die persoon;
unstructured, waarbij geen enkele aanname wordt gemaakt over de correlaties. Iedere correlatie tussen twee tijdspunten wordt los van de anderen bepaald;

Er zijn nog diverse andere opties en de beste keuze hangt af van het type onderzoek en het aantal herhaalde metingen. Er zijn statistische maten die je helpen bij het maken van de keuze. Vaak wordt hiervoor de Akaike Information Criterium (AIC) gebruikt. Dit is een maat voor hoe goed het gekozen model past bij de data. Hoe lager de AIC, hoe beter het model past.

Deze eerste soort uitbreiding van het standaard lineaire model wordt ook wel 'Generalized Least Squares Model' genoemd.

Situatie 2: herhaalde metingen op verschillende momenten

Als het aantal herhaalde metingen per patient en/of de tijdstippen (condities) waarop er gemeten wordt verschillen tussen patienten, ligt het voor de hand om het lineaire model op een andere wijze uit te breiden. In situatie 1 werd de correlatie tussen meetpunten op verschillende tijdstippen direct gemodelleerd. Als er niet op vaste tijdstippen gemeten wordt, is dit niet logisch. De afhankelijkheid van metingen bij eenzelfde patient kan ook gemodelleerd worden met zogenaamde random effects. Met random effects wordt een inschatting gemaakt van de afwijking die metingen van eenzelfde patient hebben ten opzichte van de regressielijn. Hierbij maakt het niet uit hoe vaak en op welke tijdstippen een patient gemeten is; al zijn metingen worden verondersteld een vaste afwijking van de 'gemiddelde' regressielijn te hebben. In formulevorm ziet dit er als volgt uit:

$Y_{i, t} = (a + α_{i}) + (b + β_{i}) \times X_{i, t} + ϵ_{i, t}$

waarbij de nu toegevoegde $α_{i}$ en $β_{i}$ de specifieke afwijkingen van patient $i$ t.o.v. de regressielijn voorstellen. De $α_{i}$ is de afwijking van de intercept van patient $i$ ten opzichte van de gemiddelde intercept $a$ . De $β_{i}$ is de afwijking van de helling (slope) van patient $i$ ten opzichte van de gemiddelde helling $b$ van de regressielijn. De $α^{'} s$ en $β^{'} s$ worden niet direct geschat, in plaats daarvan wordt verondersteld dat zij normaal verdeeld zijn met gemiddelde 0. De standaard deviaties van deze verdelingen worden geschat. De specificaties van de random effects kunnen nog uitgebreid worden en de fit van het model wordt gekwantificeerd met bijvoorbeeld de AIC. Ook hier geldt: het model met de laagste AIC past het beste bij de data.

Deze tweede soort modellen wordt vaak aangeduid als 'Random Effect Models' of 'Mixed (Effects) Models'.

Wat is een GEE-model?

Een GEE, ook wel marginaal model genoemd, is nog een andere uitbreiding van generalized linear models waarmee (net als met mixed models en generalized least-squares) geclusterde data geanalyseerd kan worden (Liang en Zeger, 1986). Het GEE-model negeert daarbij de correlaties tussen de herhaalde metingen of tussen de metingen in dezelfde familie of cluster, maar corrigeert de standaardfouten van de regressiecoëfficiënten door robuuste standaardfouten te berekenen. Er wordt geen aanname gedaan over de verdeling van de metingen tussen families (de verdeling van het ‘random effect’ in een mixed model), wat een voordeel kan zijn van GEE t.o.v. een mixed model.

Waar vind ik mixed models in SPSS?

Je vindt de linear mixed models onder Analyze -> Mixed models -> Linear. Procedures voor andere typen uitkomsten zoals dichotome variabelen vind je onder Analyze -> Mixed Models -> Generalized.

Let op: om een mixed model in SPSS te kunnen draaien moeten de data onder elkaar gestructureerd staan, waarbij iedere meting op een rij staat en er meerdere rijen zijn die bij dezelfde patiënt horen (long format). In deze SPSS-handleiding staat stap voor stap beschreven hoe data te herstructureren is tot het gewenste format voor mixed models. Als er drie herhaalde metingen van drie patiënten zijn, ziet het resultaat er bijvoorbeeld zo uit:

patientnummer	metingnr	meting
1	1	10
1	2	9
1	3	11
2	1	8
2	2	11
2	3	12
3	1	5
3	2	8
3	3	9

De in 'situatie 2' besproken modellering wordt gespecificeerd onder de 'Random...'-knop (let op: random intercept staat by default uit! Bij 'covariance type' kan correlatie tussen de random effecten gespecificeerd worden).

Waar vind ik Generalized Least Squares modellen in SPSS?

Ook de hierboven beschreven 'situatie 1' (Generalized Least Squares Model) vind je in SPSS onder Analyze -> Mixed Models. Echter, je kiest dan voor 'Repeated' (en het bijbehorende repeated covariance type) in het eerste panel van de procedure.

Het is in SPSS dus mogelijk om gebruik te maken van beide opties tegelijk ('Repeated' én 'Random'), maar dat zal soms leiden tot overbodige parameters. Vaak is het gebruik van één van beide opties (danwel 'Repeated' danwel 'Random') voldoende om de correlatie in de data op te vangen.

Wat voor mogelijkheden voor het gebruiken van mixed models zijn er in andere pakketten?

In andere pakketten zoals R (package 'nlme' en package 'lme4'), Stata (GLAMM) en SAS zijn er mixed modellen beschikbaar voor verschillende typen uitkomstmaten.

Hoe analyseer ik met een mixed model een effect in de tijd?

Ik onderzoek een groep patiënten die een operatie hebben ondergaan. We zijn geïnteresseerd in de pijnscore (VAS) op verschillende tijdsmomenten na de operatie. De verwachting is (uiteraard) dat de pijn direct na de operatie heviger is dan bijv. 3 maanden daarna (dit klopt ook als je de data in een staafdiagram zet). In eerste instantie heb ik de repeated measures ANOVA gebruikt om te analyseren of de pijn significant verandert in de tijd. Maar, omdat ik een aantal missing data heb, heb ik ook geprobeerd een mixed models analyse (hier mijn syntax) te doen. Mijn vragen hierover:

1. Heb ik de juiste covariantiestructuur gebruikt? (nl. AR1)

2. Ik heb 'tijd' als fixed effect genomen omdat de afname van de VAS op specifieke tijdsmomenten gebeurde, klopt dat?

3. Hoe geef je de resultaten van deze mixed analyse weer?

1. Of AR(1) de beste is is niet zo te zeggen, dat hangt af van de correlatie tussen de tijdsmomenten in jouw data. Je kunt bijvoorbeeld alle mogelijke structuren draaien en dan degene met de kleinste AIC te kiezen (smaller is better zoals er ook onder staat).

2. Tijd is hier inderdaad een fixed variable, want je wilt hier de hypothese toetsen of er een verandering in de tijd is.

3. In de output vind je onder "fixed effects" een B die aangeeft wat het effect is per tijdspunt (tov het startpunt) en een bijbehorende p-waarde. Dit is de toets die je waarschijnlijk wilt rapporteren. Onder het kopje "mean estimates" vind je de schatting van het model voor de gemiddelde VAS waarde op ieder tijdpunt. Deze mean estimates zijn voor een lezer makkelijker te interpreteren dan de B's.

Hoe wordt gebruikelijk een linear mixed model gerapporteerd in een artikel?

Het valt me op dat hier maar weinig over te vinden is op Pubmed, en als er al wat is, is het heel wisselend. Ik heb bijvoorbeeld een artikel gevonden waarin ze alleen maar de Beta coefficient met bijbehorende p-waarde geven. Maar ik wil toch graag ook wel de mean (±SD) weergeven. Is het gebruikelijk dat per cluster te doen? Of bijvoorbeeld toch een mean (±SD) per groep?

Je zou de ruwe data (mean +sd) kunnen presenteren voor iedere groep. Hier is de (cluster)correctie van het mixed model echter nog niet in meegenomen. Alternatief kun je de estimated marginal means (+ conf interval) uit het model per groep rapporteren, deze zijn 'gecorrigeerd' voor de clusters/correlaties. Deze kun je ook opvragen in SPSS.

Wat is het minimaal aantal observaties bij het gebruik van een mixed model?

Hoeveel datapunten (clusters en/of patiënten) heb ik nodig als ik een mixed model wil gebruiken?

Deze paper geeft wat houvast bij binaire uitkomsten. En deze paper bij continue uitkomsten. En deze paper bij ordinale uitkomsten.

Wat is het verschil tussen een mixed model en een GEE-model?

Ik heb een mixed model gebruikt omdat ik wil corrigeren voor de familieverbanden tussen mijn patiënten. In een paper met een soortgelijke analyse zie ik echter dat er een GEE-model is gebruikt. Welke moet ik hebben en wat is het verschil?

Beide modellen, een mixed model en een GEE-model, kunnen corrigeren voor familieverbanden (of andere herhaalde metingenstructuren). Een GEE (generalized estimation equations), ook wel marginaal model genoemd, negeert de correlaties tussen de herhaalde metingen in dezelfde familie, maar corrigeert de standaardfouten van de regressiecoëfficiënten door robuuste standaardfouten te berekenen. Een mixed model, ook wel conditioneel model of random-effects model genoemd, modelleert de correlaties tussen de herhaalde metingen in dezelfde familie door een random effect voor (de variatie tussen) families in het model te includeren. De herhaalde metingen in een familie hebben die random-effects parameter gezamenlijk en dat maakt dat die metingen correleren.

Als je iets over de grootte van de random effecten wilt kunnen zeggen (hoeveel variatie wordt door familieverschillen verklaard) wil je dus een mixed model gebruiken. Echter, dan moet je kunnen aannemen dat de families een ‘random sample’ uit een normaalverdeling zijn. Als je niet perse geïnteresseerd bent in het random effect zelf of als je niet kunt aannemen dat het random effect voor ‘familie’ een normale verdeling heeft, dan is het GEE-model waarschijnlijk een geschiktere keuze. De volgende pagina van The analysis factor geeft een helder overzicht van de overeenkomsten en verschillen tussen verschillende modellen die je kunt gebruiken voor herhaalde metingen.

Waar vind ik Generalized Estimating Equations in SPSS?

Je vindt GEE in SPSS onder Analyze -> Generalized Linear Models -> Generalized Estimating Equations.

Mixed effects modellen

Contents

Modellen voor geclusterde data

Hoe specificeer ik een model dat rekening houdt met de multilevel/geclusterde aard van de data?

Situatie 1: herhaalde metingen op dezelfde momenten

Situatie 2: herhaalde metingen op verschillende momenten

Wat is een GEE-model?

Waar vind ik mixed models in SPSS?

Waar vind ik Generalized Least Squares modellen in SPSS?

Wat voor mogelijkheden voor het gebruiken van mixed models zijn er in andere pakketten?

Hoe analyseer ik met een mixed model een effect in de tijd?

Hoe wordt gebruikelijk een linear mixed model gerapporteerd in een artikel?

Wat is het minimaal aantal observaties bij het gebruik van een mixed model?

Wat is het verschil tussen een mixed model en een GEE-model?

Waar vind ik Generalized Estimating Equations in SPSS?

Navigation menu

Mixed effects modellen

Modellen voor geclusterde data

Hoe specificeer ik een model dat rekening houdt met de multilevel/geclusterde aard van de data?

Situatie 1: herhaalde metingen op dezelfde momenten

Situatie 2: herhaalde metingen op verschillende momenten

Wat is een GEE-model?

Waar vind ik mixed models in SPSS?

Waar vind ik Generalized Least Squares modellen in SPSS?

Wat voor mogelijkheden voor het gebruiken van mixed models zijn er in andere pakketten?

Hoe analyseer ik met een mixed model een effect in de tijd?

Hoe wordt gebruikelijk een linear mixed model gerapporteerd in een artikel?

Wat is het minimaal aantal observaties bij het gebruik van een mixed model?

Wat is het verschil tussen een mixed model en een GEE-model?

Waar vind ik Generalized Estimating Equations in SPSS?

Navigation menu

Search