Missing values
Auteur | ir. N van Geloven | |
Co-Auteur | ||
auteurschap op deze site |
Welke soorten missing values zijn er?
In het algemeen worden er drie typen missing values onderscheiden:
- MCAR-missing completely at random: Hierbij wordt aangenomen dat de missings totaal willekeurig zijn en er dus geen reden is om aan te nemen dat hoge dan wel lagere waardes vaker ontbreken dan andere waardes. Met andere woorden: het missing proces is onafhankelijk van de uitkomst en van alle andere geobserveerde dan wel niet geobserveerde patiëntkarakteristieken. Er is bijvoorbeeld sprake van MCAR wanneer er follow-up data mist vanwege het onbeschikbaar zijn van het meetapparaat op de dag dat de betreffende patient zijn follow-up visite had.
- MAR-missing at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn, maar af kunnen hangen van bijvoorbeeld het niveau van de vorige waarnemingen of van andere bekende (patient-)karakteristieken. Met andere woorden: het missing proces is afhankelijk van geobserveerde eerdere metingen of bekende patiëntkarakteristieken. Bijvoorbeeld wanneer patienten met slechte uitkomst in de eerste follow up visites eerder geneigd zijn met de studie op te houden dan patienten met goede uitkomst in eerdere visites.
- Informative dropout / missing not at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn en beïnvloed worden door processen die niet geobserveerd zijn. Met andere woorden: het missing proces is afhankelijk van (nog) niet geobserveerde metingen of onbekende patiëntkarakteristieken. Bijvoorbeeld in een diagnostische setting waarbij patienten die na het uitvoeren van de index test spontaan opknappen niet meer op komen dagen voor het uitvoeren van de gouden standaard test en waarbij de uiteindelijke ziektestatus dus onbekend blijft.
Kan een GLM missende waarden aan?
Ik wil een general linear model (GLM) gebruiken op een database. Ik heb begrepen dat als je missing values hebt, je deze analyse niet kan uitvoeren en je daarom de data moet imputeren. Klopt dit?
Een GLM kan je wel uitvoeren wanneer je missende waarden hebt, maar hij neemt daarbij alleen de patienten mee die geen missende waarden hebben. Het is dus belangrijk om te weten in hoeveel % van je patienten de data compleet zijn. Als dit een aanzienlijk deel is kun je gewoon een GLM toepassen. Zo niet, dan kun je de data wellicht imputeren of uitwijken naar een ander model die beter om kan gaan met missende waardes (bijvoorbeeld een mixed model in geval van herhaalde metingen).
Van hoeveel % van mijn patienten moet de data compleet zijn om imputeren te rechtvaardigen?
Helaas is er niet direct een percentage te noemen dat imputeren nog valide maakt. Zie de referenties onder aan deze pagina voor informatie over de (on)mogelijkheden van imputeren
Welk programma kan ik het beste gebruiken om mijn missende data te imputeren?
In SPSS is er mogelijkheid voor het gebruiken van simple imputation methodes (ga naar Analyze -> Missing Value Analysis). De aanvulling 'SPSS Missing Values add-on' biedt ook multiple imputation aan (in het standaard pakket opgenomen in SPSS 17). Het verschil tussen simple en multiple imputation is kortweg: bij simple imputeer je de data 1 maal op 1 manier en gebruik je de verkregen dataset in je analyse. Bij multiple imputation imputeer je meerdere malen en kijk je hoe gevoelig de uitkomsten van je analyse zijn voor de verschillende gebruikte imputatietechnieken.
Verder hebben pakketten als Stata, S-Plus, SAS en R (bijvoorbeeld aregImpute package Hmisc) allen routines voor multiple imputatie.
Referenties
- http://multiple-imputation.com Uitleg over wat multiple imputation inhoudt.
Terug naar OVERZICHT voor een overzicht van alle statistische onderwerpen op deze wiki.
Terug naar KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse.