Missing values: Difference between revisions

From Wikistatistiek
Jump to navigation Jump to search
No edit summary
 
(34 intermediate revisions by 2 users not shown)
Line 1: Line 1:
{{auteurs|
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]
|coauthor= 
}}
==Welke soorten missing values zijn er? ==
In het algemeen worden er drie typen missing values onderscheiden:
*MCAR-missing completely at random: Hierbij wordt aangenomen dat de missings totaal willekeurig zijn en er dus geen reden is om aan te nemen dat hoge dan wel lagere waardes vaker ontbreken dan andere waardes. Met andere woorden: het missing proces is onafhankelijk van de uitkomst en van alle andere geobserveerde dan wel niet geobserveerde patiëntkarakteristieken. Er is bijvoorbeeld sprake van MCAR wanneer er follow-up data mist vanwege het onbeschikbaar zijn van het meetapparaat op de dag dat de betreffende patiënt zijn follow-up visite had.
*MAR-missing at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn, maar af kunnen hangen van bijvoorbeeld het niveau van de vorige waarnemingen of van andere bekende (patiënt-)karakteristieken. Met andere woorden: het missing proces is afhankelijk van geobserveerde eerdere metingen of bekende patiëntkarakteristieken. Bijvoorbeeld wanneer patiënten met slechte uitkomst in de eerste follow up visites eerder geneigd zijn met de studie op te houden dan patiënten met goede uitkomst in eerdere visites.
*Informative dropout / missing not at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn en beïnvloed worden door processen die niet geobserveerd zijn. Met andere woorden: het missing proces is afhankelijk van (nog) niet geobserveerde metingen of onbekende patiëntkarakteristieken. Bijvoorbeeld in een diagnostische setting waarbij patiënten die na het uitvoeren van de index test spontaan opknappen niet meer op komen dagen voor het uitvoeren van de gouden standaard test en waarbij de uiteindelijke ziektestatus dus onbekend blijft.
==Kan een GLM missende waarden aan? ==
==Kan een GLM missende waarden aan? ==


''Ik wil een general linear model (GLM) gebruiken op een database. Ik heb begrepen dat als je missing values hebt, je deze analyse niet kan uitvoeren en je daarom de data moet imputeren. Klopt dit?  
''Ik wil een general linear model (GLM) gebruiken op een database. Ik heb begrepen dat als je missing values hebt, je deze analyse niet kan uitvoeren en je daarom de data moet imputeren. Klopt dit?  


Een GLM kan je wel uitvoeren wanneer je missende waarden hebt, maar hij neemt daarbij alleen de patienten mee die geen missende waarden hebben. Het is dus belangrijk om te weten in hoeveel % van je patienten de data compleet zijn. Als dit een aanzienlijk deel is kun je gewoon een GLM toepassen. Zo niet, dan kun je de data wellicht imputeren of uitwijken naar een ander model die beter om kan gaan met missende waardes (bijvoorbeeld een [[herhaalde metingen#linear mixed model| mixed model]]).  
Een GLM kan je wel uitvoeren wanneer je missende waarden hebt, maar hij neemt daarbij alleen de patiënten mee die geen missende waarden hebben. Het is dus belangrijk om te weten in hoeveel % van je patiënten de data niet compleet zijn. Als dit een zeer klein deel is en de patiënten met missende waardes zijn naar verwachting volledig vergelijkbaar met patiënten zonder missende waarden (MCAR), kun je gewoon een GLM toepassen. Zo niet, dan kun je de data wellicht imputeren of uitwijken naar een ander model die beter om kan gaan met missende waardes (bijvoorbeeld een [[herhaalde metingen#linear mixed model| mixed model in geval van herhaalde metingen]]).


==Hoe houden een [[herhaalde metingen#linear mixed model| mixed model]] en een [[Generalized estimating equations| GEE]]-analyse rekening met missende waarden?==
''Ik heb vernomen dat een mixed model en een GEE-analyse al automatisch om kunnen gaan met missings/drop out. Welke methode wordt hier dan precies toegepast en wordt hierin dan ook ‘gecorrigeerd’ voor selectieve uitval (missings at random (MAR))?
Bij een verondersteld missing at random mechanisme,  zeg je dat er -geobserveerde-  variabelen zijn die voorspellend zijn voor het missend zijn. Indien deze variabelen toegevoegd zijn aan een mixed model / GEE, dan wordt er inderdaad rekening mee gehouden. Het is dus wel van belang dat de betreffende variabelen in het model zijn opgenomen. Soms is het eenvoudig: wanneer de aanname is dat de metingen op T1 het missend zijn van metingen op T2 voorspelt, dan zit de voorspellende variabele T1 zowiso in het model en wordt er dus inderdaad 'automatisch' rekening gehouden. Als er echter ook andere voorspellers zijn, bijvoorbeeld vrouwen vallen vaker uit dan mannen, dan moet de variabele gender wel als voorspeller aan het model toegevoegd worden om hier rekening mee te houden. Ter info: als de (niet geobserveerde, maar wel bestaande) waarde op T2 zelf voorspelt voor het missend zijn op T2, dan is er sprake van missing 'not at random' en daar kan een dergelijk model niet voor corrigeren.
==Van hoeveel % van mijn patiënten moet de data compleet zijn om imputeren te rechtvaardigen?==
Helaas is er niet direct een percentage te noemen dat imputeren nog valide maakt. Zie de [[Missing_values#Aanvullende_bronnen | lijst met aanvullende bronnen]] onder aan deze pagina voor informatie over de (on)mogelijkheden van (meervoudig) imputeren.
==Welk programma kan ik het beste gebruiken om mijn missende data te imputeren?==
In [[statistische software#SPSS|SPSS]] is er de mogelijkheid voor het gebruiken van ''multiple imputation'' methodes (ga naar Analyze -> Multiple Imputation). De aanvulling 'SPSS Missing Values add-on' biedt ook multiple imputation aan bij gebruik van eerdere versies. Het verschil tussen simple en multiple imputation is kortweg: bij "simple" imputeer je de data 1 maal op 1 manier en gebruik je de verkregen dataset in je analyse. Bij multiple imputation-methodes imputeer je meerdere malen en hou je rekening met de onzekerheid in de geïmputeerde waardes.
Verder hebben pakketten als [[statistische software#Stata|Stata]], [[statistische software#s-plus|S-Plus]], [[statistische software#SAS|SAS]] en [[statistische software#R|R]] (bijvoorbeeld '''mice''' of '''Hmisc''') allen routines voor multiple imputatie.


== Referenties ==
== Referenties ==


*[http://www.uvm.edu/~dhowell/StatPages/More_Stuff/Missing_Data/Missing.html Treatment of missing data, website van David C. Howell]
<biblio>
#White2010 White IR, Royston P, Wood AM. Multiple imputation using chained equations: Issues and guidance for practice. Statist. Med., 30: 377–399. [http://dx.doi.org/10.1002/sim.4067 DOI:10.1002/sim.4067]
</biblio>
 
== Aanvullende bronnen ==
 
*[http://www.nap.edu/catalog/12955/the-prevention-and-treatment-of-missing-data-in-clinical-trials National Research Council. The Prevention and Treatment of Missing Data in Clinical Trials. The National Academies Press, 2010.]
 
*[http://www.ema.europa.eu/docs/en_GB/document_library/Scientific_guideline/2010/09/WC500096793.pdf The European Medicines Agency’s (EMA’s) guideline on missing data in confirmatory clinical trials] came into force on 1 January 2011.
 
*[https://www.uvm.edu/~statdhtx/StatPages/Missing_Data/Missing.html Treatment of missing data, website van David C. Howell]
 
*[https://pubmed.ncbi.nlm.nih.gov/16980149/ Donders AR, van der Heijden GJ, Stijnen T, Moons KG. Review: a gentle introduction to imputation of missing values. J Clin Epidemiol. 2006 Oct;59(10):1087-91.]
 
*[https://pubmed.ncbi.nlm.nih.gov/12589867/ Clark TG, Altman DG. Developing a prognostic model in the presence of missing data: an ovarian cancer case study. J Clin Epidemiol. 2003 Jan;56(1):28-37.]
 
*[https://stefvanbuuren.name/fimd/sec-nutshell.html Van Buuren, Stef. Flexible imputation of missing data. Second edition. CRC press, 2018.] Link naar volledige online versie van het boek op de website van de auteur.
 
*[http://www.theanalysisfactor.com/multiple-imputation-5-recent-findings-that-change-how-to-use-it/ Multiple Imputation: 5 Recent Findings that Change How to Use It - article from The Analysis Factor].
 
*[http://www.ntvg.nl/publicatie/rekenen-met-ontbrekende-gegevens/volledig Rekenen met ontbrekende gegevens. RCA Rippe, M den Heijer, S le Cessie. Ned Tijdschr Geneeskd. 2013;157:A5539].


*[[Media:Donders_-_JCE_2006_Missing_values.pdf | Review: A gentle introduction to imputation of missing values, Donders A. Rogier T. et al., Journal of Clinical Epidemiology 59 (2006) 1087-1091]]
*[https://pubmed.ncbi.nlm.nih.gov/19564179/ Sterne JA, White IR, Carlin JB, Spratt M, Royston P, Kenward MG, Wood AM, Carpenter JR. Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls. BMJ. 2009 Jun 29;338:b2393.]


*[[Media:Clark_-_JCE_2003_Missing_values.pdf | Developing a prognostic model in the presence of missing data: an ovarian cancer case study, Clark T.A. et al., Journal of Clinical Epidemiology 56 (2003) 28–37]]
*[http://www.ncbi.nlm.nih.gov/pubmed/19596181 Vergouwe Y, Royston P, Moons KG, Altman DG. Development and validation of a prediction model with missing predictor data: a practical approach. J Clin Epidemiol. 2010 Feb;63(2):205-14.]


<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;">
*[http://www.ncbi.nlm.nih.gov/pubmed/16980150 Moons KG, Donders RA, Stijnen T, Harrell FE Jr. Using the outcome for imputation of missing predictor values was preferred. J Clin Epidemiol. 2006 Oct;59(10):1092-101]
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.


Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse.
{{onderschrift}}
<div>

Latest revision as of 12:55, 24 June 2024

Auteur dr. ir. N van Geloven
Co-Auteur
auteurschap op deze site

Welke soorten missing values zijn er?

In het algemeen worden er drie typen missing values onderscheiden:

  • MCAR-missing completely at random: Hierbij wordt aangenomen dat de missings totaal willekeurig zijn en er dus geen reden is om aan te nemen dat hoge dan wel lagere waardes vaker ontbreken dan andere waardes. Met andere woorden: het missing proces is onafhankelijk van de uitkomst en van alle andere geobserveerde dan wel niet geobserveerde patiëntkarakteristieken. Er is bijvoorbeeld sprake van MCAR wanneer er follow-up data mist vanwege het onbeschikbaar zijn van het meetapparaat op de dag dat de betreffende patiënt zijn follow-up visite had.
  • MAR-missing at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn, maar af kunnen hangen van bijvoorbeeld het niveau van de vorige waarnemingen of van andere bekende (patiënt-)karakteristieken. Met andere woorden: het missing proces is afhankelijk van geobserveerde eerdere metingen of bekende patiëntkarakteristieken. Bijvoorbeeld wanneer patiënten met slechte uitkomst in de eerste follow up visites eerder geneigd zijn met de studie op te houden dan patiënten met goede uitkomst in eerdere visites.
  • Informative dropout / missing not at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn en beïnvloed worden door processen die niet geobserveerd zijn. Met andere woorden: het missing proces is afhankelijk van (nog) niet geobserveerde metingen of onbekende patiëntkarakteristieken. Bijvoorbeeld in een diagnostische setting waarbij patiënten die na het uitvoeren van de index test spontaan opknappen niet meer op komen dagen voor het uitvoeren van de gouden standaard test en waarbij de uiteindelijke ziektestatus dus onbekend blijft.

Kan een GLM missende waarden aan?

Ik wil een general linear model (GLM) gebruiken op een database. Ik heb begrepen dat als je missing values hebt, je deze analyse niet kan uitvoeren en je daarom de data moet imputeren. Klopt dit?

Een GLM kan je wel uitvoeren wanneer je missende waarden hebt, maar hij neemt daarbij alleen de patiënten mee die geen missende waarden hebben. Het is dus belangrijk om te weten in hoeveel % van je patiënten de data niet compleet zijn. Als dit een zeer klein deel is en de patiënten met missende waardes zijn naar verwachting volledig vergelijkbaar met patiënten zonder missende waarden (MCAR), kun je gewoon een GLM toepassen. Zo niet, dan kun je de data wellicht imputeren of uitwijken naar een ander model die beter om kan gaan met missende waardes (bijvoorbeeld een mixed model in geval van herhaalde metingen).

Hoe houden een mixed model en een GEE-analyse rekening met missende waarden?

Ik heb vernomen dat een mixed model en een GEE-analyse al automatisch om kunnen gaan met missings/drop out. Welke methode wordt hier dan precies toegepast en wordt hierin dan ook ‘gecorrigeerd’ voor selectieve uitval (missings at random (MAR))?

Bij een verondersteld missing at random mechanisme, zeg je dat er -geobserveerde- variabelen zijn die voorspellend zijn voor het missend zijn. Indien deze variabelen toegevoegd zijn aan een mixed model / GEE, dan wordt er inderdaad rekening mee gehouden. Het is dus wel van belang dat de betreffende variabelen in het model zijn opgenomen. Soms is het eenvoudig: wanneer de aanname is dat de metingen op T1 het missend zijn van metingen op T2 voorspelt, dan zit de voorspellende variabele T1 zowiso in het model en wordt er dus inderdaad 'automatisch' rekening gehouden. Als er echter ook andere voorspellers zijn, bijvoorbeeld vrouwen vallen vaker uit dan mannen, dan moet de variabele gender wel als voorspeller aan het model toegevoegd worden om hier rekening mee te houden. Ter info: als de (niet geobserveerde, maar wel bestaande) waarde op T2 zelf voorspelt voor het missend zijn op T2, dan is er sprake van missing 'not at random' en daar kan een dergelijk model niet voor corrigeren.

Van hoeveel % van mijn patiënten moet de data compleet zijn om imputeren te rechtvaardigen?

Helaas is er niet direct een percentage te noemen dat imputeren nog valide maakt. Zie de lijst met aanvullende bronnen onder aan deze pagina voor informatie over de (on)mogelijkheden van (meervoudig) imputeren.

Welk programma kan ik het beste gebruiken om mijn missende data te imputeren?

In SPSS is er de mogelijkheid voor het gebruiken van multiple imputation methodes (ga naar Analyze -> Multiple Imputation). De aanvulling 'SPSS Missing Values add-on' biedt ook multiple imputation aan bij gebruik van eerdere versies. Het verschil tussen simple en multiple imputation is kortweg: bij "simple" imputeer je de data 1 maal op 1 manier en gebruik je de verkregen dataset in je analyse. Bij multiple imputation-methodes imputeer je meerdere malen en hou je rekening met de onzekerheid in de geïmputeerde waardes.

Verder hebben pakketten als Stata, S-Plus, SAS en R (bijvoorbeeld mice of Hmisc) allen routines voor multiple imputatie.

Referenties

  1. White IR, Royston P, Wood AM. Multiple imputation using chained equations: Issues and guidance for practice. Statist. Med., 30: 377–399. DOI:10.1002/sim.4067

    [White2010]

Aanvullende bronnen

Klaar met lezen? Je kunt naar het OVERZICHT van alle statistische onderwerpen op deze wiki gaan of naar de pagina KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse. Wil je meer leren over biostatistiek? Volg dan de AMC e-learning Practical Biostatistics. Vind je op deze pagina's iets dat niet klopt? Werkt een link niet? Of wil je bijdragen aan de wiki? Neem dan contact met ons op.

De wiki biostatistiek is een initiatief van de voormalige helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC kunnen via intranet ondersteuning aanvragen.