Missing values: Difference between revisions

Latest revision as of 10:18, 9 December 2024

Auteur	dr. ir. N van Geloven
Co-Auteur
auteurschap op deze site

Welke soorten missing values zijn er?

In het algemeen worden er drie typen missing values onderscheiden:

MCAR-missing completely at random: Hierbij wordt aangenomen dat de missings totaal willekeurig zijn en er dus geen reden is om aan te nemen dat hoge dan wel lagere waardes vaker ontbreken dan andere waardes. Met andere woorden: het missing proces is onafhankelijk van de uitkomst en van alle andere geobserveerde dan wel niet geobserveerde patiëntkarakteristieken. Er is bijvoorbeeld sprake van MCAR wanneer er follow-up data mist vanwege het onbeschikbaar zijn van het meetapparaat op de dag dat de betreffende patiënt zijn follow-up visite had.
MAR-missing at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn, maar af kunnen hangen van bijvoorbeeld het niveau van de vorige waarnemingen of van andere bekende (patiënt-)karakteristieken. Met andere woorden: het missing proces is afhankelijk van geobserveerde eerdere metingen of bekende patiëntkarakteristieken. Bijvoorbeeld wanneer patiënten met slechte uitkomst in de eerste follow up visites eerder geneigd zijn met de studie op te houden dan patiënten met goede uitkomst in eerdere visites.
Informative dropout / missing not at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn en beïnvloed worden door processen die niet geobserveerd zijn. Met andere woorden: het missing proces is afhankelijk van (nog) niet geobserveerde metingen of onbekende patiëntkarakteristieken. Bijvoorbeeld in een diagnostische setting waarbij patiënten die na het uitvoeren van de index test spontaan opknappen niet meer op komen dagen voor het uitvoeren van de gouden standaard test en waarbij de uiteindelijke ziektestatus dus onbekend blijft.

Kan een GLM missende waarden aan?

Ik wil een general linear model (GLM) gebruiken op een database. Ik heb begrepen dat als je missing values hebt, je deze analyse niet kan uitvoeren en je daarom de data moet imputeren. Klopt dit?

Een GLM kan je wel uitvoeren wanneer je missende waarden hebt, maar hij neemt daarbij alleen de patiënten mee die geen missende waarden hebben. Het is dus belangrijk om te weten in hoeveel % van je patiënten de data niet compleet zijn. Als dit een zeer klein deel is en de patiënten met missende waardes zijn naar verwachting volledig vergelijkbaar met patiënten zonder missende waarden (MCAR), kun je gewoon een GLM toepassen. Zo niet, dan kun je de data wellicht imputeren of uitwijken naar een ander model die beter om kan gaan met missende waardes (bijvoorbeeld een mixed model in geval van herhaalde metingen).

Hoe houden een mixed model en een GEE-analyse rekening met missende waarden?

Ik heb vernomen dat een mixed model en een GEE-analyse al automatisch om kunnen gaan met missings/drop out. Welke methode wordt hier dan precies toegepast en wordt hierin dan ook ‘gecorrigeerd’ voor selectieve uitval (missings at random (MAR))?

Bij een verondersteld missing at random mechanisme, zeg je dat er -geobserveerde- variabelen zijn die voorspellend zijn voor het missend zijn. Indien deze variabelen toegevoegd zijn aan een mixed model / GEE, dan wordt er inderdaad rekening mee gehouden. Het is dus wel van belang dat de betreffende variabelen in het model zijn opgenomen. Soms is het eenvoudig: wanneer de aanname is dat de metingen op T1 het missend zijn van metingen op T2 voorspelt, dan zit de voorspellende variabele T1 zowiso in het model en wordt er dus inderdaad 'automatisch' rekening gehouden. Als er echter ook andere voorspellers zijn, bijvoorbeeld vrouwen vallen vaker uit dan mannen, dan moet de variabele gender wel als voorspeller aan het model toegevoegd worden om hier rekening mee te houden. Ter info: als de (niet geobserveerde, maar wel bestaande) waarde op T2 zelf voorspelt voor het missend zijn op T2, dan is er sprake van missing 'not at random' en daar kan een dergelijk model niet voor corrigeren.

Van hoeveel % van mijn patiënten moet de data compleet zijn om imputeren te rechtvaardigen?

Helaas is er niet direct een percentage te noemen dat imputeren nog valide maakt. Zie de lijst met aanvullende bronnen onder aan deze pagina voor informatie over de (on)mogelijkheden van (meervoudig) imputeren.

Welk programma kan ik het beste gebruiken om mijn missende data te imputeren?

In SPSS is er de mogelijkheid voor het gebruiken van multiple imputation methodes (ga naar Analyze -> Multiple Imputation). De aanvulling 'SPSS Missing Values add-on' biedt ook multiple imputation aan bij gebruik van eerdere versies. Het verschil tussen simple en multiple imputation is kortweg: bij "simple" imputeer je de data 1 maal op 1 manier en gebruik je de verkregen dataset in je analyse. Bij multiple imputation-methodes imputeer je meerdere malen en hou je rekening met de onzekerheid in de geïmputeerde waardes.

Verder hebben pakketten als Stata, S-Plus, SAS en R (bijvoorbeeld mice of Hmisc) allen routines voor multiple imputatie.

Referenties

White IR, Royston P, Wood AM. Multiple imputation using chained equations: Issues and guidance for practice. Statist. Med., 30: 377–399. DOI:10.1002/sim.4067
[White2010]

Aanvullende bronnen

National Research Council. The Prevention and Treatment of Missing Data in Clinical Trials. The National Academies Press, 2010.

The European Medicines Agency’s (EMA’s) guideline on missing data in confirmatory clinical trials came into force on 1 January 2011.

Treatment of missing data, website van David C. Howell

Donders AR, van der Heijden GJ, Stijnen T, Moons KG. Review: a gentle introduction to imputation of missing values. J Clin Epidemiol. 2006 Oct;59(10):1087-91.

Clark TG, Altman DG. Developing a prognostic model in the presence of missing data: an ovarian cancer case study. J Clin Epidemiol. 2003 Jan;56(1):28-37.

Van Buuren, Stef. Flexible imputation of missing data. Second edition. CRC press, 2018. Link naar volledige online versie van het boek op de website van de auteur.

Multiple Imputation: 5 Recent Findings that Change How to Use It - article from The Analysis Factor.

Rekenen met ontbrekende gegevens. RCA Rippe, M den Heijer, S le Cessie. Ned Tijdschr Geneeskd. 2013;157:A5539.

Sterne JA, White IR, Carlin JB, Spratt M, Royston P, Kenward MG, Wood AM, Carpenter JR. Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls. BMJ. 2009 Jun 29;338:b2393.

Vergouwe Y, Royston P, Moons KG, Altman DG. Development and validation of a prediction model with missing predictor data: a practical approach. J Clin Epidemiol. 2010 Feb;63(2):205-14.

Moons KG, Donders RA, Stijnen T, Harrell FE Jr. Using the outcome for imputation of missing predictor values was preferred. J Clin Epidemiol. 2006 Oct;59(10):1092-101

Klaar met lezen? Je kunt naar het OVERZICHT van alle statistische onderwerpen op deze wiki gaan of naar de pagina KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse. Wil je meer leren over biostatistiek? Volg dan de AMC e-learning Practical Biostatistics. Vind je op deze pagina's iets dat niet klopt? Werkt een link niet? Of wil je bijdragen aan de wiki? Neem dan contact met ons op.

De wiki biostatistiek is een initiatief van de voormalige helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC kunnen via intranet ondersteuning aanvragen.

@@ Line 7: / Line 7: @@
 In het algemeen worden er drie typen missing values onderscheiden:
-*MCAR-missing completely at random: Hierbij wordt aangenomen dat de missings totaal willekeurig zijn en er dus geen reden is om aan te nemen dat hoge dan wel lagere waardes vaker ontbreken dan andere waardes. Met andere woorden: het missing proces is onafhankelijk van de uitkomst en van alle andere geobserveerde dan wel niet geobserveerde patiëntkarakteristieken. Er is bijvoorbeeld sprake van MCAR wanneer er follow-up data mist vanwege het onbeschikbaar zijn van het meetapparaat op de dag dat de betreffende patient zijn follow-up visite had.
+*MCAR-missing completely at random: Hierbij wordt aangenomen dat de missings totaal willekeurig zijn en er dus geen reden is om aan te nemen dat hoge dan wel lagere waardes vaker ontbreken dan andere waardes. Met andere woorden: het missing proces is onafhankelijk van de uitkomst en van alle andere geobserveerde dan wel niet geobserveerde patiëntkarakteristieken. Er is bijvoorbeeld sprake van MCAR wanneer er follow-up data mist vanwege het onbeschikbaar zijn van het meetapparaat op de dag dat de betreffende patiënt zijn follow-up visite had.
-*MAR-missing at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn, maar af kunnen hangen van bijvoorbeeld het niveau van de vorige waarnemingen of van andere bekende (patient-)karakteristieken. Met andere woorden: het missing proces is afhankelijk van geobserveerde eerdere metingen of bekende patiëntkarakteristieken. Bijvoorbeeld wanneer patienten met slechte uitkomst in de eerste follow up visites eerder geneigd zijn met de studie op te houden dan patienten met goede uitkomst in eerdere visites.
+*MAR-missing at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn, maar af kunnen hangen van bijvoorbeeld het niveau van de vorige waarnemingen of van andere bekende (patiënt-)karakteristieken. Met andere woorden: het missing proces is afhankelijk van geobserveerde eerdere metingen of bekende patiëntkarakteristieken. Bijvoorbeeld wanneer patiënten met slechte uitkomst in de eerste follow up visites eerder geneigd zijn met de studie op te houden dan patiënten met goede uitkomst in eerdere visites.
-*Informative dropout / missing not at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn en beïnvloed worden door processen die niet geobserveerd zijn. Met andere woorden: het missing proces is afhankelijk van (nog) niet geobserveerde metingen of onbekende patiëntkarakteristieken. Bijvoorbeeld in een diagnostische setting waarbij patienten die na het uitvoeren van de index test spontaan opknappen niet meer op komen dagen voor het uitvoeren van de gouden standaard test en waarbij de uiteindelijke ziektestatus dus onbekend blijft.
+*Informative dropout / missing not at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn en beïnvloed worden door processen die niet geobserveerd zijn. Met andere woorden: het missing proces is afhankelijk van (nog) niet geobserveerde metingen of onbekende patiëntkarakteristieken. Bijvoorbeeld in een diagnostische setting waarbij patiënten die na het uitvoeren van de index test spontaan opknappen niet meer op komen dagen voor het uitvoeren van de gouden standaard test en waarbij de uiteindelijke ziektestatus dus onbekend blijft.
 ==Kan een GLM missende waarden aan? ==
@@ Line 15: / Line 15: @@
 ''Ik wil een general linear model (GLM) gebruiken op een database. Ik heb begrepen dat als je missing values hebt, je deze analyse niet kan uitvoeren en je daarom de data moet imputeren. Klopt dit?
-Een GLM kan je wel uitvoeren wanneer je missende waarden hebt, maar hij neemt daarbij alleen de patienten mee die geen missende waarden hebben. Het is dus belangrijk om te weten in hoeveel % van je patienten de data niet compleet zijn. Als dit een zeer klein deel is en de patienten met missende waardes zijn naar verwachting volledig vergelijkbaar met patienten zonder missende waarden (MCAR), kun je gewoon een GLM toepassen. Zo niet, dan kun je de data wellicht imputeren of uitwijken naar een ander model die beter om kan gaan met missende waardes (bijvoorbeeld een [[herhaalde metingen#linear mixed model| mixed model in geval van herhaalde metingen]]).
+Een GLM kan je wel uitvoeren wanneer je missende waarden hebt, maar hij neemt daarbij alleen de patiënten mee die geen missende waarden hebben. Het is dus belangrijk om te weten in hoeveel % van je patiënten de data niet compleet zijn. Als dit een zeer klein deel is en de patiënten met missende waardes zijn naar verwachting volledig vergelijkbaar met patiënten zonder missende waarden (MCAR), kun je gewoon een GLM toepassen. Zo niet, dan kun je de data wellicht imputeren of uitwijken naar een ander model die beter om kan gaan met missende waardes (bijvoorbeeld een [[herhaalde metingen#linear mixed model| mixed model in geval van herhaalde metingen]]).
-==Hoe houdt een [[herhaalde metingen#linear mixed model| mixed model]] en een [[GEE]] analyse rekening met missende waarden?==
+==Hoe houden een [[herhaalde metingen#linear mixed model| mixed model]] en een GEE-analyse rekening met missende waarden?==
-''Ik heb vernomen dat een mixed model en een GEE analyse al automatisch om te kunnen gaan met missings/drop out. Welke methode wordt hier dan precies toegepast en wordt hierin dan ook ‘gecorrigeerd’ voor selectieve uitval (missings at random (MAR))?
+''Ik heb vernomen dat een mixed model en een GEE-analyse al automatisch om kunnen gaan met missings/drop out. Welke methode wordt hier dan precies toegepast en wordt hierin dan ook ‘gecorrigeerd’ voor selectieve uitval (missings at random (MAR))?
 Bij een verondersteld missing at random mechanisme,  zeg je dat er -geobserveerde-  variabelen zijn die voorspellend zijn voor het missend zijn. Indien deze variabelen toegevoegd zijn aan een mixed model / GEE, dan wordt er inderdaad rekening mee gehouden. Het is dus wel van belang dat de betreffende variabelen in het model zijn opgenomen. Soms is het eenvoudig: wanneer de aanname is dat de metingen op T1 het missend zijn van metingen op T2 voorspelt, dan zit de voorspellende variabele T1 zowiso in het model en wordt er dus inderdaad 'automatisch' rekening gehouden. Als er echter ook andere voorspellers zijn, bijvoorbeeld vrouwen vallen vaker uit dan mannen, dan moet de variabele gender wel als voorspeller aan het model toegevoegd worden om hier rekening mee te houden. Ter info: als de (niet geobserveerde, maar wel bestaande) waarde op T2 zelf voorspelt voor het missend zijn op T2, dan is er sprake van missing 'not at random' en daar kan een dergelijk model niet voor corrigeren.
-==Van hoeveel % van mijn patienten moet de data compleet zijn om imputeren te rechtvaardigen?==
+==Van hoeveel % van mijn patiënten moet de data compleet zijn om imputeren te rechtvaardigen?==
-Helaas is er niet direct een percentage te noemen dat imputeren nog valide maakt. Zie de referenties onder aan deze pagina voor informatie over de (on)mogelijkheden van imputeren
+Helaas is er niet direct een percentage te noemen dat imputeren nog valide maakt. Zie de [[Missing_values#Aanvullende_bronnen | lijst met aanvullende bronnen]] onder aan deze pagina voor informatie over de (on)mogelijkheden van (meervoudig) imputeren.
 ==Welk programma kan ik het beste gebruiken om mijn missende data te imputeren?==
-In [[statistische software#SPSS|SPSS]] is er mogelijkheid voor het gebruiken van simple en multiple imputation methodes (ga naar Analyze -> Muliple imputation) (va versie 17). De aanvulling 'SPSS Missing Values add-on' biedt ook multiple imputation aan bij gebruik van eerdere versies. Het verschil tussen simple en multiple imputation is kortweg: bij simple imputeer je de data 1 maal op 1 manier en gebruik je de verkregen dataset in je analyse. Bij multiple imputation imputeer je meerdere malen en hou je rekening met de onzekerheid in de geimputeerde waardes.
+In [[statistische software#SPSS|SPSS]] is er de mogelijkheid voor het gebruiken van ''multiple imputation'' methodes (ga naar Analyze -> Multiple Imputation). De aanvulling 'SPSS Missing Values add-on' biedt ook multiple imputation aan bij gebruik van eerdere versies. Het verschil tussen simple en multiple imputation is kortweg: bij "simple" imputeer je de data 1 maal op 1 manier en gebruik je de verkregen dataset in je analyse. Bij multiple imputation-methodes imputeer je meerdere malen en hou je rekening met de onzekerheid in de geïmputeerde waardes.
-Verder hebben pakketten als [[statistische software#Stata|Stata]], [[statistische software#s-plus|S-Plus]], [[statistische software#SAS|SAS]] en [[statistische software#R|R]] (bijvoorbeeld aregImpute package Hmisc) allen routines voor multiple imputatie.
+Verder hebben pakketten als [[statistische software#Stata|Stata]], [[statistische software#s-plus|S-Plus]], [[statistische software#SAS|SAS]] en [[statistische software#R|R]] (bijvoorbeeld '''mice''' of '''Hmisc''') allen routines voor multiple imputatie.
 == Referenties ==
-*[http://www.nap.edu/catalog/12955/the-prevention-and-treatment-of-missing-data-in-clinical-trials The Prevention and Treatment of Missing Data in Clinical Trials (2010). Panel on Handling Missing Data in Clinical Trials; Committee on National Statistics; Division of Behavioral and Social Sciences and Education; National Research Council]
+<biblio>
+#White2010 White IR, Royston P, Wood AM. Multiple imputation using chained equations: Issues and guidance for practice. Statist. Med., 30: 377–399. [http://dx.doi.org/10.1002/sim.4067 DOI:10.1002/sim.4067]
+</biblio>
+== Aanvullende bronnen ==
+*[http://www.nap.edu/catalog/12955/the-prevention-and-treatment-of-missing-data-in-clinical-trials National Research Council. The Prevention and Treatment of Missing Data in Clinical Trials. The National Academies Press, 2010.]
 *[http://www.ema.europa.eu/docs/en_GB/document_library/Scientific_guideline/2010/09/WC500096793.pdf The European Medicines Agency’s (EMA’s) guideline on missing data in confirmatory clinical trials] came into force on 1 January 2011.
-*[http://www.uvm.edu/~dhowell/StatPages/More_Stuff/Missing_Data/Missing.html  Treatment of missing data, website van David C. Howell]
+*[https://www.uvm.edu/~statdhtx/StatPages/Missing_Data/Missing.html Treatment of missing data, website van David C. Howell]
-*[http://www.mendeley.com/research/review-a-gentle-introduction-to-imputation-of-missing-values/# Review: A gentle introduction to imputation of missing values, Donders A. Rogier T. et al., Journal of Clinical Epidemiology 59 (2006) 1087-1091]
+*[https://pubmed.ncbi.nlm.nih.gov/16980149/ Donders AR, van der Heijden GJ, Stijnen T, Moons KG. Review: a gentle introduction to imputation of missing values. J Clin Epidemiol. 2006 Oct;59(10):1087-91.]
-*[http://www.ncbi.nlm.nih.gov/pubmed/12589867 Clark T.A. et al. Developing a prognostic model in the presence of missing data: an ovarian cancer case study, Journal of Clinical Epidemiology 56 (2003) 28–37]
+*[https://pubmed.ncbi.nlm.nih.gov/12589867/ Clark TG, Altman DG. Developing a prognostic model in the presence of missing data: an ovarian cancer case study. J Clin Epidemiol. 2003 Jan;56(1):28-37.]
-*[http://multiple-imputation.com http://multiple-imputation.com] Uitleg over wat multiple imputation inhoudt.
+*[https://stefvanbuuren.name/fimd/sec-nutshell.html Van Buuren, Stef. Flexible imputation of missing data. Second edition. CRC press, 2018.] Link naar volledige online versie van het boek op de website van de auteur.
 *[http://www.theanalysisfactor.com/multiple-imputation-5-recent-findings-that-change-how-to-use-it/ Multiple Imputation: 5 Recent Findings that Change How to Use It - article from The Analysis Factor].
@@ Line 49: / Line 55: @@
 *[http://www.ntvg.nl/publicatie/rekenen-met-ontbrekende-gegevens/volledig Rekenen met ontbrekende gegevens. RCA Rippe, M den Heijer, S le Cessie. Ned Tijdschr Geneeskd. 2013;157:A5539].
-*[http://www.bmj.com/content/338/bmj.b2393 Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls. JAC Sterne, IR White, JB Carlin, M Spratt, P Royston, MG Kenward, AM Wood, JR Carpenter. BMJ. 2009; 338: b2393.]
+*[https://pubmed.ncbi.nlm.nih.gov/19564179/ Sterne JA, White IR, Carlin JB, Spratt M, Royston P, Kenward MG, Wood AM, Carpenter JR. Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls. BMJ. 2009 Jun 29;338:b2393.]
-*[http://www.ncbi.nlm.nih.gov/pubmed/19596181 Vergouwe Y, Royston P, Moons KG, Altman DG. Development and validation of a prediction model with missing predictor data: a practical approach. J Clin Epidemiol. 2010 Feb;63(2):205-14. doi: 10.1016/j.jclinepi.2009.03.017.]
+*[http://www.ncbi.nlm.nih.gov/pubmed/19596181 Vergouwe Y, Royston P, Moons KG, Altman DG. Development and validation of a prediction model with missing predictor data: a practical approach. J Clin Epidemiol. 2010 Feb;63(2):205-14.]
 *[http://www.ncbi.nlm.nih.gov/pubmed/16980150 Moons KG, Donders RA, Stijnen T, Harrell FE Jr. Using the outcome for imputation of missing predictor values was preferred. J Clin Epidemiol. 2006 Oct;59(10):1092-101]
 {{onderschrift}}

Missing values: Difference between revisions

Latest revision as of 10:18, 9 December 2024

Contents

Welke soorten missing values zijn er?

Kan een GLM missende waarden aan?

Hoe houden een mixed model en een GEE-analyse rekening met missende waarden?

Van hoeveel % van mijn patiënten moet de data compleet zijn om imputeren te rechtvaardigen?

Welk programma kan ik het beste gebruiken om mijn missende data te imputeren?

Referenties

Aanvullende bronnen

Navigation menu

Missing values: Difference between revisions

Latest revision as of 10:18, 9 December 2024

Welke soorten missing values zijn er?

Kan een GLM missende waarden aan?

Hoe houden een mixed model en een GEE-analyse rekening met missende waarden?

Van hoeveel % van mijn patiënten moet de data compleet zijn om imputeren te rechtvaardigen?

Welk programma kan ik het beste gebruiken om mijn missende data te imputeren?

Referenties

Aanvullende bronnen

Navigation menu

Search