Missing data

In mijn eerdere blog besprak ik de vormen van missing data. Dit onderscheid is van belang bij het bepalen welke oplossing je toepast. In dit blog beschrijf ik drie oplossingsrichtingen die allen leiden tot een complete dataset en zal ik op simulatie-achtige wijze het effect van de verschillende methoden tonen. Herinner je je het klantenbestand uit mijn vorige blog? We beginnen met een complete versie van die dataset en focussen op de variabele 'inkomen'. Het gemiddelde en de variantie van deze variabele is als volgt:

> mean(data$inkomen)
[1] -0.0007308566

> var(data$inkomen)
[1] 1.001264

Vervolgens gebruik ik R-functie ampute om de dataset incompleet te maken. Ik genereer de missende waarde met een MAR-vorm van missing data. Hierbij ontbreken sommige records op inkomen, en andere records op zowel bundel als leeftijd. Hieronder zie je de eerste zes records van het klantenbestand:

Attachments

  • Original document
  • Permalink

Disclaimer

DPA Group NV published this content on 25 March 2021 and is solely responsible for the information contained therein. Distributed by Public, unedited and unaltered, on 25 March 2021 11:50:02 UTC.