Imputación
PROCEDIMIENTO
1) En primer lugar se crea una variable auxiliar como suma de las 4 variables de embarazos anteriores (vivos, fallecidos, nacidos muertos y abortos) y se construye una variable que indica si el caso se valida o no, con las siguientes características:
a. Si no hay datos faltantes y total de embarazos anteriores es igual a la suma anterior o difiere en 2 (considerando casos de embarazos múltiples anteriores) se considera que el dato es correcto. Se arma una base con estos datos válidos.
b. Si no hay datos faltantes y las diferencias entre las variables son mayores, se consideran datos con errores. Se crea otra base con estos datos.
c. Si hay datos faltantes en cualquiera de las variables. Se crea la base de datos con valores faltantes.
2) Se trabaja con las bases anteriores por separado.
3) En el caso de la base con datos válidos se crean las variables numemban_imp, vivos_imp y falle_imp con los mismos valores de las originales (numéricas).
4) En el caso de los datos con errores, se observaron algunos patrones que se usaron para imputar los datos:
a. Si numemban - suma = 1, se supone que tomaron en cuenta el embarazo en curso. Se imputa al total de embarazos el original -1 y se mantienen los valores de las otras dos variables.
b. Si la suma es 0, se imputa 0 al total de embarazos anteriores y se mantienen los valores originales de las otras dos variables.
c. Si el número de embarazos anteriores coincide con el número de hijos vivos y con el número de fallecidos, se mantiene el total de embarazos y el número de hijos vivos y se imputa 0 hijos fallecidos.
d. Si numemban - suma > 0 y no se imputó con las reglas anteriores, se mantienen los valores anteriores de las 3 variables (no se consideraron para imputar el número de nacidos muertos ni el número de abortos).
e. Se revisó los casos en los cuales podía haber errores de digitación (doble cifra, múltiplos de 10) teniendo en cuenta la edad de la madre.
f. El resto de casos no válidos se procedió a imputar junto con los casos con datos faltantes (considerando como válido el total de embarazos anteriores).
5) Si hay datos faltantes en cualesquiera de las variables consideradas (ya sea porque el dato faltaba originalmente o porque se consideró valor atípico y se pasó a faltante), se realizó el siguiente procedimiento:
a. Si no hay datos en ninguna de las variables y tampoco en la edad de la madre, se mantiene como datos ignorados en las tres variables (total de embarazos, vivos y fallecidos).
b. Si falta el total de embarazos anteriores pero están los datos de las otras 4 variables, se imputa el total de embarazos como la suma de estas variables. Se mantiene el valor de las otras dos.
c. Si está el total de embarazos, vivos y fallecidos (faltan nacidos muertos o abortos), se mantienen los valores originales de las 3 variables.
d. Si falta dato en fallecidos pero hay datos en total de embarazos y vivos, se mantienen los valores de estas dos variables y se imputa el número de fallecidos como la diferencia entre ellas. Se mantiene como dato faltante si la diferencia es mayor a 5 (este valor se utilizó a partir del análisis de los propios datos). Si en algún caso el valor queda negativo, se imputa 0 (se considera que hubo embarazos múltiples con anterioridad).
e. Si falta dato en vivos pero hay datos en total de embarazos y fallecidos, se mantienen los valores de estas dos variables y se imputa el número de vivos como la diferencia entre ellas.
6) Para los caso en que no se realizó ninguna de las imputaciones anteriores, se procedió a dividirlos en dos categorías: si tienen la cantidad de embarazos anteriores y faltan las otras dos, o si faltan datos en las tres variables.
7) Para imputar estos casos se utilizaron las funciones “RANDwNND.hotdeck” y “create.fused” de la biblioteca “StatMatch” del R. Se necesitan dos bases: una que tiene los casos con las variables sin datos faltantes (donantes) y otra que tiene los casos con datos faltantes (receptores). La primera función calcula la distancia entre cada caso de la base de receptores y los casos de las base de donantes (se utilizó la distancia Manhattan, aunque da la posibilidad de elegir otras funciones de distancia) y elige aleatoriamente un donante dentro de los que tienen igual distancia. La segunda función asigna al receptor los valores de las variables del donante.
a. En el caso de los datos que tienen válido el número de embarazos anteriores, las distancias entre individuos se calcularon usando las variables: departamento, edad de la madre, estado civil de la madre y cantidad de embarazos anteriores. Las variables a imputar son la cantidad de hijos vivos y la cantidad de fallecidos.
b. En el caso de los datos que no tienen el número de embarazos anteriores, las distancias entre individuos se calcularon usando las variables: departamento, edad de la madre y estado civil de la madre. Las variables a imputar son la cantidad de embarazos anteriores, hijos vivos y fallecidos.
8) Se controló que los valores imputados fueran coherentes con el resto de los datos de la base.
Se crean variables que indican si el caso fue imputado el valor de cada una de las variables de interés (numemban, vivos y falle) y otra que indica si se realizó al menos una imputación.