Respuestas:
Don Rubin escribió un artículo influyente que demuestra que no existe un método de imputación único que produzca inferencias imparciales (donde "imputación única" significa la imputación de un solo valor para una observación faltante). Sin embargo, en el mismo documento señaló que bien podría ser posible crear múltiples imputaciones cuya media es una estimación imparcial del valor faltante, y cuyas contribuciones a una mayor varianza en el análisis posterior es una estimación razonable de la incertidumbre añadida debido a los datos. falta
Este es su artículo:
Rubin, DB (1976). Inferencia y datos faltantes. Biometrika , 63 (3): 581–592.
Y esta es una actualización: Rubin, DB (1996). Imputación múltiple después de más de 18 años. Revista de la Asociación Americana de Estadística , 91 (434): 473–489.
Y esta es una suave introducción al tema de la imputación múltiple:
Schafer, JL (1999). Imputación múltiple: una cartilla. Métodos estadísticos en la investigación médica , 8: 3–15.
Hay una variedad de paquetes de software estadístico que admiten la imputación múltiple (por ejemplo, ratones en R, o hielo en Stata, o incluso las capacidades de imputación múltiple incorporadas de Stata en versiones recientes).
Nunca es una buena idea hacer esto, pero si faltan muy pocos datos, causará relativamente poco daño, será mucho más fácil de implementar y, dependiendo de su audiencia final, puede ser mucho más fácil de explicar. Sin embargo, una audiencia relativamente sofisticada puede oponerse a la imputación media única.
La pregunta: "¿Qué método de imputación es la mejor opción?" Depende siempre del conjunto de datos que mire
Tomando la media, en general, es un método de imputación válido. Como alguien ya mencionó, es fácil de explicar para las publicaciones y tiene sus ventajas en la velocidad informática.
La media como método de imputación es una buena opción para series que fluctúan aleatoriamente alrededor de un cierto valor / nivel.
Para la serie que se muestra, la media no parece apropiada. Como también es solo una variable, no puede usar algoritmos multivariados clásicos proporcionados por ratones, Amelia, VIM.
Tendría que mirar especialmente los algoritmos de series temporales. Un enfoque simple pero bueno para su ejemplo sería una interpolación lineal.
library(imputeTS)
x <- c(1,8,12,14,NA,NA,19)
na.interpolation(x)
Aquí está la salida para una interpolación lineal:
[1] 1.00000 8.00000 12.00000 14.00000 15.66667 17.33333 19.00000
Este es probablemente un mejor resultado que la media.
También hay métodos de series de tiempo más avanzados en el paquete imputeTS (por mí) o uno en el paquete de pronóstico (por Rob Hyndman)