Tengo un gran conjunto de vectores de características que usaré para atacar un problema de clasificación binaria (usando scikit learn en Python). Antes de comenzar a pensar en la imputación, estoy interesado en tratar de determinar, a partir de las partes restantes de los datos, si los datos faltantes 'faltan al azar' o no faltan al azar.
¿Cuál es una forma sensata de abordar esta pregunta?
Resulta que una mejor pregunta es preguntar si los datos 'faltan completamente al azar' o no. ¿Cuál es una forma sensata de hacer eso?