¿Está bien dejar caer las observaciones faltantes?

Tengo un conjunto de datos que analiza las solicitudes de inmigración y las aceptaciones de visas (otorgamiento de visas). Las tarifas se calculan para las solicitudes de visa "aceptadas" y "rechazadas".

Sin embargo, el conjunto de datos también tiene valores para los casos que se cerraron. Normalmente esto es cuando el inmigrante dejó de presentarse a las citas, emigró a otro lugar o murió. Debido a que estos números no se usan cuando se calculan las tasas, las tasas a menudo aparecen como faltantes (porque los casos no fueron aceptados ni rechazados).

Dicho esto, si los únicos casos para ese año estuvieran "cerrados de otra manera", ¿alguna vez estaría bien abandonar estas observaciones? Parte del problema que tengo es que los años aleatorios en el conjunto de datos se eliminarán, porque las únicas decisiones para ese año fueron cerradas.

Los casos cerrados de otra manera son muy arbitrarios, y como mencioné, probablemente sean casos en los que el inmigrante emigró a otro lugar, y probablemente solo utilizó el primer país como un lugar de tránsito temporal. Los datos no dicen específicamente por qué los inmigrantes se fueron, por qué fueron cerrados, etc. No estoy realmente seguro de cómo lidiar con estos valores perdidos. No creo que los métodos de imputación estándar funcionen aquí, debido a los cálculos de la tasa (pero podría estar equivocado).

missing-data

— EJ16
fuente

No solo los dejarías caer. Podrías aplicar una imputación múltiple. Ver artículo y libros en coautoría de Donald Rubin y Rod Little.

— Michael R. Chernick

¿La imputación múltiple supone que faltan datos al azar? ¿Faltan estos datos al azar? MI siempre me desconcierta un poco, y esta es una razón.

— EJ16

Usted plantea un buen punto. Clasifican los datos faltantes como 1) falta completamente al azar, 2) falta al azar y 3) falta al azar. Estas categorías se explican en sus libros. Si lee su trabajo y comprende sus datos, debería poder aplicar el método correctamente. Tienes tres situaciones: el inmigrante dejó de aparecer, fue a otro lado o murió. Esto parece no ser aleatorio, pero puede ver en función de lo que les sucedió la probabilidad de aceptación.

— Michael R. Chernick

En los casos en los que no esté seguro de si sus datos son MCAR, MAR o MNAR, puede ser útil considerar las parcelas de datos faltantes. Aquí hay un ejemplo de cómo construir una gráfica de este tipo usando ggplot2 y el paquete de estadísticas R.

— Wes

¿No puede incluir una tercera categoría, "caso descartado", en sus datos? ¿Quizás entonces un análisis diferente lo tratará de manera diferente? Solo caer parece extraño.

— kjetil b halvorsen

Respuestas:

En su caso, la distinción importante no es la distinción entre MCAR, MAR y NMAR, sino entre valores perdidos reales y valores faltantes mecánicos. Los valores perdidos reales son valores que existen, pero por alguna razón no se registraron. Los valores mecánicos faltantes no existen, pero la estructura rectangular de un conjunto de datos nos obliga a darle un valor, por ejemplo, el estado del embarazo si su conjunto de datos también incluye hombres. Las técnicas de imputación están diseñadas para valores perdidos reales. Su ejemplo es un caso de valores mecánicos faltantes; la decisión no se ha tomado, por lo que su valor no existe. Si una parte sustancial de los migrantes se muda, esa es una característica importante del proceso de migración, y la imputación de esos valores oculta esa característica.

— Maarten Buis
fuente

Sin embargo, a diferencia del embarazo masculino, podría haber habido una decisión de aceptar / rechazar en los casos en que las personas murieron, se mudaron o dejaron de presentarse. En el análisis de supervivencia, estos podrían tratarse de manera inteligente como casos censurados, siempre que la censura no fuera informativa. Me pregunto si hay alguna forma de incorporar el estado censurado en el análisis de este caso en cuestión.

— EdM

Maarten, muchas gracias. Que tiene sentido. También pensé que quizás era una forma de censura (por ejemplo, la muerte de migrantes). Pero no entiendo qué "imputar esos valores oculta esa característica". ¿Significa esto, entonces, que no se debe hacer una imputación múltiple? Si es así, ¿cuáles son las otras opciones? Todavía me estoy rascando la cabeza.

— EJ16

Quizás, y esos fueron registrados como aceptados / denegados. Pero hay años en que no se tomaron decisiones en absoluto, y las únicas decisiones que se tomaron fueron "cerradas de otra manera". Entonces, esa es la parte en la que estoy atrapado en este momento.

— EJ16

Maarten, no importa. Releyé la respuesta, y ahora entiendo que MI no sería suficiente para esto. Actualmente muestra que aproximadamente la mitad de los casos están cerrados y, por lo tanto, faltan. Supongo que mi pregunta sigue siendo qué hacer con estos casos, porque el procedimiento estándar es no incluirlos en los cálculos de la tasa.

— EJ16

+1 Buena respuesta. Un punto a destacar es que los MV "mecánicos" se denominan más comúnmente "ceros estructurales" o valores nulos, al menos en la literatura de los Estados Unidos.

— Mike Hunter

Está claro una mezcla de al menos 2 procesos diferentes de falta.

Personas que mueren por causas no relacionadas con el procedimiento / abandono / etc. por razones distintas al resultado probable del procedimiento. Aquí alguna imputación bajo MAR tiene sentido (si puede identificar claramente los casos).
Personas que se rinden / se retiran / abandonan debido a que no cumplen con algunas reglas y / o piensan que es poco probable que tengan éxito o que es demasiado complicado. Aquí depende de si puede a partir de los datos que tiene evaluar sus posibilidades si hubieran continuado. Si puede una suposición MAR está bien, de lo contrario tiene una situación MNAR difícil.

Qué hacer con MNAR es difícil. Asumir que tales casos no tuvieron éxito puede ser un poco extremo (o muy apropiado, después de todo, no tuvieron éxito). O impute bajo MAR y observe cómo hacer que estos casos sean menos exitosos hasta que alcance el 0% y contemple ese rango de valores.

— Björn
fuente

En efecto. Al principio, creía que los datos eran MNAR. Sin embargo, creo que Maarten tiene razón. Solo que me ha dejado un poco más confundido sobre qué hacer con los ceros estructurales.

— EJ16