¿Cómo puedo corregir el error de medición en la variable dependiente en una regresión logit?

8

Estoy ejecutando una regresión logit binaria donde sé que la variable dependiente está mal codificada en un pequeño porcentaje de casos. Así que estoy tratando de estimar en este modelo: $\beta$

$prob(y_i) = 1/(1 + e^{-z_i})$

$z_i = \alpha + X_i\beta$

Pero en lugar del vector , tengo , que incluye algunos errores aleatorios (es decir, , pero , o viceversa, para algunos ). $Y$ $\tilde{Y}$ $y_i = 1$ $\tilde{y_i} = 0$ $i$

¿Existe una corrección (razonablemente) simple para este problema?

Sé que logit tiene algunas buenas propiedades en los estudios de casos y controles. Parece probable que algo similar se aplique aquí, pero no he podido encontrar una buena solución.

Algunas otras restricciones: esta es una aplicación de minería de texto, por lo que las dimensiones de son grandes (en miles o decenas de miles). Esto puede descartar algunos procedimientos computacionalmente intensivos. $X$

Además, no me importa estimar correctamente , solo . $\alpha$ $\beta$

logistic measurement-error

— Abe
fuente

2

Esta situación a menudo se denomina error de clasificación errónea. Este artículo te puede ayudar a estimar correctamente . EDITAR: encontré documentos de aspecto relevante usando http://www.google.com/search?q=misclassification+of+dependent+variable+logistic . $\beta$

— GaBorgulya
fuente

1

Según el resumen, este artículo parece tratar con una "covariable binaria propensa a errores": es decir, solo con variables independientes mal clasificadas .

— whuber

1

En realidad, el resumen trata de ambos: "Para la clasificación errónea de resultados, argumentamos que un análisis basado en la probabilidad es el enfoque más limpio y preferible. En el caso de clasificación errónea covariable, combinamos [....]

— rolando2

2

Puede estimar un modelo paramétrico del error usando MLE, o puede usar un enfoque semiparamétrico basado en algo como el estimador de correlación de rango máximo (MRC). Computacionalmente, MRC es prohibitivo para muestras grandes, por lo que parece que MLE es el enfoque correcto para mí.

Gracias a GaBorgulya por una buena dirección rápida, especialmente en el término "error de clasificación errónea".

Aquí hay algunas buenas fuentes sobre el tema:

El modelo básico, exactamente como se describe en el problema original.

Versión no unida de la misma

Un buen resumen

— Abe
fuente