Estoy ejecutando una regresión logit binaria donde sé que la variable dependiente está mal codificada en un pequeño porcentaje de casos. Así que estoy tratando de estimar en este modelo:
Pero en lugar del vector , tengo , que incluye algunos errores aleatorios (es decir, , pero , o viceversa, para algunos ).
¿Existe una corrección (razonablemente) simple para este problema?
Sé que logit tiene algunas buenas propiedades en los estudios de casos y controles. Parece probable que algo similar se aplique aquí, pero no he podido encontrar una buena solución.
Algunas otras restricciones: esta es una aplicación de minería de texto, por lo que las dimensiones de son grandes (en miles o decenas de miles). Esto puede descartar algunos procedimientos computacionalmente intensivos.
Además, no me importa estimar correctamente , solo .