Tengo una gran encuesta en la que se les preguntó a los estudiantes, entre otras cosas, el nivel de educación de su madre. Algunos lo omitieron y otros respondieron erróneamente. Lo sé porque allí se entrevistó a una submuestra de los encuestados iniciales de la madre y se les hizo la misma pregunta. (Estoy seguro de que también hay una cantidad menor de error asociada con las respuestas de las madres).
Mi desafío es decidir cómo aprovechar mejor esta segunda fuente de datos más confiable. Por lo menos, puedo usarlo para imputar datos faltantes de manera más inteligente de lo que podría hacerlo si solo pudiera confiar en casos completos. Pero si 3/4 de los niños cuyos datos puedo verificar, que responden "Mi madre nunca terminó la escuela primaria" están contradiciendo la respuesta de su madre, entonces parece que debería usar la imputación para crear múltiples conjuntos de datos para capturar la incertidumbre allí. [agregado: dije 3/4 para hacer un punto, pero ahora que he revisado los datos también podría decirte que más del 40% son discrepantes]
Personalmente, utilizaré la educación de la madre como predictor en un modelo mixto, pero si alguien tiene algo que decir sobre otras situaciones, también me encantaría conocerlas.
Me encantaría recibir consejos en grandes rasgos o en detalles. ¡Gracias!
Actualización : por ahora dejo la pregunta sin resolver, aunque aprecio las respuestas de Will y Conjugate_Prior, tengo la esperanza de recibir comentarios más específicos y técnicos.
El diagrama de dispersión a continuación le dará una idea de cómo se relacionan las dos variables en los 10,000 casos en que ambas existen. Están anidados, en más de 100 escuelas. Se correlacionan en 0.78, Respuesta del estudiante: media: 5.12 sd = 2.05, Respuesta de la madre, media = 5.02, sd = 1.92 Falta la respuesta del estudiante en aproximadamente el 15% de los casos.