Me preguntaba exactamente la misma pregunta al analizar los últimos datos de la Encuesta de alta hospitalaria nacional . Varias variables tienen valores faltantes sustanciales, como el estado civil y el tipo de procedimiento. Este problema me llamó la atención porque estas categorías aparecieron con efectos fuertes (y significativos) en la mayoría de los análisis de regresión logística que estaba ejecutando.
Uno se pregunta por quéSe da un código faltante. En el caso del estado civil, por ejemplo, es plausible que el hecho de no proporcionar esta información pueda estar relacionado con factores importantes como el estado socioeconómico o el tipo de enfermedad. En su caso de presión arterial alta, debemos preguntarnos por qué no se conocería o rechazaría el valor. Esto podría estar relacionado con las prácticas en la institución (quizás reflejando procedimientos laxos) o incluso con los individuos (como las creencias religiosas). Esas características a su vez podrían estar asociadas con la diabetes. Por lo tanto, parece prudente continuar como lo ha hecho, en lugar de codificar estos valores como faltantes (excluyéndolos por completo del análisis) o intentar imputar los valores (que enmascaran efectivamente la información que proporcionan y podrían sesgar los resultados). Realmente ya no es más difícil de hacer: solo tiene que asegurarse de que esta variable se trate como categórica y obtendrá un coeficiente más en la salida de regresión. Además, sospecho que los conjuntos de datos BRFSS son lo suficientemente grandes como para que no tenga que preocuparse por el poder.