1) ¿Existen supuestos particulares con respecto a los errores para la regresión logística, como la variación constante de los términos de error y la normalidad de los residuos?
Los modelos de regresión logística no tienen "errores" en el sentido tradicional. Es a la vez contraintuitivo y metodológicamente inconsistente. Los resultados del modelo son probabilidades o riesgos ajustados, mientras que los resultados observados son indicadores de eventos 0/1. Metodológicamente, tenderías a enfatizar los dominios de probabilidades ajustadas muy altas o muy bajas (contribuyendo cantidades muy pequeñas a la distancia residual), mientras que el algoritmo de ajuste del modelo otorga una importancia considerablemente mayor a tales regiones. La distancia al cuadrado es generalmente una forma pobre de calibrar un modelo de regresión logística.
Una prueba alternativa de bondad de ajuste es la prueba de Hosmer-Lemeshow en la que los valores ajustados se utilizan para crear particiones agrupadas basadas en deciles de riesgo ajustado. Puede leer sobre esta prueba en el Análisis de datos categóricos de Alan Agresti o en el libro Registic Logistic by Hosmer and Lemeshow. Otro proceso es usar los Residuos Studentizados donde la relación de varianza media se usa para revalorar los residuos por su varianza inversa ajustada . Para la regresión logística esto es
rs t u d= Y- μμ ( 1 - μ )-------√
2) También típicamente cuando tienes puntos que tienen una distancia de Cook mayor a 4 / n, ¿los eliminas? Si los elimina, ¿cómo puede saber si el modelo con los puntos eliminados es mejor?
Nunca elimino puntos basados en análisis de sensibilidad. Si hago una muestra aleatoria de 100 personas y sus ingresos y 1 persona es multimillonaria, entonces mi suposición más segura es que 1 multimillonario representa 1/100 de la población.