Tengo grandes datos de encuestas, una variable de resultado binaria y muchas variables explicativas, incluidas las binarias y las continuas. Estoy creando conjuntos de modelos (experimentando con GLM y GLM mixto) y utilizando enfoques teóricos de información para seleccionar el modelo superior. Examiné cuidadosamente las explicaciones (tanto continuas como categóricas) para las correlaciones y solo estoy usando las del mismo modelo que tienen un coeff de Pearson o Phicorr menor que 0.3. Me gustaría dar a todas mis variables continuas una oportunidad justa de competir por el modelo superior. En mi experiencia, la transformación de aquellos que lo necesitan en función de la asimetría mejora el modelo en el que participan (menor AIC).
Mi primera pregunta es: ¿es esta mejora porque la transformación mejora la linealidad con el logit? ¿O la corrección del sesgo mejora el equilibrio de las variables explicativas de alguna manera al hacer que los datos sean más simétricos? Ojalá entendiera las razones matemáticas detrás de esto, pero por ahora, si alguien pudiera explicar esto en términos fáciles, sería genial. Si tiene alguna referencia que pueda usar, realmente lo agradecería.
Muchos sitios de Internet dicen que debido a que la normalidad no es una suposición en la regresión logística binaria, no transforme las variables. Pero siento que al no transformar mis variables, dejo algunas en desventaja en comparación con otras y podría afectar el modelo superior y cambiar la inferencia (bueno, generalmente no lo hace, pero en algunos conjuntos de datos sí lo hace). Algunas de mis variables funcionan mejor cuando el registro se transforma, algunas cuando se ajustan al cuadrado (diferente dirección de sesgo) y algunas no se transforman.
¿Alguien podría darme una pauta sobre qué tener cuidado al transformar variables explicativas para la regresión logística y, si no es así, por qué no?