Uno transforma la variable dependiente para lograr simetría aproximada y homocedasticidad de los residuos . Las transformaciones de las variables independientes tienen un propósito diferente: después de todo, en esta regresión todos los valores independientes se toman como fijos, no aleatorios, por lo que la "normalidad" no es aplicable. El objetivo principal de estas transformaciones es lograr relaciones lineales con la variable dependiente (o, realmente, con su logit). (Este objetivo anula los auxiliares, como reducir el exceso de apalancamientoo lograr una interpretación simple de los coeficientes.) Estas relaciones son una propiedad de los datos y los fenómenos que los produjeron, por lo que necesita la flexibilidad para elegir expresiones apropiadas de cada una de las variables por separado de las demás. Específicamente, no solo no es un problema usar un registro, una raíz y un recíproco, es bastante común. El principio es que (generalmente) no hay nada especial sobre cómo se expresan originalmente los datos, por lo que debe dejar que los datos sugieran nuevas expresiones que conduzcan a modelos efectivos, precisos, útiles y (si es posible) justificados teóricamente.
Los histogramas, que reflejan las distribuciones univariadas, a menudo sugieren una transformación inicial, pero no son dispositivos. Acompáñalos con matrices de diagrama de dispersión para que puedas examinar las relaciones entre todas las variables.
Las transformaciones como donde es un "valor inicial" constante positivo pueden funcionar, y pueden indicarse incluso cuando ningún valor de es cero, pero a veces destruyen relaciones lineales. Cuando esto ocurre, una buena solución es crear dos variables. Uno de ellos es igual a cuando es distinto de cero y de lo contrario es cualquier cosa; Es conveniente dejarlo predeterminado en cero. El otro, llamémoslo , es un indicador de si es cero: es igual a 1 cuando y de lo contrario es 0. Estos términos aportan una sumalog(x+c)cxlog(x)xzxxx=0
βlog(x)+β0zx
a la estimación Cuando , el segundo término desaparece dejando solo . Cuando , " " se ha establecido en cero mientras , dejando solo el valor . Por lo tanto, estima el efecto cuando y, de lo contrario, es el coeficiente de .x>0zx=0βlog(x)x=0log(x)zx=1β0β0x=0βlog(x)