En teoría, la escala de sus entradas es irrelevante para la regresión logística. Puede "teóricamente" multiplicar por y la estimación de se ajustará en consecuencia. Será veces más pequeño que el original , debido a la propiedad de invariancia de los MLE.X110101010β110-101010β1
Pero intente hacer que R haga la regresión ajustada anterior: se asustará (ni siquiera podrá construir la matriz X).
Esto es un poco como el algoritmo de descomposición cholesky para calcular una raíz cuadrada de matriz. Sí, en matemáticas exactas , la descomposición cholesky nunca implica tomar la raíz cuadrada de un número negativo, sino redondear los errores, y la aritmética de coma flotante puede conducir a tales casos.
Puede tomar cualquier combinación lineal de sus variables X, y los valores pronosticados serán los mismos.
Si tomamos el consejo de @ simone y utilizamos las variables X reescaladas para ajustar el modelo . Pero podemos usar la propiedad de invariancia de MLE para obtener la beta que queremos, después de usar variables de entrada X numéricamente estables. Puede ser que la beta en la escala original sea más fácil de interpretar que la beta en la transformada de @ simone. Entonces, tenemos el transformado ( th observación para la ésima variable), llámelo , definido por:Xyo jyojX~yo j
X~yo j=unajXyo j+sij
La elección de @ simone corresponde a y (usando para denotar la estadística de orden de la variable , es decir ). El y pueden ser considerados como parámetros del algoritmo (elegidos para hacer el algoritmo más estable y / o correr más rápido). Luego ajustamos una regresión logística usando , y obtenemos estimaciones de parámetros . Así escribimos el predictor lineal:unaj=1X[ N] j-X[ 1 ] jsij=X¯¯¯jX[ N] j-X[ 1 ] jX[ i ] jyojX[ N] j≥X[ N- 1 ] j≥ ⋯ ≥X[ 1 ] junajsijX~yo jβ~j
zyo=β~0 0+∑jX~yo jβ~j
Ahora sustituya la ecuación por y obtendrá:X~yo j
zyo=β~0 0+∑j(unajXyo j+sij)β~j=β0 0+∑jXyo jβj
Donde
β0 0=β~0 0+∑jsijβ~jβj=unajβ~j
Puede ver que, en teoría, los parámetros no hacen ninguna diferencia: cualquier elección (aparte de ) conducirá a la misma probabilidad, porque el predictor lineal no cambia. Incluso funciona para transformaciones lineales más complicadas, como la representación de la matriz X por sus componentes principales (que implica rotaciones). Entonces podemos volver a transformar los resultados para obtener las versiones beta que queremos para la interpretación.unaj,sijunaj= 0