¿Cómo manejo variables predictoras de diferentes distribuciones en regresión logística?

8

Estoy usando regresión logística para predecir y dado x1 y x2:

z = B0 + B1 * x1 + B2 * x2
y = e^z / (e^z + 1)

¿Cómo se supone que la regresión logística maneja los casos en que mis variables tienen escalas muy diferentes? ¿Alguna vez las personas construyen modelos de regresión logística con coeficientes de orden superior para las variables? Me estoy imaginando algo como esto (para dos variables):

z = B0 + B1 * x1 + B2 * x1^2 + B3 * x2 + B4 * x2^2

Alternativamente, ¿es la respuesta correcta simplemente normalizar, estandarizar o reescalar los valores x1 y x2 antes de usar la regresión logística?

— James Thompson
fuente

6

Por supuesto, puede normalizar sus parámetros, esto también aumentaría la velocidad del algoritmo de aprendizaje.

Para tener comparables $\beta$ al final de la ejecución del algoritmo debe, para cada característica $x_i$ , calcule su media $\mu_i$ y su alcance $r_i = \max_i - \min_i$ . Luego, cambia cada valor de , es decir, el valor de la característica para un registro , con: Ahora tus valores de se encuentran en el intervalo [- 1,1], para que pueda comparar su con más confianza y, por lo tanto, su odds ratio. Esto también acorta el tiempo para encontrar el mejor conjunto de si está utilizando el descenso de gradiente. Solo recuerde normalizar sus funciones si desea predecir la clase de un nuevo registro . $r[x_i]$ $x_i$ $r$

\frac{r [X_{yo}] - μ_{yo}}{r_{yo}}

$\frac{r[x_i] - \mu_i}{r_i}$

r [x_{i}]

$r[x_i]$

β

$\beta$

β

$\beta$

r^{'}

$r'$

También puede agregar características de orden superior, pero esto conduce a un sobreajuste. Por lo general, siempre que agregue más parámetros es mejor agregar regularización, que trate de evitar el sobreajuste disminuyendo la magnitud de su . Esto se obtiene agregando este término a la función de costo de regresión logística donde sintoniza el poder de la regularización. $\beta$

λ \sum_{yo = 0 0}^{norte} β_{yo}^{2}

$\lambda\sum_{i=0}^{n}\beta_i^2$

λ

$\lambda$

Sugeriría echar un vistazo a las clases de Stanford sobre aprendizaje automático aquí: http://www.ml-class.org/course/video/preview_list , Unit 6 and 7.

— Simone
fuente

sólo para aclarar, cuando se dice para normalizar un nuevo registro R', se utiliza edad y derivada de los datos originales, correcto? Gracias

m u_{i}

$mu_i$

r_{i}

$r_i$

— FMZ

Sí lo es. Debe usar y calculados en el conjunto de entrenamiento para normalizar los valores de un nuevo registro. PD: también puede usar la desviación estándar de su función lugar de .

μ_{i}

$\mu_i$

r_{i}

$r_i$

x_{i}

$x_i$

r_{i}

$r_i$

— Simone

6

@Simone hace algunos buenos puntos, así que solo agregaré un par de cositas complementarias. Aunque la normalización puede ayudar con cosas como la velocidad, la regresión logística no hace suposiciones sobre las distribuciones de las variables predictoras. Por lo tanto, no tiene que normalizarse. En segundo lugar, si bien agregar un término al cuadrado puede conducir a un sobreajuste (y debe ser cauteloso al respecto) es permisible. Lo que eso significaría es que la probabilidad de éxito es mayor en el medio del rango de un predictor que en los extremos (o viceversa).

— gung - Restablece a Monica
fuente

4

En teoría, la escala de sus entradas es irrelevante para la regresión logística. Puede "teóricamente" multiplicar por y la estimación de se ajustará en consecuencia. Será veces más pequeño que el original , debido a la propiedad de invariancia de los MLE. $X_1$ $10^{10^{10^{10}}}$ $\beta_1$ $10^{-10^{10^{10}}}$ $\beta_1$

Pero intente hacer que R haga la regresión ajustada anterior: se asustará (ni siquiera podrá construir la matriz X).

Esto es un poco como el algoritmo de descomposición cholesky para calcular una raíz cuadrada de matriz. Sí, en matemáticas exactas , la descomposición cholesky nunca implica tomar la raíz cuadrada de un número negativo, sino redondear los errores, y la aritmética de coma flotante puede conducir a tales casos.

Puede tomar cualquier combinación lineal de sus variables X, y los valores pronosticados serán los mismos.

Si tomamos el consejo de @ simone y utilizamos las variables X reescaladas para ajustar el modelo . Pero podemos usar la propiedad de invariancia de MLE para obtener la beta que queremos, después de usar variables de entrada X numéricamente estables. Puede ser que la beta en la escala original sea más fácil de interpretar que la beta en la transformada de @ simone. Entonces, tenemos el transformado ( th observación para la ésima variable), llámelo , definido por: $x_{ij}$ $i$ $j$ $\tilde{x}_{ij}$

{\tilde{X}}_{yo j} = {una}_{j} X_{yo j} + {si}_{j}

$\tilde{x}_{ij}=a_{j}x_{ij}+b_{j}$

La elección de @ simone corresponde a y (usando para denotar la estadística de orden de la variable , es decir ). El y pueden ser considerados como parámetros del algoritmo (elegidos para hacer el algoritmo más estable y / o correr más rápido). Luego ajustamos una regresión logística usando , y obtenemos estimaciones de parámetros . Así escribimos el predictor lineal: $a_{j}=\frac{1}{x_{[N]j}-x_{[1]j}}$ $b_j=\frac{\overline{x}_{j}}{x_{[N]j}-x_{[1]j}}$ $x_{[i]j}$ $i$ $j$ $x_{[N]j}\geq x_{[N-1]j}\geq\dots\geq x_{[1]j}$ $a_j$ $b_j$ $\tilde{x}_{ij}$ $\tilde{\beta}_j$

z_{yo} = {\tilde{β}}_{0 0} + \sum_{j} {\tilde{X}}_{yo j} {\tilde{β}}_{j}

$z_i = \tilde{\beta}_0 + \sum_j\tilde{x}_{ij}\tilde{\beta}_j$

Ahora sustituya la ecuación por y obtendrá: $\tilde{x}_{ij}$

z_{yo} = {\tilde{β}}_{0 0} + \sum_{j} ({una}_{j} X_{yo j} + {si}_{j}) {\tilde{β}}_{j} = β_{0 0} + \sum_{j} X_{yo j} β_{j}

$z_i = \tilde{\beta}_0 + \sum_j(a_{j}x_{ij}+b_{j})\tilde{\beta}_j=\beta_0+\sum_jx_{ij}\beta_j$ Donde

\begin{array}{cc} β_{0 0} = {\tilde{β}}_{0 0} + \sum_{j} {si}_{j} {\tilde{β}}_{j} & β_{j} = {una}_{j} {\tilde{β}}_{j} \end{array}

$\begin{array}{c c}\beta_0=\tilde{\beta}_0+\sum_jb_{j}\tilde{\beta}_j & \;\;\;\;\;\; & \beta_j=a_j\tilde{\beta}_j \end{array}$

Puede ver que, en teoría, los parámetros no hacen ninguna diferencia: cualquier elección (aparte de ) conducirá a la misma probabilidad, porque el predictor lineal no cambia. Incluso funciona para transformaciones lineales más complicadas, como la representación de la matriz X por sus componentes principales (que implica rotaciones). Entonces podemos volver a transformar los resultados para obtener las versiones beta que queremos para la interpretación. $a_j,b_j$ $a_j=0$

— probabilidadislogica
fuente

Buena prueba teórica. Sin normalización, los odds ratios tienen un significado realmente práctico. Sin embargo, a veces los profesionales usan esas razones de probabilidad para evaluar la importancia de esa característica, y de alguna manera es engañoso porque una característica puede ser significativa pero también puede variar en un rango amplio y, por lo tanto, tener una razón de probabilidad baja. Con la normalización son inmediatamente comparables incluso si pierden su significado práctico. Por supuesto, se debe realizar una prueba estadística para evaluar la importancia de una característica.

— Simone