Importancia de las variables en la regresión logística.

Probablemente estoy lidiando con un problema que probablemente se haya resuelto cientos de veces antes, pero no estoy seguro de dónde encontrar la respuesta.

Cuando mediante regresión logística, dadas muchas características tratando de predecir un valor categórico binario , estoy interesado en seleccionar un subconjunto de las características que predice bien. $x_1,...,x_n$ $y$ $y$

¿Existe un procedimiento similar al lazo que se pueda usar? (Solo he visto el lazo utilizado para la regresión lineal).

¿Observar los coeficientes del modelo ajustado es indicativo de la importancia de las diferentes características?

Editar - Aclaraciones después de ver algunas de las respuestas:

Cuando me refiero a la magnitud de los coeficientes ajustados, me refiero a aquellos que están ajustados a características normalizadas (media 0 y varianza 1). De lo contrario, como señaló @probabilityislogic, 1000x parecería menos importante que x.
No me interesa simplemente encontrar el mejor k-subconjunto (como estaba ofreciendo @Davide), sino más bien sopesar la importancia de las diferentes características entre sí. Por ejemplo, una característica podría ser "edad" y la otra característica "edad> 30". Su importancia incremental puede ser pequeña, pero ambas pueden ser importantes.

machine-learning logistic classification

— Guy Adini
fuente

Respuestas:

La respuesta de DWin ofrece la respuesta pero poca información, por lo que pensé que podría ser útil proporcionar alguna explicación.

$p=P(y_i=1|X=x_i)$

$log \frac{p}{1-p} = log \frac{P(y_i=1|X=x_i)}{P(y_i=0|X=x_i)}=\beta _0 + \beta _1 ^T x_i$

$j$ $p$ $\frac{\partial p}{\partial x_{ij}}$

Después de una pequeña transformación puedes ver que

$p=\frac{e^{\beta _0 + \beta _1 ^T x_i}}{1+e^{\beta _0 + \beta _1 ^T x_i}}$

Una vez que calcules tu derivada, verás que

$\frac{\partial p}{\partial x_{ij}} = \beta_j e^{\beta_0 + \beta _1 ^T x_i}$

Esto depende claramente del valor de todas las demás variables. Sin embargo, puede observar que el SIGNO del coeficiente se puede interpretar de la manera que desee: si es negativo, esta característica disminuye la probabilidad p.

$\beta$

$\hat{\beta^r} = \frac{\hat{\beta}}{\hat{\beta} + \lambda}$

Como puede ver, esto puede cambiar el signo de su coeficiente para que incluso esa interpretación se separe.

— marcin_j
fuente

error tipográfico en el denominador de eq1?

— Fernando

La respuesta a su última pregunta es un NO rotundo. La magnitud de los coeficientes de ninguna manera es una medida de importancia. El lazo puede usarse para la regresión logística. Necesitas estudiar el área más asiduamente. Los métodos que necesita estudiar son aquellos que involucran métodos "penalizados". Si está buscando métodos de detección que descubran predictores "sombreados", un término que puede definirse en algún lugar pero no es de uso general, entonces debe buscar métodos que inspeccionen las interacciones y la estructura no lineal dentro del espacio del predictor y el enlace de resultado a ese espacio. Hay bastante discusión sobre estos temas y métodos en el texto de Frank Harrell "Estrategias de modelado de regresión".

La estrategia de selección hacia atrás no podrá entregar resultados válidos (aunque sí arroja resultados). Si observa un caso de 20 predictores aleatorios para 100 eventos, probablemente encontrará 2 o 3 que se seleccionarán con un proceso de selección hacia atrás. La prevalencia de la selección hacia atrás en el mundo real no refleja un pensamiento estadístico cuidadoso, sino más bien su fácil disponibilidad en SAS y SPSS y la falta de sofisticación de la base de usuarios de esos productos. La base de usuarios R tiene más dificultades para acceder a dichos métodos y los usuarios que publican solicitudes en las listas de correo y, por lo tanto, generalmente reciben asesoramiento sobre los problemas relacionados con los métodos de selección hacia atrás (o hacia adelante).

— DWin
fuente

Sé que debería, agradecería mucho algunos consejos sobre dónde comenzar.

— Guy Adini

x_{n + 1} = 1000 x_{1}

$x_{n+1}=1000x_{1}$

x_{n + 1}

$x_{n+1}$

1000

$1000$

x_{1}

$x_{1}$

Por favor vea mis comentarios arriba (usando características normalizadas). Gracias.

— Guy Adini

Gracias. Lo investigaré. ¿Puede nombrar algunos algoritmos comunes que se utilizan en esta "inspección de interacciones y estructura no lineal dentro del espacio predictivo", o es una situación muy caso por caso?

— Guy Adini

Puede usar splines de regresión para buscar no linealidad y los términos de spline se pueden "cruzar", lo que permite la identificación de efectos que están restringidos a una región de un espacio de predicción 2D. También puede usar métodos de regresión local. En R, el método de regresión local más utilizado es probablemente el paquete 'mgcv', pero el paquete 'locfit' más antiguo todavía está disponible.

— DWin

-4

El inglés no es mi lengua materna, por lo que es posible que no haya entendido cuál es su problema, pero si necesita encontrar el mejor modelo, puede intentar usar un procedimiento hacia atrás (y eventualmente agregar interacciones), comenzando con un modelo con todas las covariables. Luego puede mirar los valores residuales_vs_predictados y los gráficos de qq-plot para verificar si el modelo describe bien su fenómeno

— Davide
fuente

¡Gracias! Creo que lo que estás sugiriendo es agregar gradualmente la característica más correlacionada. Tiene sentido, pero no me ayuda a entender "por cuánto" la característica A es más importante que la característica B. Por ejemplo, suponga que tengo una característica x, y otra característica x + <pequeño ruido>. Entonces, ambas son características realmente útiles, pero una está sombreada por la otra. Quiero un método que también muestre que x + <ruido> es importante.

— Guy Adini

No, un procedimiento hacia atrás comienza con un modelo con todas las covariables y luego elimina una covariable (cuyo coeficiente no es significativo) paso a paso (hasta que tenga un modelo con solo coeficientes significativos, por lo general). Supongo que hay formas más sofisticadas de lograr el mismo objetivo, ¡pero solo soy un estudiante de licenciatura!

— Davide