¿Los coeficientes de regresión logística tienen sentido?

14

Tengo un problema de clasificación binaria de varias características. ¿Los coeficientes de una regresión logística (regularizada) tienen un significado interpretable?

Pensé que podrían indicar el tamaño de la influencia, dado que las características se normalizan de antemano. Sin embargo, en mi problema, los coeficientes parecen depender sensiblemente de las características que selecciono. Incluso el signo de los coeficientes cambia con diferentes conjuntos de características elegidos como entrada.

¿Tiene sentido examinar el valor de los coeficientes y cuál es la forma correcta de encontrar los coeficientes más significativos y expresar su significado en palabras ? ¿Algunos modelos ajustados y su signo de los coeficientes son incorrectos, incluso cuando se ajustan a los datos?

(La correlación más alta que tengo entre las características es de solo 0.25, pero ¿eso ciertamente juega un papel?)

logistic regression-coefficients

— Gerenuk
fuente

¿Podría aclarar qué quiere decir con regularizado? ¿Tiene un término de penalización L2 y, de ser así, ha buscado el factor óptimo, por ejemplo, mediante validación cruzada?

— seanv507

Sí, permito los términos de penalización L2 en los coeficientes. Busqué el factor de regularización óptimo, pero todavía no he usado la selección de funciones (como la selección hacia adelante). Sin embargo, me hace sentir inseguro al respecto, ya que los coeficientes dependen tan sensiblemente de la elección de las características que incluyo. Suponiendo que cada característica tiene un efecto positivo o negativo de la clase positiva, ¿cómo puedo determinar su fuerza y dirección?

— Gerenuk

14

Los coeficientes de la salida tienen un significado, aunque no es muy intuitivo para la mayoría de las personas y ciertamente no para mí. Es por eso que la gente los cambia a odds ratios. Sin embargo, el logaritmo de la razón de posibilidades es el coeficiente; de manera equivalente, los coeficientes exponenciados son las razones de posibilidades.

Los coeficientes son más útiles para conectarse a fórmulas que dan probabilidades pronosticadas de estar en cada nivel de la variable dependiente.

por ejemplo en R

library("MASS")
data(menarche)
glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age,
                family=binomial(logit), data=menarche)

summary(glm.out)

El parámetro estimado para la edad es 1.64. ¿Qué significa esto? Bueno, si lo combina con la estimación del parámetro para la intercepción (-21.24) puede obtener una fórmula que predice la probabilidad de menarca:

$P(M) = \frac{1}{1 + e^{21.24 - 1.64*age}}$

$e^{1.64} = 5.16$

— Peter Flom - Restablece a Monica
fuente

4

Interpretar directamente los coeficientes es difícil y puede ser engañoso. No tiene garantías sobre cómo se asignan los pesos entre las variables.

Ejemplo rápido, similar a la situación que describe: he trabajado en un modelo de interacción de los usuarios con un sitio web. Ese modelo incluía dos variables que representan el número de "clics" durante la primera hora y durante la segunda hora de una sesión de usuario. Estas variables están altamente correlacionadas entre sí. Si ambos coeficientes para esas variables fueran positivos, podríamos engañarnos fácilmente y creer que quizás un coeficiente más alto indica una importancia "más alta". Sin embargo, al agregar / eliminar otrovariables podríamos terminar fácilmente con un modelo donde la primera variable tenía signo positivo y la otra negativa. El razonamiento al que llegamos fue que, dado que había algunas correlaciones significativas (aunque bajas) entre la mayoría de los pares de variables disponibles, no podríamos tener una conclusión segura sobre la importancia de las variables que usan los coeficientes (feliz de aprender de la comunidad si Esta interpretación es correcta).

Si desea obtener un modelo en el que sea más fácil de interpretar, una idea sería usar Lasso (minimización de la norma L1). Eso conduce a soluciones dispersas donde las variables están menos correlacionadas entre sí. Sin embargo, ese enfoque no elegiría fácilmente ambas variables del ejemplo anterior: una sería cero.

Si solo desea evaluar la importancia de variables específicas, o conjuntos de variables, recomendaría usar directamente algún enfoque de selección de características. Tales enfoques conducen a percepciones mucho más significativas e incluso clasificaciones globales de la importancia de las variables basadas en algún criterio.

— iliasfl
fuente

0

Los coeficientes sin duda tienen un significado. En algunos paquetes de software, el modelo puede ser dirigido de dos maneras para producir cualquiera de los dos tipos de coeficientes. Por ejemplo, en Stata, uno puede usar el comando Logístico o el comando logit; al usar uno, el modelo da coeficientes tradicionales, mientras que al usar el otro, el modelo da razones de probabilidades.

Puede descubrir que uno es mucho más significativo para usted que el otro.

Sobre su pregunta de que "... los coeficientes parecen depender de la sensibilidad ...".

¿Estás diciendo que los resultados dependen de qué variables colocas en el modelo?

Si es así, sí, este es un hecho de la vida al hacer un análisis de regresión. La razón de esto es que el análisis de regresión está mirando un montón de números y haciéndolos de manera automatizada.

Los resultados dependen de cómo se relacionan las variables entre sí y de qué variables no se miden. Es tanto un arte como una ciencia.

Además, si el modelo tiene demasiados predictores en comparación con el tamaño de la muestra, los signos pueden dar la vuelta de una manera loca. Creo que esto está diciendo que el modelo está usando variables que tienen un pequeño efecto para "ajustar" sus estimaciones de esos que tienen un gran efecto (como una perilla de volumen pequeño para hacer calibraciones pequeñas). Cuando esto sucede, tiendo a no confiar en las variables con pequeños efectos.

Por otro lado, puede ser que los signos cambien inicialmente, cuando agrega nuevos predictores, porque se está acercando a la verdad causal.

Por ejemplo, imaginemos que el Brandy de Groenlandia podría ser malo para la salud, pero los ingresos son buenos para la salud. Si se omiten los ingresos, y más personas ricas beben Brandy, entonces el modelo puede "captar" la influencia de ingresos omitidos y "decir" que el alcohol es bueno para su salud.

No lo dudes, es un hecho de la vida que los coeficientes dependen de las otras variables que se incluyen. Para obtener más información, busque "sesgo variable omitido" y "relación espuria". Si no ha encontrado estas ideas antes, intente encontrar una introducción a los cursos de estadística que satisfagan sus necesidades; esto puede hacer una gran diferencia al hacer los modelos.

— usuario163367
fuente