¿Cuándo difieren los coeficientes estimados por regresión logística y logit-lineal?

Cuando se modelan proporciones continuas (p. Ej., Cobertura vegetal proporcional en los cuadrantes de la encuesta, o proporción de tiempo dedicado a una actividad), la regresión logística se considera inapropiada (p. Ej., Warton y Hui (2011). El arcoseno es estúpido: el análisis de proporciones en ecología ). Más bien, la regresión OLS después de la transformación logarítmica de las proporciones, o tal vez la regresión beta, son más apropiadas.

¿En qué condiciones difieren las estimaciones de coeficientes de regresión logit-lineal y regresión logística cuando se usan R lmy glm?

Tome el siguiente conjunto de datos simulados, donde podemos suponer que pson nuestros datos sin procesar (es decir, proporciones continuas, en lugar de representar ): ${n_{successes}\over n_{trials}}$

set.seed(1)
x <- rnorm(1000)
a <- runif(1)
b <- runif(1)
logit.p <- a + b*x + rnorm(1000, 0, 0.2)
p <- plogis(logit.p)

plot(p ~ x, ylim=c(0, 1))

ingrese la descripción de la imagen aquí

Al ajustar un modelo logit-lineal, obtenemos:

summary(lm(logit.p ~ x))
## 
## Call:
## lm(formula = logit.p ~ x)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.64702 -0.13747 -0.00345  0.15077  0.73148 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.868148   0.006579   131.9   <2e-16 ***
## x           0.967129   0.006360   152.1   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## 
## Residual standard error: 0.208 on 998 degrees of freedom
## Multiple R-squared:  0.9586, Adjusted R-squared:  0.9586 
## F-statistic: 2.312e+04 on 1 and 998 DF,  p-value: < 2.2e-16

Rendimiento de regresión logística:

summary(glm(p ~ x, family=binomial))
## 
## Call:
## glm(formula = p ~ x, family = binomial)
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -0.32099  -0.05475   0.00066   0.05948   0.36307  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  0.86242    0.07684   11.22   <2e-16 ***
## x            0.96128    0.08395   11.45   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 176.1082  on 999  degrees of freedom
## Residual deviance:   7.9899  on 998  degrees of freedom
## AIC: 701.71
## 
## Number of Fisher Scoring iterations: 5
## 
## Warning message:
## In eval(expr, envir, enclos) : non-integer #successes in a binomial glm!

¿Las estimaciones del coeficiente de regresión logística siempre serán imparciales con respecto a las estimaciones del modelo logit-lineal?

r regression logistic

— jbaums
fuente

Tenga en cuenta una distinción teórica: con un modelo binomial aplicado a las proporciones, usted asume que los ensayos detrás de cada proporción son independientes, es decir, detrás de la proporción 0.1"hubo", digamos, 10 ensayos independientes que arrojaron un éxito. Para el modelo lineal, 0.1es simplemente un valor, una medida arbitraria.

— ttnphns

Tengo dudas acerca de hasta qué punto tiene sentido aplicar un modelo binomial a las proporciones en la forma en que lo hace el OP. Después de todo, family=binomialimplica que la variable dependiente representa conteos binomiales, no proporciones. ¿Y cómo glmsabría que 0.1es como "uno de diez" y no "diez de cien"? Si bien la proporción en sí misma no difiere, esto tiene implicaciones importantes sobre cómo se calcula el error estándar.

— Wolfgang

@Wolfgang: me doy cuenta (y menciono en mi publicación) que es inapropiado modelar proporciones continuas de este tipo con regresión logística. Me interesaba más si / cuándo / cómo difieren las estimaciones puntuales de los coeficientes.

— jbaums

@Wolfgang, tienes razón, pero depende de la implementación. Algunos programas permitirán ingresar proporciones como DV y 1s en lugar de las bases, mientras que el conjunto de datos está ponderado por las bases reales. Parece que analiza proporciones, no cuentas.

— ttnphns

@ttnphns De manera similar, en R uno puede ingresar proporciones como DV y proporcionar un vector que contenga números de ensayos para el weightsargumento (aunque esto no es lo que estaba intentando en mi publicación, donde he analizado los datos de manera incorrecta de manera intencional).

— jbaums

Respuestas:

Quizás esto pueda responderse de manera "inversa", es decir, ¿cuándo son iguales?

Ahora el algoritmo IRLS utilizado en la regresión logística proporciona una idea aquí. En la convergencia, puede expresar los coeficientes del modelo como:

{\hat{β}}_{l o g i s t i c} = {(X^{T} W X)}^{- 1} X^{T} W z

$\hat {\beta}_{logistic}=\left (X^TWX\right)^{-1} X^TWz$

$W$ $W_{ii}=n_ip_i (1-p_i)$ $z$ $z_i=x_i^T\hat {\beta}_{logistic} +\frac {y_i -n_ip_i}{n_ip_i (1-p_i)}$ $var (z_i -x_i^T\hat {\beta})=W_{ii}^{-1}$ $z$ $\beta$ $z$

$\log (y)-\log (n-y)$ $y (1-y/n)$ $y$ $n$ lm ()

— probabilidadislogica
fuente

Impresionante. ¿Podría mostrar su última oración por código R utilizando los datos simulados dados? ¡Gracias!

— JellicleCat

Por favor no dude en señalarlo si estoy equivocado.

Primero, tengo que decir que, en el segundo ajuste, ¡llamas glmde manera incorrecta! Para ajustar una regresión logística glm, la respuesta debe ser una variable categórica (binaria), pero usted usa puna variable numérica. Tengo que decir que warninges demasiado amable para que los usuarios sepan sus errores ...

Y, como es de esperar, obtienes estimaciones similares de coeficientes por los dos ajustes solo por COINCIDENCIA. Si reemplaza logit.p <- a + b*x + rnorm(1000, 0, 0.2)con logit.p <- a + b*x + rnorm(1000, 0, 0.7), es decir, cambiando la varianza del término de error de 0.2a 0.7, entonces los resultados de los dos ajustes serán muy diferentes, aunque el segundo ajuste ( glm) no tiene ningún sentido ...

La regresión logística se usa para la clasificación (binaria), por lo que debe tener una respuesta categórica, como se indicó anteriormente. Por ejemplo, las observaciones de la respuesta deben ser una serie de "éxito" o "fracaso", en lugar de una serie de "probabilidad (frecuencia)" como en sus datos. Para un conjunto de datos categóricos dado, puede calcular solo una frecuencia general para "respuesta = éxito" o "respuesta = fracaso", en lugar de una serie. En los datos que genera, no hay ninguna variable categórica, por lo que es imposible aplicar la regresión logística. Ahora puede ver que, aunque tienen una apariencia similar, la regresión logit-lineal (como la llama) es solo un problema de REGRESIÓN lineal ordinario (es decir, la respuesta es una variable numérica) que usa la respuesta transformada (al igual que la transformación sqr o sqrt),

Típicamente, la regresión lineal se ajusta a través de Mínimos Cuadrados Ordinarios (OLS), que minimiza la pérdida al cuadrado para el problema de regresión; La regresión logística se ajusta mediante la Estimación de máxima verosimilitud (MLE), que minimiza la pérdida logarítmica por problemas de clasificación. Aquí hay una referencia sobre las funciones de pérdida Función de pérdida, Deva Ramanan. En el primer ejemplo, considera pla respuesta y ajusta un modelo de regresión lineal ordinario a través de OLS; en el segundo ejemplo, dices Rque estás ajustando un modelo de regresión logística por family=binomial, así que Rajusta el modelo por MLE. Como puede ver, en el primer modelo, obtiene la prueba t y la prueba F, que son salidas clásicas de ajuste de OLS para regresión lineal. En el segundo modelo, la prueba de significancia del coeficiente se basa en zlugar det, que es el resultado clásico del ajuste MLE de regresión logística.

— JellicleCat
fuente

Buena pregunta (+1) y buena respuesta (+1). Aprendí algo nuevo.

— Aleksandr Blekh

Estoy de acuerdo Sin embargo, esto logistic regression is a CLASSIFICATION problempodría malinterpretarse en el sentido de que vale la pena siempre que pueda clasificarse bien. Lo cual sería un error pensar, porque un modelo "óptimo" teóricamente y por cómo modela las probabilidades a veces puede clasificarse peor que un modelo no tan bueno.

— ttnphns

@ttnphns ¡Gracias por tu comentario! Creo que es una convención llamarlo un problema de clasificación si la respuesta es categórica. Es importante si el modelo funciona bien o no, pero tal vez no afecte la denominación.

— JellicleCat

Gracias @JellicleCat: soy consciente de que los datos de proporción de este tipo no son adecuados para la regresión logística, pero tenía curiosidad sobre las circunstancias en las que las estimaciones de coeficientes serían diferentes de las de OLS con proporciones transformadas por logit. Gracias por su ejemplo: está claro que con una mayor varianza, las estimaciones de coeficientes divergen.

— jbaums