¿Por qué usar el enlace logit en la regresión beta?

14

Recientemente, he estado interesado en implementar un modelo de regresión beta, para un resultado que es una proporción. Tenga en cuenta que este resultado no encajaría en un contexto binomial, porque no existe un concepto significativo de un "éxito" discreto en este contexto. De hecho, el resultado es en realidad una proporción de duraciones; el numerador es el número de segundos mientras una determinada condición está activa durante el número total de segundos durante los cuales la condición era elegible para estar activa. Pido disculpas por los caprichos, pero no quiero centrarme demasiado en este contexto preciso, porque me doy cuenta de que hay una variedad de formas en que tal proceso podría modelarse además de la regresión beta, y por ahora estoy más interesado específicamente en la teoría preguntas que han surgido en mis intentos de implementar dicho modelo (aunque, por supuesto, estoy

En cualquier caso, todos los recursos que he podido encontrar han indicado que la regresión beta generalmente se ajusta usando un enlace logit (o probit / cloglog), y los parámetros interpretados como cambios en las probabilidades de registro. Sin embargo, todavía tengo que encontrar una referencia que realmente proporcione una justificación real de por qué uno querría usar este enlace.

El documento original de Ferrari y Cribari-Neto (2004) no proporciona una justificación; solo notan que la función logit es "particularmente útil", debido a la interpretación de la razón de posibilidades de los parámetros exponenciados. Otras fuentes aluden al deseo de mapear desde el intervalo (0,1) hasta la línea real. Sin embargo, ¿necesitamos necesariamente una función de enlace para dicha asignación, dado que ya estamos asumiendo una distribución beta? ¿Qué beneficios ofrece la función de enlace más allá de las restricciones impuestas al asumir la distribución beta para empezar?He realizado un par de simulaciones rápidas y no he visto predicciones fuera del intervalo (0,1) con un enlace de identidad, incluso cuando simulo a partir de distribuciones beta cuya masa de probabilidad se agrupa en gran medida cerca de 0 o 1, pero quizás mis simulaciones no han sido lo suficientemente generales como para detectar algunas de las patologías.

Me parece, según la forma en que los individuos, en la práctica, interpretan las estimaciones de los parámetros de los modelos de regresión beta (es decir, como odds ratios) que están haciendo inferencia implícita con respecto a las probabilidades de un "éxito"; es decir, están utilizando la regresión beta como sustituto de un modelo binomial. Quizás esto sea apropiado en algunos contextos, dada la relación entre las distribuciones beta y binomial, pero me parece que este debería ser un caso más especial que el general. En esta pregunta, se proporciona una respuesta para interpretar la razón de posibilidades con respecto a la proporción continua en lugar del resultado, pero me parece innecesariamente engorroso tratar de interpretar las cosas de esta manera, en lugar de usar, por ejemplo, un registro o enlace de identidad e interpretación de% de cambios o cambios de unidad.

Entonces, ¿por qué usamos el enlace logit para los modelos de regresión beta? ¿Es simplemente una cuestión de conveniencia relacionarlo con los modelos binomiales?

logit beta-regression

— Ryan Simmons
fuente

8

Justificación de la función de enlace: Una función de enlace asegura que todos los valores ajustados siempre están en . Esto puede no importar mucho en algunas aplicaciones, por ejemplo, porque las predicciones o solo evaluadas en la muestra o no están muy cerca de 0 o 1. Pero puede ser importante en algunas aplicaciones y normalmente no sabe de antemano si es importante o no. no. Los problemas típicos que he visto incluyen: evaluar predicciones de nuevos valores de que están (ligeramente) fuera del rango de la muestra de aprendizaje original o encontrar valores iniciales adecuados. Para esto último considere: $g(\mu): (0,1) \rightarrow \mathbb{R}$ $\hat \mu = g^{-1}(x^\top \hat \beta)$ $(0, 1)$ $x$

library("betareg")
data("GasolineYield", package = "betareg")
betareg(yield ~ batch + temp, data = GasolineYield, link = make.link("identity"))
## Error in optim(par = start, fn = loglikfun, gr = if (temporary_control$use_gradient) gradfun else NULL,  : 
##   initial value in 'vmmin' is not finite

Pero, por supuesto, uno simplemente puede probar ambas opciones y ver si ocurren problemas con el enlace de identidad y / o si mejora el ajuste del modelo.

Interpretación de los parámetros: estoy de acuerdo en que interpretar los parámetros en modelos con funciones de enlace es más difícil que en modelos con un enlace de identidad y los profesionales a menudo se equivocan. Sin embargo, a menudo también he visto interpretaciones erróneas de los parámetros en modelos de probabilidad lineal (regresiones binarias con enlace de identidad, típicamente por mínimos cuadrados). La suposición de que los efectos marginales son constantes no puede sostenerse si las predicciones se acercan lo suficiente a 0 o 1 y uno debería tener mucho cuidado. Por ejemplo, para una observación con un aumento en no puede conducir a una disminución de de, digamos, $\hat \mu = 0.01$ $x$ $\hat \mu$ $0.02$ . Pero esto a menudo se trata muy descuidadamente en esos escenarios. Por lo tanto, argumentaría que para un modelo de respuesta limitada, los parámetros de cualquier función de enlace deben interpretarse cuidadosamente y pueden necesitar algo de práctica. Por lo tanto, mi consejo habitual es (como se muestra en la otra discusión que vinculó en su pregunta) mirar los efectos de las configuraciones de regresor o de interés. Estos son más fáciles de interpretar y, a menudo (pero no siempre) bastante similares (desde una perspectiva práctica) para diferentes funciones de enlace.

— Achim Zeileis
fuente

10

Es incorrecto que la regresión logística solo se pueda usar para modelar datos de resultados binarios. El modelo de regresión logística es apropiado para cualquier dato donde 1) el valor esperado del resultado sigue una curva logística en función de los predictores 2) la varianza del resultado es el resultado esperado multiplicado por uno menos el resultado esperado (o alguna proporción del mismo) 3) (consecuencia de 2) los rangos de datos entre 0 y 1. Estas propiedades ciertamente son válidas para los datos de Bernoulli. Pero uno debe emprender algunas estadísticas exploratorias y tramas antes de desacreditar inmediatamente el modelo logístico como un medio viable (y fácil de implementar / explicar) para responder una pregunta científica.

Un modelo de regresión logística es un caso especial del modelo lineal generalizado (GLM), lo que significa que el modelo proporciona estimaciones de parámetros consistentes e inferencia. Los modelos logísticos se utilizan para modelar proporciones, variables ordinales, tasas, puntajes de exámenes, rangos y todo tipo de resultados no binarios en varios lugares de la literatura.

Lamento que esta respuesta no dirija su pregunta más adelante, pero al indicar el razonamiento anterior, surge una idea errónea que vale la pena abordar.

Muchos usuarios de R han sugerido que se debe suprimir la "advertencia" que surge de ajustar una respuesta continua con modelos logísticos. Un "medio de la carretera" forma es cambiar family=binomiala family=quasibinomial. Aquí se muestra un ejemplo de simulación de estos datos, ajuste de un modelo y obtención de la inferencia correcta:

set.seed(123)
## logistic non-binary response
x <- rep(c(-2, 0, 2), each=50)
n <- length(x)
b0 <- 0
b1 <- 0.3
yhat <- plogis(b0 + b1*x)

do.one <- function(){
  e <- rnorm(n, 0, yhat*(1-yhat))
  y <- yhat + e

  yfixed <- pmin(y, 1)
  yfixed <- pmax(yfixed, 0)

  est <- glm(yfixed ~ x, family=quasibinomial())
  ci <- confint.default(est, level = 0.9)
  cov0 <- b0 > ci[1,1] & b0 < ci[1,2]
  cov1 <- b1 > ci[2,1] & b1 < ci[2,2]
  c(cov0, cov1)
}

reg <- replicate(10000, do.one())
rowMeans(reg)

Proporciona una cobertura precisa del 90% de los CI

— AdamO
fuente

1

Agradezco la aclaración dada con respecto al modelo de regresión logística. Tiene razón en que es un modelo más general de lo que a menudo se supone. Sin embargo, dudo en aceptar esto como una respuesta, porque parece que no desarrolla suficientemente la línea de razonamiento. Me parece que está diciendo que mis preocupaciones sobre el enlace logit en un modelo beta son infundadas, porque un enlace logit funciona bien en datos no binarios. Es una postura razonable, pero creo que no llega a la esencia de mi pregunta sobre por qué usamos el logit en un modelo beta y cómo interpretarlo.

— Ryan Simmons

1

@ RyanSimmons Gracias por los comentarios. Estoy de acuerdo con tu razonamiento aquí. Creo que cualquier "oportunidad de aprender" justifica una respuesta y, por lo tanto, una pregunta puede tener muchas respuestas posibles con diversos grados de "corrección". No he tocado tu pregunta, que es buena, por lo que la respuesta "más correcta" puede aparecer todavía. Tengo curiosidad por esto, así que estoy tratando de leer un poco más sobre el tema.

— AdamO