Recientemente, he estado interesado en implementar un modelo de regresión beta, para un resultado que es una proporción. Tenga en cuenta que este resultado no encajaría en un contexto binomial, porque no existe un concepto significativo de un "éxito" discreto en este contexto. De hecho, el resultado es en realidad una proporción de duraciones; el numerador es el número de segundos mientras una determinada condición está activa durante el número total de segundos durante los cuales la condición era elegible para estar activa. Pido disculpas por los caprichos, pero no quiero centrarme demasiado en este contexto preciso, porque me doy cuenta de que hay una variedad de formas en que tal proceso podría modelarse además de la regresión beta, y por ahora estoy más interesado específicamente en la teoría preguntas que han surgido en mis intentos de implementar dicho modelo (aunque, por supuesto, estoy
En cualquier caso, todos los recursos que he podido encontrar han indicado que la regresión beta generalmente se ajusta usando un enlace logit (o probit / cloglog), y los parámetros interpretados como cambios en las probabilidades de registro. Sin embargo, todavía tengo que encontrar una referencia que realmente proporcione una justificación real de por qué uno querría usar este enlace.
El documento original de Ferrari y Cribari-Neto (2004) no proporciona una justificación; solo notan que la función logit es "particularmente útil", debido a la interpretación de la razón de posibilidades de los parámetros exponenciados. Otras fuentes aluden al deseo de mapear desde el intervalo (0,1) hasta la línea real. Sin embargo, ¿necesitamos necesariamente una función de enlace para dicha asignación, dado que ya estamos asumiendo una distribución beta? ¿Qué beneficios ofrece la función de enlace más allá de las restricciones impuestas al asumir la distribución beta para empezar?He realizado un par de simulaciones rápidas y no he visto predicciones fuera del intervalo (0,1) con un enlace de identidad, incluso cuando simulo a partir de distribuciones beta cuya masa de probabilidad se agrupa en gran medida cerca de 0 o 1, pero quizás mis simulaciones no han sido lo suficientemente generales como para detectar algunas de las patologías.
Me parece, según la forma en que los individuos, en la práctica, interpretan las estimaciones de los parámetros de los modelos de regresión beta (es decir, como odds ratios) que están haciendo inferencia implícita con respecto a las probabilidades de un "éxito"; es decir, están utilizando la regresión beta como sustituto de un modelo binomial. Quizás esto sea apropiado en algunos contextos, dada la relación entre las distribuciones beta y binomial, pero me parece que este debería ser un caso más especial que el general. En esta pregunta, se proporciona una respuesta para interpretar la razón de posibilidades con respecto a la proporción continua en lugar del resultado, pero me parece innecesariamente engorroso tratar de interpretar las cosas de esta manera, en lugar de usar, por ejemplo, un registro o enlace de identidad e interpretación de% de cambios o cambios de unidad.
Entonces, ¿por qué usamos el enlace logit para los modelos de regresión beta? ¿Es simplemente una cuestión de conveniencia relacionarlo con los modelos binomiales?