La regresión beta (es decir, GLM con distribución beta y generalmente la función de enlace logit) a menudo se recomienda para tratar la respuesta, también conocida como variable dependiente que toma valores entre 0 y 1, como fracciones, razones o probabilidades: regresión para un resultado (relación o fracción) entre 0 y 1 .
Sin embargo, siempre se afirma que la regresión beta no se puede usar tan pronto como la variable de respuesta sea igual a 0 o 1 al menos una vez. Si lo hace, uno necesita usar el modelo beta inflado cero / uno, o hacer alguna transformación de la respuesta, etc.: Regresión beta de los datos de proporción que incluyen 1 y 0 .
Mi pregunta es: ¿qué propiedad de la distribución beta evita que la regresión beta trate con 0s y 1s exactos, y por qué?
Supongo que es que y no son compatibles con la distribución beta. Pero para todos los parámetros de forma y , tanto cero como uno son compatibles con la distribución beta, es solo para parámetros de forma más pequeños que la distribución llega al infinito en uno o ambos lados. Y quizás los datos de la muestra sean tales que y proporcionen el mejor ajuste resultaría estar por encima de .
¿Significa que en algunos casos se podría utilizar la regresión beta incluso con ceros / unos?
Por supuesto, incluso cuando 0 y 1 son compatibles con la distribución beta, la probabilidad de observar exactamente 0 o 1 es cero. Pero también lo es la probabilidad de observar cualquier otro conjunto de valores contables, por lo que esto no puede ser un problema, ¿verdad? (Cf. este comentario de @Glen_b).
En el contexto de la regresión beta, la distribución beta se parametriza de manera diferente, pero con aún debería estar bien definida en para todo .