¿Cuál es la diferencia entre la regresión beta y cuasi glm con varianza =

Primero déjame darte algunos antecedentes; Resumiré mis preguntas al final.

La distribución Beta, parametrizada por su media y $\mu$ $\phi$ , tiene $\operatorname{Var}(Y) = \operatorname{V}(\mu)/(\phi+1)$ , donde es la función de variación. $\operatorname{V}(\mu) = \mu(1-\mu)$

En una regresión beta (p. Ej., Usando el paquete betareg en R), la regresión asume errores distribuidos en beta y estima los efectos fijos y el valor de . $\phi$

En la regresión glm, es posible definir una distribución "cuasi" con una función de varianza de . Entonces, aquí el modelo asume errores con la misma función de varianza que Beta. La regresión luego estima los efectos fijos y la "dispersión" de la cuasi distribución. $\mu(1-\mu)$

Puede que me falte algo importante, pero parece que estos dos métodos son esencialmente idénticos, y que quizás solo difieran en su método de estimación.

Probé ambos métodos en R, retrocediendo en un DV llamado "Similitud", que está en el intervalo : $(0,1)$

Call:
betareg(formula = Similarity ~ N + NK + Step_ent, data = TapData, link = "logit")

Coefficients (mean model with logit link):
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.715175   0.067805  10.547   <2e-16 ***
N           -0.063806   0.003858 -16.537   <2e-16 ***
NK          -0.362716   0.015008 -24.168   <2e-16 ***
Step_ent    -0.696895   0.070233  -9.923   <2e-16 ***

Phi coefficients (precision model with identity link):
      Estimate Std. Error z value Pr(>|z|)    
(phi)  10.6201     0.2084   50.96   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Type of estimator: ML (maximum likelihood)
Log-likelihood:  3817 on 5 Df
Pseudo R-squared: 0.2633
Number of iterations: 18 (BFGS) + 1 (Fisher scoring) 


Call:
glm(formula = Similarity ~ N + NK + Step_ent, family = quasi(link = "logit", 
variance = "mu(1-mu)"), data = TapData)

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.777451   0.069809  11.137   <2e-16 ***
N           -0.069348   0.003983 -17.411   <2e-16 ***
NK          -0.364702   0.016232 -22.468   <2e-16 ***
Step_ent    -0.704680   0.072491  -9.721   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for quasi family taken to be 0.0838547)

    Null deviance: 566.25  on 4974  degrees of freedom
Residual deviance: 422.76  on 4971  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 4

Los coeficientes de los dos modelos son similares, al igual que sus errores estándar. El parámetro también es similar: supongo que el parámetro de dispersión (según lo informado por glm) y tienen la siguiente relación , en cuyo caso son 10.6201 y 10.9254, respectivamente . $\phi$ $\phi$ $\phi = 1/\text{Dispersion} - 1$

Sin embargo, ninguno de estos valores es idéntico.

¿Es esto porque lo único que realmente difiere en los dos métodos es su procedimiento de estimación? ¿O hay alguna diferencia más fundamental que me estoy perdiendo? Además, ¿hay alguna razón para preferir un método sobre el otro?

— Andrew Milne
fuente

Parece que redescubrió la regresión logística fraccional ...

— The Laconic

Tienes razón en que las funciones de media y varianza son de la misma forma.

Esto sugiere que en muestras muy grandes, siempre y cuando no tenga observaciones realmente cercanas a 1 o 0, deberían dar respuestas bastante similares porque en esa situación las observaciones tendrán pesos relativos similares.

Pero en muestras más pequeñas donde algunas de las proporciones continuas se acercan a los límites, las diferencias pueden aumentar porque los pesos relativos dados por los dos enfoques serán diferentes; Si los puntos que obtienen pesos diferentes también son relativamente influyentes (más extremos en el espacio x), las diferencias en algunos casos pueden volverse sustanciales.

En la regresión beta, estaría estimando a través de ML, y en el caso de un modelo cuasibinomial, al menos uno estimado en R, tenga en cuenta este comentario en la ayuda:

Las familias cuasibinomiales y cuasipoisson difieren de las familias binomial y poisson solo en que el parámetro de dispersión no está fijado en uno, por lo que pueden modelar la sobredispersión. Para el caso binomial ver McCullagh y Nelder (1989, pp. 124–8). Aunque muestran que existe (bajo algunas restricciones) un modelo con una varianza proporcional a la media como en el modelo cuasi-binomial, tenga en cuenta que glm no calcula las estimaciones de máxima verosimilitud en ese modelo. El comportamiento de S está más cerca de las cuasi variantes.

Creo que en betareg puedes obtener $h_{ii}$ valores, y también puede para GLM, por lo que en los dos modelos ajustados puede comparar una aproximación de la influencia relativa de cada observación (/ "peso") en su propio valor ajustado (ya que los otros componentes de la relación de influencias deberían cancelarse, o casi) Esto debería dar una idea rápida de qué observaciones son consideradas de manera más diferente por los dos enfoques. [Uno podría hacerlo más exactamente ajustando las observaciones una por una y viendo el cambio en el ajuste por unidad de cambio en el valor]

Tenga en cuenta que la viñeta betareg ofrece una discusión sobre la conexión entre estos modelos al final de la sección 2.

— Glen_b -Reinstate a Monica
fuente

Supongo que por "muestras" te refieres a observaciones de éxitos y fracasos? Mi "similitud" DV no es una proporción de éxitos; es la similitud del coseno o dos vectores de muy alta dimensión, y está limitada entre 0 y 1 sin posibilidad de un valor de 0 o 1. La distribución beta parece una opción razonable para tales datos. La razón por la que estoy interesado en transferir a glm es porque también deseo agregar un efecto aleatorio, que no es posible en betareg. Estoy tratando de determinar si, en un escenario como el mío, cuasi con mu (1-mu) es esencialmente lo mismo.

— Andrew Milne

Me refiero a la muestra en el sentido estadístico ordinario , pero definitivamente no me refiero a una muestra de recuentos. Me refiero a una muestra de valores continuos entre 0 y 1 (que generalmente son proporciones para la regresión beta). Si hablara de modelar las proporciones de conteo, no estaría hablando de problemas con estar "cerca de" 0 o 1, estaría hablando de los problemas más grandes de estar exactamente en 0 y 1.

— Glen_b -Reinstalar Monica

Gracias por la aclaración. Probablemente me falta algo obvio, pero no me queda claro por qué el tamaño de la muestra (en el sentido tradicional que quiere decir) es relevante aquí, o por qué los valores cercanos a 0 o 1 se tratarían de manera diferente en el enfoque beta versus pseudo glm. ¿Puedes exponer un poco?

— Andrew Milne

@Andrew Con el aumento de los tamaños de muestra, las probabilidades de registro se vuelven más cuadráticas cerca del máximo / las estimaciones para estos modelos se vuelven más cercanas al gaussiano multivariado, y en ese caso, los momentos de segundo orden tienden a determinar el comportamiento. Por eso con grandes

n

$n$ deberían tender a dar las mismas respuestas. Sin embargo, las funciones que se optimizan realmente difieren en el tamaño de muestra finito, con diferencias relativas que se vuelven más importantes en los extremos. Como resultado, si obtiene observaciones realmente cercanas a 0 o 1, puede hacer una diferencia en las estimaciones, particularmente si

n

$n$ No es tan grande.

— Glen_b -Reinstale a Monica el