Primero déjame darte algunos antecedentes; Resumiré mis preguntas al final.
La distribución Beta, parametrizada por su media y, tiene , donde es la función de variación.
En una regresión beta (p. Ej., Usando el paquete betareg en R), la regresión asume errores distribuidos en beta y estima los efectos fijos y el valor de .
En la regresión glm, es posible definir una distribución "cuasi" con una función de varianza de . Entonces, aquí el modelo asume errores con la misma función de varianza que Beta. La regresión luego estima los efectos fijos y la "dispersión" de la cuasi distribución.
Puede que me falte algo importante, pero parece que estos dos métodos son esencialmente idénticos, y que quizás solo difieran en su método de estimación.
Probé ambos métodos en R, retrocediendo en un DV llamado "Similitud", que está en el intervalo :
Call:
betareg(formula = Similarity ~ N + NK + Step_ent, data = TapData, link = "logit")
Coefficients (mean model with logit link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.715175 0.067805 10.547 <2e-16 ***
N -0.063806 0.003858 -16.537 <2e-16 ***
NK -0.362716 0.015008 -24.168 <2e-16 ***
Step_ent -0.696895 0.070233 -9.923 <2e-16 ***
Phi coefficients (precision model with identity link):
Estimate Std. Error z value Pr(>|z|)
(phi) 10.6201 0.2084 50.96 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Type of estimator: ML (maximum likelihood)
Log-likelihood: 3817 on 5 Df
Pseudo R-squared: 0.2633
Number of iterations: 18 (BFGS) + 1 (Fisher scoring)
Call:
glm(formula = Similarity ~ N + NK + Step_ent, family = quasi(link = "logit",
variance = "mu(1-mu)"), data = TapData)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.777451 0.069809 11.137 <2e-16 ***
N -0.069348 0.003983 -17.411 <2e-16 ***
NK -0.364702 0.016232 -22.468 <2e-16 ***
Step_ent -0.704680 0.072491 -9.721 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for quasi family taken to be 0.0838547)
Null deviance: 566.25 on 4974 degrees of freedom
Residual deviance: 422.76 on 4971 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 4
Los coeficientes de los dos modelos son similares, al igual que sus errores estándar. El parámetro también es similar: supongo que el parámetro de dispersión (según lo informado por glm) y tienen la siguiente relación , en cuyo caso son 10.6201 y 10.9254, respectivamente .
Sin embargo, ninguno de estos valores es idéntico.
¿Es esto porque lo único que realmente difiere en los dos métodos es su procedimiento de estimación? ¿O hay alguna diferencia más fundamental que me estoy perdiendo? Además, ¿hay alguna razón para preferir un método sobre el otro?