Le pedimos a 60 personas que enumeraran todas las franquicias de restaurantes en Atlanta que pudieran. La lista general incluía más de 70 restaurantes, pero eliminamos los que fueron mencionados por menos del 10% de las personas, dejándonos con 45. Para estos 45, calculamos la proporción de informantes que enumeraron la franquicia, y estamos interesados en modelando esta proporción en función del presupuesto publicitario de las franquicias (transformado logarítmicamente) y años desde que se convirtió en franquicia.
Entonces escribí este código:
model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)
Como se predijo, ambas variables exhiben efectos fuertes y significativos.
Pero aunque sé que los datos proporcionales nunca deberían modelarse con la regresión OLS, posteriormente escribí este código:
model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)
En este caso, el "presupuesto" sigue siendo un predictor significativo, pero los "años" son relativamente débiles y no significativos.
Me preocupa que la agregación infle artificialmente la confianza en las estimaciones. ¿El glom binomial no vectoriza esencialmente los datos de modo que el modelo se base en 45 * 55 = 2,475 filas? ¿Es apropiado dado que en realidad solo hay 45 restaurantes y 55 informantes? ¿Esto requeriría un modelado de efectos mixtos?
lm
y glm(...,family=binomial)
, pero una de las más importantes es que un GLM binomial hace fuertes suposiciones sobre la varianza. Si los datos no se dispersan en exceso, la agregación / desagregación no hace ninguna diferencia.
family=quasibinomial