¿Se pueden agregar estos datos en una proporción para una película binomial?

Le pedimos a 60 personas que enumeraran todas las franquicias de restaurantes en Atlanta que pudieran. La lista general incluía más de 70 restaurantes, pero eliminamos los que fueron mencionados por menos del 10% de las personas, dejándonos con 45. Para estos 45, calculamos la proporción de informantes que enumeraron la franquicia, y estamos interesados en modelando esta proporción en función del presupuesto publicitario de las franquicias (transformado logarítmicamente) y años desde que se convirtió en franquicia.

Entonces escribí este código:

model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)

Como se predijo, ambas variables exhiben efectos fuertes y significativos.

Pero aunque sé que los datos proporcionales nunca deberían modelarse con la regresión OLS, posteriormente escribí este código:

model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)

En este caso, el "presupuesto" sigue siendo un predictor significativo, pero los "años" son relativamente débiles y no significativos.

Me preocupa que la agregación infle artificialmente la confianza en las estimaciones. ¿El glom binomial no vectoriza esencialmente los datos de modo que el modelo se base en 45 * 55 = 2,475 filas? ¿Es apropiado dado que en realidad solo hay 45 restaurantes y 55 informantes? ¿Esto requeriría un modelado de efectos mixtos?

r generalized-linear-model

— Jeremy _
fuente

pista: mira lo que sucede confamily=quasibinomial

— Ben Bolker

Interesante. Los coeficientes estimados son los mismos, pero los errores estándar son más conservadores (y los años no son significativos en el modelo cuasibinomial). Estoy buscando los archivos de ayuda para cuasibinomial, pero ¿puedes explicar qué está pasando? Mi impresión ha sido que el cuasibinomio se usa principalmente para la sobredispersión. . .

— Jeremy _

Exactamente. Hay una variedad de diferencias entre lmy glm(...,family=binomial), pero una de las más importantes es que un GLM binomial hace fuertes suposiciones sobre la varianza. Si los datos no se dispersan en exceso, la agregación / desagregación no hace ninguna diferencia.

— Ben Bolker

La salida R muestra que el parámetro de dispersión se toma como 8.7. Estoy tratando de entender qué dice esto sobre la sobredispersión. Mientras tanto, Ben, veo que tienes bastante experiencia con modelos mixtos. ¿Estoy seguro de usar una película binomial sin efectos mixtos para el informante o la franquicia (en cuyo caso presumiblemente tendría que vectorizar todos los datos al agregar una columna para "Identificación del informante")?

— Jeremy _

$Y=c X_1^{k1}X_2^{k2}...X_n^{kn}$ $\ln(Y)=\ln(c)+k1 \ln(X_1)+k2 \ln(X_2)...+kn \ln(X_n)$ $R^2$

Ahora, si la línea de regresión inalterada (idealmente una regresión bivariada, por ejemplo, una regresión de Deming) no pasa plausiblemente a través de {0,0}, entonces se vuelve un poco más complicado, y uno minimiza una función de pérdida proporcional de compensación en lugar de usar el mínimo ordinario cuadrícula.

— Carl
fuente