Comparación de modelos de regresión en datos de conteo

Recientemente ajusté 4 modelos de regresión múltiple para los mismos datos de predicción / respuesta. Dos de los modelos que calzo con regresión de Poisson.

model.pois <- glm(Response ~ P1 + P2 +...+ P5, family=poisson(), ...)
model.pois.inter <- glm(Response ~ (P1 + P2 +...+ P5)^2, family=poisson(), ...)

Dos de los modelos que calzo con regresión binomial negativa.

library(MASS)
model.nb <- glm.nb(Response ~ P1 + P2 +...+ P5, ...)
model.nb.inter <- glm.nb(Response ~ (P1 + P2 +...+ P5)^2, ...)

¿Hay alguna prueba estadística que pueda usar para comparar estos modelos? He estado usando el AIC como una medida del ajuste, pero AFAIK esto no representa una prueba real.

— Daniel Standage
fuente

Desea comparar el ajuste de los modelos utilizando una prueba estadística, ¿verdad? ¿Qué tipo de hipótesis te gustaría probar?

— Pluma de fuego

@Firefeather Por ejemplo, me gustaría probar si el ajuste de model.nb.interes significativamente mejor que el de model.pois.inter. Sí, el AIC es más bajo, pero ¿cuánto más bajo constituye significativamente mejor ?

— Daniel Standage

Nota: la respuesta a esta pregunta no necesita incluir el AIC.

— Daniel Standage

No sé la respuesta a esta pregunta, pero puedo comenzar. Sé que usted puede utilizar un prueba para comparar contra (y de manera similar comparar contra ), pero no puedo garantizar que las comparaciones entre un modelo de Poisson y un modelo binomial negativa funcionaría. Me pregunto si una prueba para comparar las variaciones de cada par sería confiable.

F

$F$ model.poismodel.pois.intermodel.nbmodel.nb.inter

F

$F$

— Pluma de fuego

@Firefeather, sí, soy consciente de la necesidad de controlar el nivel de confianza familiar. ¿Scheffe sería más apropiado aquí que, por ejemplo, Bonferroni?

— Daniel Standage

Respuestas:

Puede comparar el modelo binomial negativo con el modelo de Poisson correspondiente con una prueba de razón de probabilidad. Un modelo de Poisson es equivalente a un modelo binomial negativo con un parámetro de sobredispersión de cero. Por lo tanto, son modelos anidados y las razones de probabilidad son válidas. La complicación es que el parámetro de sobredispersión está restringido a ser no negativo, es decir, lógicamente no puede ser menor que cero, por lo que la hipótesis nula se encuentra en el límite del espacio del parámetro. Esto significa que en lugar de comparar el doble de la probabilidad logarítmica con una distribución de chi-cuadrado con un grado de libertad, debe compararlo con una distribución de mezcla que consta de partes iguales de un chi-cuadrado con 1 df y una masa de punto en cero (una distribución chi-cuadrado con cero grados de libertad). Lo que eso significa en la práctica es que puedes calcular el valor p usando el chi-cuadrado con 1 df y luego reducirlo a la mitad. Para más detalles y antecedentes, vea el Caso 5 deSelf & Liang JASA 1987; 82 : 605-610. .

Tenga en cuenta que algunos paquetes de software estadístico, como Stata, lo harán todo automáticamente cuando se ajuste a un modelo binomial negativo. De hecho, descaradamente descarto gran parte de lo anterior del sistema de ayuda de Stata, si Stata lo ve help j_chibar.

— una parada
fuente

Creo que anova()R puede usarse para esto. A pesar de su nombre, es una prueba de razón de probabilidad. Crawley en su The R Book tiene algunos ejemplos de uso.

— Roman Luštrik
fuente

Como notas principales, debido a que los modelos están anidados, puede realizar una prueba de razón de probabilidad.

En general, aunque eso no es cierto, por lo que si desea comparar modelos no anidados, puede usar la prueba de Vuong .

— Xodarap
fuente