Por lo que he estado leyendo, entre otros en el sitio del grupo de consultoría de estadísticas de UCLA, las pruebas de razón de probabilidad y las pruebas de Wald son bastante similares para probar si dos modelos glm muestran una diferencia significativa en el ajuste para un conjunto de datos (disculpe si mi redacción podría estar un poco apagado). En esencia, puedo comparar dos modelos y probar si el segundo modelo muestra un ajuste significativamente mejor que el primero, o si no hay diferencia entre los modelos.
Por lo tanto, las pruebas LR y Wald deberían mostrar los mismos valores p de estadio para los mismos modelos de regresión. Al menos la misma conclusión debería salir.
Ahora hice ambas pruebas para el mismo modelo en R y obtuve resultados muy diferentes. Estos son los resultados de R para un modelo:
> lrtest(glm(data$y~1),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
#Df LogLik Df Chisq Pr(>Chisq)
1 2 -89.808
2 9 -31.625 7 116.37 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> lrtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
#Df LogLik Df Chisq Pr(>Chisq)
1 1 -54.959
2 9 -31.625 8 46.667 1.774e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> waldtest(glm(data$y~data$site_name,family="poisson"))
Wald test
Model 1: data$y ~ data$site_name
Model 2: data$y ~ 1
Res.Df Df F Pr(>F)
1 45
2 53 -8 0.7398 0.6562
> waldtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Wald test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
Res.Df Df F Pr(>F)
1 53
2 45 8 0.7398 0.6562
Acerca de los datos, los datos $ y contienen datos de conteo y los datos $ site_name es un factor con 9 niveles. Hay 54 valores en los datos $ y, con 6 valores por nivel de datos $ site_name.
Aquí hay distribuciones de frecuencia:
> table(data$y)
0 2 4 5 7
50 1 1 1 1
> table(data$y,data$site_name)
Andulay Antulang Basak Dauin Poblacion District 1 Guinsuan Kookoo's Nest Lutoban Pier Lutoban South Malatapay Pier
0 6 6 6 4 6 6 6 5 5
2 0 0 0 0 0 0 0 1 0
4 0 0 0 1 0 0 0 0 0
5 0 0 0 0 0 0 0 0 1
7 0 0 0 1 0 0 0 0 0
Ahora, estos datos no se ajustan muy bien a la distribución de Poisson debido a la enorme dispersión excesiva de recuentos cero. Pero con otro modelo, donde los datos $ y> 0 se ajustan bastante bien al modelo de Poisson, y mientras uso un modelo de Poisson inflado a cero, sigo obteniendo pruebas de Wald y resultados muy diferentes. Allí, la prueba de Wald muestra un valor p de 0.03, mientras que la prueba lrt tiene un valor p de 0.0003. Sigue siendo un factor 100 de diferencia, aunque la conclusión podría ser la misma.
Entonces, ¿qué estoy entendiendo incorrectamente aquí con la razón de probabilidad vs waldtest?