Prueba de relación de probabilidad vs Wald

10

Por lo que he estado leyendo, entre otros en el sitio del grupo de consultoría de estadísticas de UCLA, las pruebas de razón de probabilidad y las pruebas de Wald son bastante similares para probar si dos modelos glm muestran una diferencia significativa en el ajuste para un conjunto de datos (disculpe si mi redacción podría estar un poco apagado). En esencia, puedo comparar dos modelos y probar si el segundo modelo muestra un ajuste significativamente mejor que el primero, o si no hay diferencia entre los modelos.

Por lo tanto, las pruebas LR y Wald deberían mostrar los mismos valores p de estadio para los mismos modelos de regresión. Al menos la misma conclusión debería salir.

Ahora hice ambas pruebas para el mismo modelo en R y obtuve resultados muy diferentes. Estos son los resultados de R para un modelo:

> lrtest(glm(data$y~1),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test

Model 1: data$y ~ 1
    Model 2: data$y ~ data$site_name
      #Df  LogLik Df  Chisq Pr(>Chisq)    
    1   2 -89.808                         
    2   9 -31.625  7 116.37  < 2.2e-16 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    > lrtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test

Model 1: data$y ~ 1
    Model 2: data$y ~ data$site_name
      #Df  LogLik Df  Chisq Pr(>Chisq)    
    1   1 -54.959                         
    2   9 -31.625  8 46.667  1.774e-07 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    > waldtest(glm(data$y~data$site_name,family="poisson"))
Wald test

Model 1: data$y ~ data$site_name
Model 2: data$y ~ 1
      Res.Df Df      F Pr(>F)
    1     45                 
    2     53 -8 0.7398 0.6562
    > waldtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Wald test

Model 1: data$y ~ 1
    Model 2: data$y ~ data$site_name
  Res.Df Df      F Pr(>F)
1     53                 
2     45  8 0.7398 0.6562

Acerca de los datos, los datos $ y contienen datos de conteo y los datos $ site_name es un factor con 9 niveles. Hay 54 valores en los datos $ y, con 6 valores por nivel de datos $ site_name.

Aquí hay distribuciones de frecuencia:

> table(data$y)

 0  2  4  5  7 
50  1  1  1  1 
> table(data$y,data$site_name)

    Andulay Antulang Basak Dauin Poblacion District 1 Guinsuan Kookoo's Nest Lutoban Pier Lutoban South Malatapay Pier
  0       6        6     6                          4        6             6            6             5              5
  2       0        0     0                          0        0             0            0             1              0
  4       0        0     0                          1        0             0            0             0              0
  5       0        0     0                          0        0             0            0             0              1
  7       0        0     0                          1        0             0            0             0              0

Ahora, estos datos no se ajustan muy bien a la distribución de Poisson debido a la enorme dispersión excesiva de recuentos cero. Pero con otro modelo, donde los datos $ y> 0 se ajustan bastante bien al modelo de Poisson, y mientras uso un modelo de Poisson inflado a cero, sigo obteniendo pruebas de Wald y resultados muy diferentes. Allí, la prueba de Wald muestra un valor p de 0.03, mientras que la prueba lrt tiene un valor p de 0.0003. Sigue siendo un factor 100 de diferencia, aunque la conclusión podría ser la misma.

Entonces, ¿qué estoy entendiendo incorrectamente aquí con la razón de probabilidad vs waldtest?

r regression likelihood-ratio

— Dolf Andringa
fuente

15

Es importante tener en cuenta que, aunque la prueba de razón de probabilidad y la prueba de Wald son utilizadas por los investigadores para lograr los mismos objetivos empíricos, están probando diferentes hipótesis . La prueba de razón de probabilidad evalúa si es probable que los datos provengan de un modelo más complejo, en comparación con un modelo más simple. Dicho de otra manera, ¿la adición de un efecto particular permite al modelo dar cuenta de más información? La prueba de Wald, por el contrario, evalúa si es probable que el efecto estimado pueda ser cero. Es una diferencia matizada, sin duda, pero una diferencia conceptual importante, no obstante.

Agresti (2007) contrasta la prueba de razón de verosimilitud, la prueba de Wald y un tercer método llamado "prueba de puntaje" (apenas profundiza en esta prueba). De su libro (p. 13):

Cuando el tamaño de la muestra es pequeño a moderado, la prueba de Wald es la menos confiable de las tres pruebas. No debemos confiar en él para una n tan pequeña como en este ejemplo ( n = 10). La inferencia de la razón de probabilidad y la inferencia basada en la prueba de puntaje son mejores en términos de probabilidades reales de error que se acercan a los niveles nominales correspondientes. Una marcada divergencia en los valores de las tres estadísticas indica que la distribución del estimador ML puede estar lejos de la normalidad. En ese caso, los métodos de muestra pequeña son más apropiados que los métodos de muestra grande.

Al observar sus datos y resultados, parece que sí tiene una muestra relativamente pequeña y, por lo tanto, es posible que desee colocar un mayor stock en los resultados de la prueba de razón de probabilidad frente a los resultados de la prueba de Wald.

Referencias

Agresti, A. (2007). Una introducción al análisis de datos categóricos (2ª edición) . Hoboken, Nueva Jersey: John Wiley & Sons.

— jsakaluk
fuente

La prueba de razón de probabilidad evalúa si es probable que los datos provengan de un modelo más complejo, en comparación con un modelo más simple. Seguramente evalúa la pregunta ligeramente diferente, "¿qué modelo habría llevado a los datos observados con la mayor probabilidad"? Parece que ha descrito un factor de Bayes o algo similar, que requiere información sobre las probabilidades anteriores ... ¿sí?

— Jake Westfall

¿No es la diferencia entre las dos preguntas con qué el segundo modelo lo pruebas? Si hace un lr con y ~ 1 como modelo1 y ~ x como modelo2, entonces el lr prueba si es más probable que los datos se expliquen por un modelo más complejo (modelo2) o más simple (modelo1). Lo que es lo mismo en este caso que la pregunta "qué modelo se explica con la mayor probabilidad". ¿Derecha?

— Dolf Andringa

3

Las dos pruebas son asintóticamente equivalentes. Por supuesto, su rendimiento (tamaño y potencia) en muestras finitas puede diferir. Lo mejor que puede hacer para comprender la diferencia es realizar un estudio de Monte Carlo para un entorno similar al suyo.

— usuario4422
fuente

3

Primero, no estoy de acuerdo con la respuesta de jsakaluk de que las dos pruebas prueban cosas diferentes: ambas prueban si el coeficiente en el modelo más grande es cero. Simplemente están probando esta hipótesis haciendo diferentes aproximaciones (ver artículo vinculado a continuación).

Con respecto a las diferencias entre sus resultados, como dijo jsakaluk, esto probablemente se deba al pequeño tamaño de la muestra / que la probabilidad de registro está lejos de ser cuadrática. Escribí una publicación de blog en 2014 que revisa esto para un modelo binomial simple, que puede ayudar aún más: http://thestatsgeek.com/2014/02/08/wald-vs-likelihood-ratio-test/

— Jonathan Bartlett
fuente