Método de puntuación Z de Stouffer: ¿y si sumamos lugar de ?


22

Estoy realizando pruebas estadísticas independientes con la misma hipótesis nula, y me gustaría combinar los resultados en un valor . Parece que hay dos métodos "aceptados": el método de Fisher y el método de Stouffer .pnortepags

Mi pregunta es sobre el método de Stouffer. Para cada prueba por separado puntaje z . Bajo la hipótesis nula, cada una de ellas se distribuye con una distribución normal estándar, por lo que la suma sigue una distribución normal con varianza . Por lo tanto, el método de Stouffer sugiere calcular , que normalmente debería distribuirse con la varianza de la unidad, y luego usar esto como una puntuación z conjunta. Σ z i N Σ z i / zyoΣzyonorteΣzyo/ /norte

Esto es razonable, pero aquí hay otro enfoque que se me ocurrió y que también me parece razonable. Como cada uno de proviene de una distribución normal estándar, la suma de cuadrados debe provenir de una distribución chi-cuadrado con grados de libertad. Entonces uno puede calcular y convertirlo en un valor usando la función de distribución chi-cuadrado acumulativa con grados de libertad ( , donde X_N es el CDF). S = Σ z 2 i N S p N p = 1 - X N ( S ) X NzyoS=Σzyo2norteSpagsnortepags=1-Xnorte(S)Xnorte

Sin embargo, en ninguna parte puedo encontrar este enfoque, incluso mencionado. ¿Se usa alguna vez? Eso tiene un nombre? ¿Cuáles serían las ventajas / desventajas en comparación con el método de Stouffer? ¿O hay un defecto en mi razonamiento?


Una falla importante que sobresale es que el método de Stouffer puede detectar cambios sistemáticos en zyo , que es lo que uno esperaría que suceda cuando una alternativa es consistentemente verdadera, mientras que el método de chi-cuadrado parece tener menos poder para hacerlo. Una simulación rápida ( norte=100 , 104 4 iteraciones) muestra que este es el caso; el método de chi-cuadrado es serio menos potente para detectar una alternativa unilateral.
whuber

2
Gracias whuber! ¿Podría describir su simulación con más detalle? Tengo curiosidad. Por otro lado, si tiene signos diferentes pero valores absolutos grandes, entonces el método de Stouffer puede terminar con , mientras que mi método informaría una MUY significativa . Supongo que en algunos casos puede tener mucho más sentido (y sospecho que en mi caso lo tiene, pero no estoy seguro). z 0 pzyoz0pags
ameba dice Reinstate Monica

1
Tienes razón, por eso no publiqué mi comentario como respuesta. Pero, ¿qué tipo de situaciones hay donde las alternativas varían tan radicalmente de la nula en ambas direcciones, excepto solo por casualidad?
whuber

La situación que tenía en mente es algo así como la de la prueba de chi-cuadrado de Pearson, donde uno está interesado en saber si una distribución empírica difiere de la nula; entonces las desviaciones en cualquier dirección son importantes. Pero después de pensarlo dos veces, supongo que su intuición es correcta y, en mi caso, las desviaciones sospechosas van en una sola dirección. Si publica su comentario como respuesta y proporciona algunos detalles sobre su simulación rápida (¡Tengo mucha curiosidad por qué el método chi-cuadrado resulta ser menos poderoso!), Estaré encantado de aceptarlo.
ameba dice Reinstate Monica

La suma de n puntajes Z tiene una distribución con una varianza de n? ¿Por qué la varianza no es el cuadrado del error estándar de la media? La suma de como está implícito en el título tiene una variación de N. ¿Tal vez me estoy perdiendo algo obvio? Z2
russellpierce

Respuestas:


17

Una falla que salta a la vista es que el método de Stouffer puede detectar cambios sistemáticos en , que es lo que uno esperaría que suceda cuando una alternativa es consistentemente cierta, mientras que el método de chi-cuadrado parece tener menos poder para hacerlo. Una simulación rápida muestra que este es el caso; El método chi-cuadrado es menos potente para detectar una alternativa unilateral. Aquí hay histogramas de los valores p por ambos métodos (rojo = Stouffer, azul = chi-cuadrado) para iteraciones independientes con y varios efectos estandarizados unilaterales van desde ninguno ( ) a través de SD ( ).10 5 N = 10 μ μ = 0 0.6 μ = 0.6zyo105 5norte=10μμ=0 00.6μ=0.6

Figura

El mejor procedimiento tendrá más área cercana a cero. Para todos los valores positivos de mostrados, ese procedimiento es el procedimiento Stouffer.μ


Código R

Esto incluye el método de Fisher (comentado) para la comparación.

n <- 10
n.iter <- 10^5
z <- matrix(rnorm(n*n.iter), ncol=n)

sim <- function(mu) {
  stouffer.sim <- apply(z + mu, 1, 
                    function(y) {q <- pnorm(sum(y)/sqrt(length(y))); 2*min(q, 1-q)})
  chisq.sim <- apply(z + mu, 1, 
                    function(y) 1 - pchisq(sum(y^2), length(y)))
  #fisher.sim <- apply(z + mu, 1,
  #                  function(y) {q <- pnorm(y); 
  #                     1 - pchisq(-2 * sum(log(2*pmin(q, 1-q))), 2*length(y))})
  return(list(stouffer=stouffer.sim, chisq=chisq.sim, fisher=fisher.sim))
}

par(mfrow=c(2, 3))
breaks=seq(0, 1, .05)
tmp <- sapply(c(0, .1, .2, .3, .4, .6), 
              function(mu) {
                x <- sim(mu); 
                hist(x[[1]], breaks=breaks, xlab="p", col="#ff606060",
                     main=paste("Mu =", mu)); 
                hist(x[[2]], breaks=breaks, xlab="p", col="#6060ff60", add=TRUE)
                #hist(x[[3]], breaks=breaks, xlab="p", col="#60ff6060", add=TRUE)
                })

Gracias de nuevo, esto es muy agradable. ¿Y qué pasa si descomentas el método de Fisher? Sospecho que ya lo has intentado. ¿Stouffer gana constantemente? (Lo siento por no haberlo probado a mí mismo, pero no tengo ninguna experiencia con R y no lo tengo a la mano.)
ameba dice Restablecer Mónica

Actualización: con respecto a la comparación entre los métodos de Fisher y Stouffer, encontré una buena discusión aquí . La afirmación es que Stouffer es más sensible a las desviaciones consistentes de nulo, mientras que Fisher es más sensible a las desviaciones individuales (pero grandes). Supongo que en su simulación tuvo desviaciones consistentes ( lo mismo en todas las pruebas de ), ¿correcto? Me pregunto qué pasaría si solo 1 de pruebas muestra una desviación fuerte. μnortenorte
ameba dice Reinstate Monica

1
Puede modificar fácilmente la Rsimulación para probar esto. Sería una buena manera de presentarse a esta plataforma de computación estadística. :-)
whuber

2
Usé matlab para reproducir tu simulación. Conclusiones: cuando todos los desvían consistentemente de 0, entonces Stouffer gana a Fisher con un pequeño margen y "mi" método pierde sin remedio (como usted mostró). Cuando solo uno de desvía mucho de 0, Fisher gana sobre "mi" método con un pequeño margen y Stouffer pierde sin remedio. zyozyo
ameba dice Reinstate Monica

Gran discusión y control de calidad! Una pregunta rápida: ¿qué pasa si uno forma este problema como una detección de anomalías / valores atípicos al calcular la distancia de Mahalanobis y seguir algo como esto ?
NULL

10

Una forma general de obtener información sobre las estadísticas de prueba es derivar los supuestos subyacentes (generalmente implícitos) que llevarían a esa estadística de prueba a ser más poderosa. Para este caso particular, un estudiante y yo hemos hecho esto recientemente: http://arxiv.org/abs/1111.1210v2 (una versión revisada aparecerá en Annals of Applied Statistics).

Para resumir muy brevemente (y de acuerdo con los resultados de la simulación en otra respuesta), el método de Stouffer será más poderoso cuando los efectos subyacentes "verdaderos" sean todos iguales; la suma de Z ^ 2 será más potente cuando los efectos subyacentes se distribuyan normalmente alrededor de 0. Esta es una ligera simplificación que omite detalles: consulte la sección 2.5 en la preimpresión arxiv vinculada anteriormente para obtener más detalles.


2
(+1) De alguna manera pensé que lo escribí hace mucho tiempo, pero parece que no lo hice: ¡muchas gracias por registrarse aquí específicamente para responder a mi pregunta! Lo aprecio. La sección 2.5 de su artículo es de hecho muy relevante.
ameba dice Reinstate Monica

3

Ligeramente t / t: uno de los problemas con estos dos enfoques es la pérdida de poder debido a los grados de libertad (N para stouffer's; 2N para Fisher). Se han desarrollado mejores enfoques metaanalíticos para esto, que es posible que desee considerar (metaanálisis ponderado de varianza inversa, por ejemplo).

Si está buscando evidencia de algunas pruebas alternativas dentro de un grupo, es posible que desee ver la estadística más crítica de Donoho y Jin: https://projecteuclid.org/euclid.aos/1085408492


1

Para responder a la pregunta y para cualquier otro lector: ¿se ha usado alguna vez ?, hay un documento exhaustivo de Cousins ​​(2008) sobre arXiv, que enumeró y revisó un par de enfoques alternativos. La propuesta no parece aparecer.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.