¿Por qué los valores p se distribuyen uniformemente bajo la hipótesis nula?


115

Recientemente, he encontrado en un artículo de Klammer, et al. una declaración de que los valores p deben estar distribuidos uniformemente. Creo en los autores, pero no puedo entender por qué es así.

Klammer, AA, Park, CY y Stafford Noble, W. (2009) Calibración estadística de la función SEQUEST XCorr . Revista de investigación del proteoma . 8 (4): 2106–2113.


24
Esto es inmediato a partir de la definición del valor p como la transformación integral de probabilidad del estadístico de prueba utilizando la distribución bajo la hipótesis nula. La conclusión requiere que la distribución sea continua. Cuando la distribución es discreta (o tiene átomos), la distribución de los valores p también es discreta y, por lo tanto, solo puede ser aproximadamente uniforme.
whuber

1
@whuber dio la respuesta, que era algo que sospechaba. Pedí la referencia original solo para asegurarme de que algo no se perdiera en la traducción. Por lo general, no importa si el artículo es específica o no, contenido estadístico muestra siempre a través :)
mpiktas

10
¡Solo cuando es ciertoH0 ! ... y más estrictamente, solo cuando es continuo (aunque algo así es cierto en el caso no continuo; no sé la palabra correcta para el caso más general; no es uniformidad). Luego se desprende de la definición del valor p.
Glen_b

2
Esto podría verse como una variante del principio fundamental de la mecánica estadística (que los estudiantes a menudo tienen dificultades similares para aceptar) de que todos los microestados de un sistema físico tienen la misma probabilidad.
DWin

55
¿Qué tal el reclamo en este artículo: plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0076010 ?

Respuestas:


83

Para aclarar un poco. El valor p se distribuye uniformemente cuando la hipótesis nula es verdadera y se cumplen todos los demás supuestos. La razón de esto es realmente la definición de alfa como la probabilidad de un error de tipo I. Queremos que la probabilidad de rechazar una hipótesis nula verdadera sea alfa, rechazamos cuando el observado , la única forma en que esto sucede para cualquier valor de alpha es cuando el valor p proviene de un uniforme distribución. El objetivo de usar la distribución correcta (normal, t, f, chisq, etc.) es transformar de la estadística de prueba a un valor p uniforme. Si la hipótesis nula es falsa, entonces la distribución del valor p será (con suerte) más ponderada hacia 0.p-value<α

Las funciones Pvalue.norm.simy Pvalue.binom.simen el paquete TeachingDemos para R simularán varios conjuntos de datos, calcularán los valores p y los trazarán para demostrar esta idea.

Ver también:

Murdoch, D, Tsai, Y y Adcock, J (2008). Los valores P son variables aleatorias. El estadístico estadounidense , 62 , 242-245.

Para más detalles.

Editar:

Como la gente todavía está leyendo esta respuesta y comentando, pensé que abordaría el comentario de @ whuber.

Es cierto que cuando se usa una hipótesis nula compuesta como los valores p solo se distribuirán uniformemente cuando las 2 medias son exactamente iguales y no serán uniformes si es cualquier valor menor que . Esto se puede ver fácilmente usando la función y configurándola para hacer una prueba unilateral y simulando con la simulación y los medios hipotéticos diferentes (pero en la dirección para hacer que el nulo sea verdadero).μ 1 μ 2μ1μ2μ1μ2Pvalue.norm.sim

En lo que respecta a la teoría estadística, esto no importa. Considere si afirmé que soy más alto que todos los miembros de su familia, una forma de probar este reclamo sería comparar mi estatura con la altura de cada miembro de su familia, uno a la vez. Otra opción sería encontrar al miembro de su familia más alto y comparar su altura con la mía. Si soy más alto que esa persona, también soy más alto que el resto y mi reclamo es verdadero, si no soy más alto que esa persona, entonces mi reclamo es falso. Probar un nulo compuesto puede verse como un proceso similar, en lugar de probar todas las combinaciones posibles donde podemos probar solo la parte de igualdad porque si podemos rechazar eso a favor deμ 1 = μ 2 μ 1 > μ 2 μ 1 < μ 2 μ 1 < μ 2 α μ 1 μ 2 αμ1μ2μ1=μ2μ1>μ2entonces sabemos que también podemos rechazar todas las posibilidades de . Si observamos la distribución de los valores p para los casos en que , la distribución no será perfectamente uniforme pero tendrá más valores más cercanos a 1 que a 0, lo que significa que la probabilidad de un error de tipo I será menor que El valor seleccionado lo convierte en una prueba conservadora. El uniforme se convierte en la distribución limitante a medida que se acerca aμ1<μ2μ1<μ2αμ1μ2(las personas que están más actualizadas en términos de teoría de estadísticas probablemente podrían decir esto mejor en términos de supremum distributivo o algo así). Entonces, al construir nuestra prueba asumiendo la parte igual del nulo incluso cuando el nulo es compuesto, entonces estamos diseñando nuestra prueba para tener una probabilidad de un error tipo I que sea como máximo para cualquier condición donde el nulo sea verdadero.α


¡Perdón por el error tipográfico que presenté (debería leer \leqen TeX)!
chl

1
El artículo "Los valores P son variables aleatorias" es realmente interesante, ¿hay algún libro introductorio que se adhiera a los principios establecidos en el artículo?
Alessandro Jacopson

8
A pesar del comentario que publiqué sobre la pregunta, me he dado cuenta de que la conclusión no es cierta, excepto en casos especiales. El problema ocurre con hipótesis compuestas, como . "La hipótesis nula es verdadera" ahora cubre muchas posibilidades, como el caso . En tal caso, los valores p no se distribuirán uniformemente. Sospecho que uno podría fabricar situaciones (algo artificiales) en las que, sin importar qué elemento de la hipótesis nula se mantenga, la distribución de los valores p nunca sería casi uniforme. μ 1 = μ 2 - 10 6μ1μ2μ1=μ2106
whuber

1
@ Greg Snow: Creo que la distribución de los valores p no siempre es uniforme, es uniforme cuando se calculan a partir de una distribución continua, pero no cuando se calculan a partir de una distribución discreta

1
He ampliado la respuesta anterior para abordar el comentario de @whuber.
Greg Snow

26

Bajo la hipótesis nula, el estadístico de prueba tiene la distribución (p. Ej., Normal estándar). Mostramos que el valor tiene una distribución de probabilidad en otras palabras, se distribuye uniformemente. Esto es válido siempre que sea ​​invertible, una condición necesaria de las cuales es que no es una variable aleatoria discreta.TF(t)P=F(T)

Pr(P<p)=Pr(F1(P)<F1(p))=Pr(T<t)p;
F ( ) TPF()T

Este resultado es general: la distribución de un CDF invertible de una variable aleatoria es uniforme en .[0,1]


8
es posible que desee reformular su último comentario, lo cual es un poco confuso. Los CDF continuos no necesariamente tienen un inverso (propio). (¿Puedes pensar en un contraejemplo?) Por lo tanto, tu prueba requiere condiciones adicionales para mantenerse. La forma estándar de evitar esto es definir el pseudoinverso . El argumento también se vuelve más sutil. F(y)=inf{x:F(x)y}
Cardenal

1
Con respecto al trabajo con inversas generalizadas, consulte link.springer.com/article/10.1007%2Fs00186-013-0436-7 (en particular, F (T) solo es uniforme si F es continua; no importa si F es invertible o no). Con respecto a su definición de un valor p: no creo que siempre sea 'F (T)'. Es la probabilidad (por debajo de la nula) de tomar un valor más extremo que el observado, por lo que también podría ser la función de supervivencia (solo para ser precisos aquí).
Marius Hofert

¿No es el CDF? F(t)
zyxue

@zyxue Sí, el cdf a veces se denomina "distribución".
mikario

6

Supongamos que denota la variable aleatoria con la función de distribución acumulativa para todo . Suponiendo que es invertible, podemos derivar la distribución del valor p aleatorio siguiente manera:TF(t)Pr(T<t)tFP=F(T)

Pr(P<p)=Pr(F(T)<p)=Pr(T<F1(p))=F(F1(p))=p,

de donde podemos concluir que la distribución de es uniforme en .[ 0 , 1 ]P[0,1]

Esta respuesta es similar a la de Charlie, pero evita tener que definir .t=F1(p)


Como ha definido F, ¿no es P = F (T) = Pr (T <T) = 0?
TrynnaDoStat

No exactamente, el "reemplazo sintáctico" de es algo engañoso. Hablando formalmente, es la variable aleatoria definida porF ( T ) ( F ( T ) ) ( ω ) = F ( T ( ω ) ) : = Pr ( T < T ( ω ) )F(T)=Pr(T<T)F(T)(F(T))(ω)=F(T(ω)):=Pr(T<T(ω))
jII

4

Simulación simple de distribución de valores p en caso de regresión lineal entre dos variables independientes:

# estimated model is: y = a0 + a1*x + e

obs<-100                # obs in each single regression
Nloops<-1000            # number of experiments
output<-numeric(Nloops) # vector holding p-values of estimated a1 parameter from Nloops experiments

for(i in seq_along(output)){

x<-rnorm(obs) 
y<-rnorm(obs)

# x and y are independent, so null hypothesis is true
output[i] <-(summary(lm(y~x)) $ coefficients)[2,4] # we grab p-value of a1

if(i%%100==0){cat(i,"from",Nloops,date(),"\n")} # after each 100 iteration info is printed

}

plot(hist(output), main="Histogram of a1 p-values")
ks.test(output,"punif") # Null hypothesis is that output distr. is uniform

77
¿Podría explicar cómo responde esto a la pregunta? Aunque su salida ilustra un caso especial de la afirmación, ninguna cantidad de código sería capaz de abordar la pregunta de por qué . Eso requiere una explicación adicional.
whuber

-1

No creo que la mayoría de estas respuestas realmente respondan la pregunta en general. Se limitan al caso cuando existe una hipótesis nula simple y cuando el estadístico de prueba tiene un CDF invertible (como en una variable aleatoria continua que tiene un CDF estrictamente creciente). Estos casos son los que la mayoría de las personas tienden a preocuparse con la prueba z y la prueba t, aunque para probar una media binomial (por ejemplo), uno no tiene dicho CDF. Lo que se proporciona arriba me parece correcto para estos casos restringidos.

Si las hipótesis nulas son compuestas, entonces las cosas son un poco más complicadas. La prueba más general de este hecho que he visto en el caso compuesto usando algunos supuestos con respecto a las regiones de rechazo se proporciona en "Pruebas de hipótesis estadísticas" de Lehmann y Romano, páginas 63-64. Trataré de reproducir el argumento a continuación ...

Probamos una hipótesis nula H0 frente a una hipótesis alternativa basada en una estadística de prueba, que vamos a denotamos como la variable aleatoria . Se supone que el estadístico de prueba proviene de alguna clase paramétrica, es decir, , donde es un elemento de la familia de distribuciones de probabilidad , y es un espacio de parámetros. La hipótesis nula y la hipótesis alternativa forman una partición de en esa H1XXPθPθP{PθθΘ}ΘH0:θΘ0H1:θΘ1Θ

Θ=Θ0Θ1
donde
Θ0Θ1=.

El resultado de la prueba se puede denotar donde para cualquier conjunto definimos Aquí es nuestro nivel de significancia, y denota la región de rechazo de la prueba para el nivel de significancia .

ϕα(X)=1Rα(X)
S
1S(X)={1,XS,0,XS.
αRαα

Suponga que las regiones de rechazo satisfacen el if . En este caso de regiones de rechazo anidadas, es útil determinar no solo si la hipótesis nula se rechaza o no en un nivel de significancia dado , sino también para determinar el nivel de significancia más pequeño para el cual se rechazaría la hipótesis nula. Este nivel se conoce como el valor p , este número nos da una idea de qué tan fuertes son los datos (tal como se muestra en el estadístico de prueba ) en contradicción con la hipótesis nula .

RαRα
α<αα
p^=p^(X)inf{αXRα},
XH0

Suponga que para some y que . Supongamos además que las regiones de rechazo obedecen la propiedad de anidamiento indicada anteriormente. Entonces se cumple lo siguiente:XPθθΘH0:θΘ0Rα

  1. Si para todos , entonces para , supθΘ0Pθ(XRα)α0<α<1θΘ0

    Pθ(p^u)ufor all0u1.

  2. Si para tenemos para todos los , entonces para tenemos θΘ0Pθ(XRα)=α0<α<1θΘ0

    Pθ(p^u)=ufor all0u1.

Tenga en cuenta que esta primera propiedad solo nos dice que la tasa de falsos positivos se controla en al rechazar cuando el valor p es menor que , y la segunda propiedad nos dice (dado un supuesto adicional) que los valores p se distribuyen uniformemente bajo nulo hipótesis.uu

La prueba es como sigue:

  1. Deje , y asuma para todos . Luego, por definición deθΘ0supθΘ0Pθ(XRα)α0<α<1p^ , tenemos para todos . Por monotonicidad y suposición, se deduce que para todos . Dejando , se deduce que .{p^u}{XRv}u<vPθ(p^u)Pθ(XRv)vu<vvuPθ(p^u)u

  2. Dejar θΘ0 y suponga que para todos los . Entonces , y por monotonicidad se deduce que . Considerando (1), se deduce que . Pθ(XRα)=α0<α<1{XRu}{p^(X)u}u=Pθ(XRu)Pθ(p^u)Pθ(p^(X)u)=u

Tenga en cuenta que la suposición en (2) no se cumple cuando un estadístico de prueba es discreto, incluso si la hipótesis nula es simple en lugar de compuesta. Tomemos por ejemploXBinom(10,θ) con y . Es decir, lanza una moneda diez veces y prueba si es justo o sesgado hacia las caras (codificado como un 1). La probabilidad de ver 10 caras en 10 lanzamientos de monedas justos es (1/2) ^ 10 = 1/1024. La probabilidad de ver 9 o 10 caras en 10 lanzamientos de monedas justos es 11/1024. Para cualquier estrictamente entre 1/1024 y 11/1024, rechazaría el valor nulo si , pero no tenemos ese para esos valores de cuandoH0:θ=.5H1:θ>0.5αX=10Pr(XRα)=ααθ=0.5 . En cambio, para tal . Pr(XRα)=1/1024α


Debe aclarar que la generalidad proporcionada en Lehmann y Romano es para las regiones de rechazo general. Aún así, solo tiene valores p "válidos" para valores nulos compuestos y estadísticas de prueba no continuas.
Adam

-12

Si los valores de p se distribuyen uniformemente debajo de H0, eso significa que es tan probable ver un valor de p de .05 como un valor de p de .80, pero esto no es cierto, ya que es menos probable observar un p- valor de .05 que un valor de p de .80, porque esa es precisamente la definición de la distribución normal de la que se toma el valor de p. Habrá más muestras fallando dentro del rango de normalidad que fuera de él, por definición. Por lo tanto, es más probable que encuentre valores p más grandes que los más pequeños.


3
-1. Esto está completamente mal. Me pregunto quién votó por esto. Los valores P bajo el punto H0 están distribuidos uniformemente.
ameba

1
-1. Esto ni siquiera tiene suficiente sentido para ser llamado incorrecto: "rango de normalidad" no tiene sentido y los valores p inherentemente no tienen nada que ver con las distribuciones normales en primer lugar.
whuber
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.