Nada como responder una pregunta muy antigua, pero aquí va ...
Los valores p son pruebas de hipótesis casi válidas. Este es un ejercicio ligeramente adaptado tomado del libro de teoría de probabilidad de Jaynes de 2003 (Experimentos repetitivos: probabilidad y frecuencia). Supongamos que tenemos una hipótesis nula que deseamos probar. Tenemos datos y la información antes de . Supongamos que hay alguna hipótesis no especificada que . La odds ratio posterior para frente a viene dada por:H0DIHAH0HAH0
P(HA|DI)P(H0|DI)=P(HA|I)P(H0|I)×P(D|HAI)P(D|H0I)
Ahora el primer término en el lado derecho es independiente de los datos, por lo que los datos solo pueden influir en el resultado a través del segundo término. Ahora, siempre podemos inventar una hipótesis alternativa tal que - una hipótesis de "ajuste perfecto". Por lo tanto, podemos usar como una medida de qué tan bien los datos podrían soportar cualquier hipótesis alternativa sobre el valor nulo. No existe una hipótesis alternativa de que los datos podrían soportar más de en más de . También podemos restringir la clase de alternativas, y el cambio es que el se reemplaza por la probabilidad maximizada (incluidas las constantes de normalización) dentro de esa clase. SiHAP(D|HAI)=11P(D|H0I)H01P(D|H0I)1P(D|H0I)comienza a ser demasiado pequeño, luego comenzamos a dudar de la nula, porque el número de alternativas entre y crece (incluidas algunas con probabilidades previas no insignificantes) Pero esto es casi lo que se hace con los valores p, pero con una excepción: no calculamos la probabilidad de para alguna estadística y alguna región "mala" de la estadística. Calculamos la probabilidad de : la información que realmente tenemos, en lugar de un subconjunto de ella, .H0HAt(D)>t0t(D)Dt(D)
Otra razón por la cual las personas usan valores p es que a menudo equivalen a una prueba de hipótesis "adecuada", pero pueden ser más fáciles de calcular. Podemos mostrar esto con el ejemplo muy simple de probar la media normal con varianza conocida. Tenemos datos con un modelo asumido (parte de la información previa ). Queremos probar . Luego tenemos, después de un pequeño cálculo:D≡{x1,…,xN}xi∼Normal(μ,σ2)IH0:μ=μ0
P(D|H0I)=(2πσ2)−N2exp(−N[s2+(x¯¯¯−μ0)2]2σ2)
Donde y . Esto muestra que el valor máximo de se alcanzará cuando . El valor maximizado es:x¯¯¯=1N∑Ni=1xis2=1N∑Ni=1(xi−x¯¯¯)2P(D|H0I)μ0=x¯¯¯
P(D|HAI)=(2πσ2)−N2exp(−Ns22σ2)
Entonces tomamos la relación de estos dos, y obtenemos:
P(D|HAI)P(D|H0I)=(2πσ2)−N2exp(−Ns22σ2)(2πσ2)−N2exp(−Ns2+N(x¯¯¯−μ0)22σ2)=exp(z22)
Donde es la "estadística Z". Grandes valores dePoner en duda la hipótesis nula, en relación con la hipótesis acerca de la media normal que es más fuertemente apoyado por los datos. También podemos ver que es la única parte de los datos que se necesita y, por lo tanto, es una estadística suficiente para la prueba.z=N−−√x¯¯¯−μ0σ|z|x¯¯¯
El enfoque del valor p para este problema es casi el mismo, pero a la inversa. Comenzamos con la estadística suficiente , y calculamos su distribución de muestreo, que se muestra fácilmente como - donde he usado una letra mayúscula para distinguir la variable aleatoria del valor observado . Ahora necesitamos encontrar una región que arroje dudas sobre la hipótesis nula: se ve fácilmente que son aquellas regiones dondees largo. Entonces podemos calcular la probabilidad de quex¯¯¯X¯¯¯¯∼Normal(μ,σ2N)X¯¯¯¯x¯¯¯|X¯¯¯¯−μ0||X¯¯¯¯−μ0|≥|x¯¯¯−μ0|como una medida de cuán lejos están los datos observados de la hipótesis nula. Como antes, este es un cálculo simple, y obtenemos:
p-value=P(|X¯¯¯¯−μ0|≥|x¯¯¯−μ0||H0)
=1−P[−N−−√|x¯¯¯−μ0|σ≤N−−√X¯¯¯¯−μ0σ≤N−−√|x¯¯¯−μ0|σ|H0]
=1−P(−|z|≤Z≤|z||H0)=2[1−Φ(|z|)]
Ahora, podemos ver que el valor p es una función monotónica decreciente de, lo que significa que esencialmente obtenemos la misma respuesta que la prueba de hipótesis "adecuada". Rechazar cuando el valor p está por debajo de cierto umbral es lo mismo que rechazar cuando las probabilidades posteriores están por encima de cierto umbral. Sin embargo, tenga en cuenta que al hacer la prueba adecuada, tuvimos que definir la clase de alternativas, y tuvimos que maximizar una probabilidad sobre esa clase. Para el valor p, tenemos que encontrar una estadística, calcular su distribución de muestreo y evaluarla en el valor observado. En cierto sentido, elegir una estadística es equivalente a definir la hipótesis alternativa que está considerando.|z|
Aunque ambas cosas son fáciles de hacer en este ejemplo, no siempre son tan fáciles en casos más complicados. En algunos casos, puede ser más fácil elegir la estadística correcta para usar y calcular su distribución de muestreo. En otros, puede ser más fácil definir la clase de alternativas y maximizarla en esa clase.
Este simple ejemplo explica una gran cantidad de pruebas basadas en el valor p, simplemente porque muchas pruebas de hipótesis son de la variedad "normal aproximada". También proporciona una respuesta aproximada a su problema de monedas (mediante el uso de la aproximación normal al binomio). También muestra que los valores p en este caso no lo llevarán por mal camino, al menos en términos de probar una sola hipótesis. En este caso, podemos decir que un valor p es una medida de evidencia contra la hipótesis nula.
Sin embargo, los valores p tienen una escala menos interpretable que el factor bayes: el vínculo entre el valor p y la "cantidad" de evidencia contra el valor nulo es complejo. Los valores p se vuelven demasiado pequeños demasiado rápido, lo que hace que sean difíciles de usar correctamente. Tienden a exagerar el soporte contra el nulo proporcionado por los datos. Si interpretamos los valores p como probabilidades contra el valor nulo: en forma de probabilidad es , cuando la evidencia real es , y en forma de probabilidad es cuando la evidencia real es . O para decirlo de otra manera, usar un valor p como probabilidad de que el nulo sea falso aquí, es equivalente a establecer las probabilidades anteriores. Entonces, para un valor p de0.193.870.05196.830.1las probabilidades anteriores implícitas contra el nulo son y para un valor p de las probabilidades previas implícitas contra el nulo son .2.330.052.78