Si la distribución del estadístico de prueba es bimodal, ¿significa algo el valor p?

El valor P se define como la probabilidad de obtener una estadística de prueba al menos tan extrema como la observada, suponiendo que la hipótesis nula sea verdadera. En otras palabras,

¿Pero qué pasa si el estadístico de prueba es bimodal en distribución? ¿El valor p significa algo en este contexto? Por ejemplo, voy a simular algunos datos bimodales en R:

P (X \geq t | H_{0})

$P( X \ge t | H_0 )$

set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5)) 
hist(bimodal, breaks=100)

ingrese la descripción de la imagen aquí

Y supongamos que observamos un valor estadístico de prueba de 60. Y aquí sabemos por la imagen que este valor es muy poco probable . Entonces, idealmente, me gustaría un procedimiento estadístico que use (digamos, valor p) para revelar esto. Pero si calculamos el valor p como se define, obtenemos un valor p bastante alto

observed <- 60

# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993

Si no supiera la distribución, concluiría que lo que observé es simplemente por casualidad. Pero sabemos que esto no es cierto.

Creo que la pregunta que tengo es: ¿Por qué, al calcular el valor p, calculamos la probabilidad de los valores "al menos tan extremos como" los observados? Y si encuentro una situación como la que simulé anteriormente, ¿cuál es la solución alternativa?

— Alby
fuente

¡Bienvenido al maravilloso mundo de las pruebas de significación de hipótesis nulas! En serio: honestamente, no puedo pensar en una estadística de prueba que tenga una distribución bimodal bajo la hipótesis nula (que es la que nos interesa en NHST). Entonces +1 para una pregunta interesante, pero dudo un poco de su relevancia práctica ... a menos que tenga un ejemplo específico en mente?

— Stephan Kolassa

Estoy de acuerdo con @StephanKolassa; ciertamente existen distribuciones de datos que son bimodales, pero ¿qué tipo de estadística de prueba es?

— Peter Flom - Restablece a Monica

No estaría de acuerdo con la caracterización de los valores p sugerida por la primera fórmula. El sentido correcto de "al menos tan extremo" en la teoría de Neyman-Pearson es en términos de probabilidad relativa y no en términos del ordenamiento habitual de los reales (como se indica en la fórmula). Los dos son equivalentes en muchas situaciones de prueba estándar, pero difieren considerablemente cuando la distribución de muestreo es bimodal. Por lo tanto, esta distinción resolverá la cuestión satisfactoriamente, creo.

— whuber

@whuber ¿Puedes por favor explicar un poco esto, tal vez con un simple ejemplo?

— Szabolcs

G_{θ}

$G_\theta$

(θ, θ)

$(\theta,\theta)$

θ \geq 1

$\theta\ge 1$

F_{θ} (x)

$F_\theta(x)$

G_{θ} (x)

$G_\theta(x)$

G_{θ} (- x)

$G_\theta(-x)$

x \in [- 1, 1]

$x \in [-1,1]$

F_{1}

$F_1$

F_{2}

$F_2$

\pm 1 / 2

$\pm 1/2$

X \sim F_{θ}

$X\sim F_\theta$

H_{0} : X \sim F_{1}

$H_0: X\sim F_1$

H_{A} : X \sim F_{2}

$H_A: X\sim F_2$

\pm 1

$\pm 1$

1 / 2

$1/2$

- 1 / 2

$-1/2$

θ = 2

$\theta=2$

Lo que hace que un estadístico de prueba sea "extremo" depende de su alternativa, que impone un orden (o al menos un orden parcial) en el espacio muestral; busca rechazar los casos más consistentes (en el sentido de que se miden por un estadístico de prueba) con La alternativa.

Cuando realmente no tienes una alternativa para darte algo con lo que ser más consistente, esencialmente te queda la posibilidad de dar el pedido, lo que se ve con mayor frecuencia en la prueba exacta de Fisher. Allí, la probabilidad de los resultados (las tablas de 2x2) bajo el nulo ordena el estadístico de prueba (de modo que 'extremo' es 'baja probabilidad').

Si estuviera en una situación en la que la extrema izquierda (o la extrema derecha, o ambas) de su distribución nula bimodal estaba asociada con el tipo de alternativa que le interesaba, no buscaría rechazar una estadística de prueba de 60. Pero si estás en una situación en la que no tienes una alternativa como esa, entonces 60 es inusual, tiene poca probabilidad; un valor de 60 es inconsistente con su modelo y lo llevaría a rechazar.

[Esto sería visto por algunos como una diferencia central entre las pruebas de hipótesis de Fisherian y Neyman-Pearson. Al introducir una alternativa explícita y una proporción de probabilidades, una baja probabilidad bajo el valor nulo no necesariamente hará que rechace en un marco de Neyman-Pearson (siempre que funcione relativamente bien en comparación con la alternativa), mientras que para Fisher, realmente no tienes una alternativa, y la probabilidad bajo nulo es lo que te interesa.]

No estoy sugiriendo que ninguno de los enfoques sea correcto o incorrecto aquí: continúe y descubra por sí mismo qué tipo de alternativas busca poder, ya sea específico o simplemente cualquier cosa que sea poco probable bajo el nulo. Una vez que sabes lo que quieres, el resto (incluido lo que significa "al menos tan extremo") se deduce de eso.

— Glen_b -Reinstate a Monica
fuente