Si el valor p es exactamente 1 (1.0000000), ¿cuáles deberían ser los límites del intervalo de confianza para respaldar que la hipótesis nula sea verdadera? [cerrado]


12

Esta es una pregunta puramente hipotética. Una afirmación muy común es que nunca es cierto, es solo una cuestión de tamaño de muestra.H0

Supongamos que, de verdad, no hay absolutamente ninguna diferencia medible entre dos medias ( ) extraídas de la población normalmente distribuida (tanto para como para estimado ). Asumimos por grupo y usamos -test. Esto significaría que el valor es lo que indica que no hay absolutamente ninguna discrepancia de . Esto indicaría que la estadística de prueba es . La diferencia media entre los grupos sería . ¿Cuáles serían los límites del intervalo de confianza del para la diferencia de medias en este caso? Serían ellosμ1=μ2μ=0σ=1N=16tp1.00000H00095%[0.0,0.0] ?

El punto principal de mi pregunta fue: ¿cuándo podemos realmente decir que es verdadero, es decir, en este caso? ¿O cuando en un marco frecuentista podemos decir verdaderamente "no hay diferencia" al comparar dos medios?H0μ1=μ2


1
Yo diría que esto ya fue respondido aquí stats.stackexchange.com/questions/275677/… , pero no estoy insistiendo en ello.
Tim

1
Tengo problemas para encontrar una manera de obtener con variaciones de población positivas. p=1
Dave


3
"Asumimos N = 16 por grupo y usamos la prueba t. Esto significaría que el valor p es 1.00000, lo que indica que no hay absolutamente ninguna discrepancia de H0". ¿Por qué argumentan que algo (¿a qué se refiere 'esto'?) Significa que el valor p es 1. Generalmente, el valor p se distribuye uniformemente cuando H_0 es verdadero, y p = 1 ocurre casi nunca.
Sextus Empiricus

2
@MartijnWeterings es absolutamente correcto: solo porque esté muestreando dos distribuciones que de hecho son idénticas no significa que obtendrá un valor p de 1 al compararlas. Por definición, el 5% del tiempo obtendrá un valor p por debajo de 0.05.
Nuclear Wang el

Respuestas:


16

Un intervalo de confianza para una prueba t tiene la forma , donde y son las medias de muestra, es el valor crítico de en el dado , y es el error estándar de la diferencia de medias. Si , entonces . Entonces la fórmula es solo , y los límites son solo { ,x¯1x¯2±tcrit,αsx¯1x¯2x¯1x¯2tcrit,αtαsx¯1x¯2p=1.0x¯1x¯2=0±tcrit,αsx¯1x¯2tcrit,αsx¯1x¯2tcrit,αsx¯1x¯2 }.

No estoy seguro de por qué pensarías que los límites seríanEl valor crítico no es cero y el error estándar de la diferencia de medias no es cero.{0,0}.t


10

Siendo súper vago, usando R para resolver el problema numéricamente en lugar de hacer los cálculos a mano:

Defina una función que dará valores normalmente distribuidos con una media de (¡casi!) Exactamente cero y una SD de exactamente 1:

rn2 <- function(n) {r <- rnorm(n); c(scale(r)) }

Ejecute una prueba t:

t.test(rn2(16),rn2(16))

    Welch Two Sample t-test

data:  rn2(16) and rn2(16)
t = 1.7173e-17, df = 30, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.7220524  0.7220524
sample estimates:
   mean of x    mean of y 
6.938894e-18 8.673617e-19 

Las medias no son exactamente cero debido a la imprecisión de coma flotante.

Más directamente, los IC son ± sqrt(1/8)*qt(0.975,df=30) ; la varianza de cada media es 1/16, por lo que la varianza agrupada es 1/8.


8

El CI puede tener cualquier límite, pero está centrado exactamente alrededor de cero

Para una prueba T de dos muestras (prueba de una diferencia en las medias de dos poblaciones), un valor p de exactamente uno corresponde al caso donde las medias de muestra observadas son exactamente iguales. (Las variaciones de muestra pueden tomar cualquier valor). Para ver esto, tenga en cuenta que la función de valor p para la prueba es:

pp(x,y)=P(|X¯Y¯SY/nY+SY/nY||x¯y¯sY/nY+sY/nY|).

Por lo tanto, establecer produce:x¯=y¯

p(x,y)=P(|X¯Y¯SY/nY+SY/nY|0)=1.

Ahora, suponga que forma el intervalo de confianza estándar (aproximado) utilizando la aproximación Welch-Satterwaite. En este caso, suponiendo que (para dar un valor p exacto de uno) da el intervalo de confianza:x¯=y¯

CI(1α)=[0±sXnX+tDF,α/2sYnY],

donde los grados de libertad están determinados por la aproximación de Welch-Satterwaite. Dependiendo de las variaciones de muestra observadas en el problema, el intervalo de confianza puede ser cualquier intervalo finito centrado alrededor de cero. Es decir, el intervalo de confianza puede tener cualquier límite, siempre que esté centrado exactamente alrededor de cero.DF


Por supuesto, si los datos subyacentes en realidad provienen de una distribución continua, este evento ocurre con probabilidad cero, pero supongamos que sucede.


La pregunta dice "σ estimado = 1".
Acumulación el

Esa condición no es necesaria para obtener un valor p de uno, por lo que la eliminé.
Ben - Restablece a Monica el

3

Es difícil tener una discusión filosófica convincente sobre cosas que tienen 0 probabilidades de suceder. Por lo tanto, le mostraré algunos ejemplos relacionados con su pregunta.

Si tiene dos enormes muestras independientes de la misma distribución, ambas muestras seguirán teniendo cierta variabilidad, el estadístico t de 2 muestras agrupadas estará cerca, pero no exactamente 0, el valor P se distribuirá como y el intervalo de confianza del 95% será muy corto y centrado muy cerca deUnif(0,1),0.

Un ejemplo de uno de esos conjuntos de datos y prueba t:

set.seed(902)
x1 = rnorm(10^5, 100, 15)  
x2 = rnorm(10^5, 100, 15)
t.test(x1, x2, var.eq=T)

        Two Sample t-test

data:  x1 and x2
t = -0.41372, df = 2e+05, p-value = 0.6791
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.1591659  0.1036827
sample estimates:
mean of x mean of y 
 99.96403  99.99177 

Aquí se resumen los resultados de 10,000 de tales situaciones. Primero, la distribución de los valores de P.

set.seed(2019)
pv = replicate(10^4, 
   t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$p.val)
mean(pv)
[1] 0.5007066   # aprx 1/2
hist(pv, prob=T, col="skyblue2", main="Simulated P-values")
 curve(dunif(x), add=T, col="red", lwd=2, n=10001)

ingrese la descripción de la imagen aquí

A continuación, la estadística de prueba:

set.seed(2019)  # same seed as above, so same 10^4 datasets
st = replicate(10^4, 
       t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$stat)
mean(st)
[1] 0.002810332  # aprx 0
hist(st, prob=T, col="skyblue2", main="Simulated P-values")
 curve(dt(x, df=2e+05), add=T, col="red", lwd=2, n=10001)

ingrese la descripción de la imagen aquí

Y así sucesivamente para el ancho del CI.

set.seed(2019)
w.ci = replicate(10^4, 
        diff(t.test(rnorm(10^5,100,15),
         rnorm(10^5,100,15),var.eq=T)$conf.int)) 
mean(w.ci)
[1] 0.2629603

Es casi imposible obtener un valor P de la unidad haciendo una prueba exacta con datos continuos, donde se cumplen los supuestos. Tanto es así, que un experto en estadística reflexionará sobre lo que podría haber salido mal al ver un valor P de 1.

Por ejemplo, puede darle al software dos muestras grandes idénticas . La programación continuará como si fueran dos muestras independientes y arrojen resultados extraños. Pero incluso entonces el CI no será de 0 de ancho.

set.seed(902)
x1 = rnorm(10^5, 100, 15)  
x2 = x1
t.test(x1, x2, var.eq=T)

        Two Sample t-test

data:  x1 and x2
t = 0, df = 2e+05, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval: 
 -0.1316593  0.1316593
sample estimates:
mean of x mean of y 
 99.96403  99.96403 

Sin embargo, eso es bastante justo, ya que la distribución normal es continua, la probabilidad de cualquier ejemplo específico es cero, no importa si u1 = u2 o u1-u2 = -0.977 o lo que sea. Tuve la tentación de comentar en la línea de "esto nunca sucederá y las posibilidades son algo muy malo en ese caso también", pero luego pensé, no, tiene sentido decir, supongamos que esto ha sucedido, aceptando que esto ha sucedido probabilidad cero como cualquier ejemplo específico .
Lewian

1
Esta es la respuesta correcta a la pregunta incorrecta
David

1
@ David. Posiblemente asi. Si puede decir cuál cree que es la pregunta correcta y sugerir una respuesta, eso podría ser útil en todos los sentidos. Intenté abordar solo algunos de los que pensé que eran varios conceptos erróneos.
BruceET

El OP declaró "Una declaración muy común es que H0 nunca es cierto". La respuesta de @ BruceET demuestra POR QUÉ H0 nunca puede ser aceptado. Cuanto más se acerca H0 a ser verdad, más uniformemente se vuelve P al azar, lo que significa que una P entre (0.98,0.99) es tan probable como una P entre (0.1, 0.2) cuando H0 es verdadera.
Ron Jensen - Todos somos Mónica

1

La respuesta directa (+1 a Noah) explicará que el intervalo de confianza para la diferencia de medias aún puede ser de longitud distinta de cero porque depende de la variación observada en la muestra de una manera diferente que el valor p.

Sin embargo, aún puede preguntarse por qué es así. Como no es tan extraño imaginar que un valor p alto también significa un pequeño intervalo de confianza. Después de todo, ambos corresponden a algo que está cerca de una confirmación de la hipótesis nula. Entonces, ¿por qué este pensamiento no es correcto?

Un valor p alto no es lo mismo que un pequeño intervalo de confianza.

  • El valor p es un indicador de cuán extrema es una observación particular (extrema dada alguna hipótesis) al expresar cuán probable es observar una desviación dada. Es una expresión del tamaño del efecto observado en relación con la precisión del experimento (un gran tamaño del efecto observado podría no significar mucho cuando el experimento es tan 'inexacto' que estas observaciones no son extremas desde un punto de vista estadístico / probabilístico ) Cuando se observa un valor de p de 1, entonces este (sólo) medios que observado efecto cero porque la probabilidad de observar tales resultado cero o más grande es igual a 1 (pero esto no es la misma que la que hay es efecto cero).

    Nota al margen: ¿Por qué los valores p? El valor p expresa el tamaño real observado del efecto en relación con los tamaños esperados del efecto (probabilidades). Esto es relevante porque los experimentos podrían, por diseño, generar observaciones de algún tamaño de efecto relevante por pura casualidad debido a fluctuaciones comunes en los datos / conservaciones. Exigir que una observación / experimento tenga un valor p bajo significa que el experimento tiene una alta precisión, es decir: el tamaño del efecto observado es menos frecuente / probable debido a la posibilidad / fluctuaciones (y puede ser debido a un efecto real) .

    Nota al margen: para las variables continuas, este valor de p igual a 1 ocurre casi nunca porque es un evento que tiene una medida cero (por ejemplo, para una variable distribuida normal tiene ). Pero para una variable discreta o variable continua discretizada puede ser el caso (al menos la probabilidad es distinta de cero).XN(0,1)P(X=0)=0

  • El intervalo de confianza podría verse como el rango de valores para los cuales una   prueba de hipótesis de nivel tendría éxito (para los cuales el valor p está por encima de ).αα

    Debe tener en cuenta que un valor p alto no es (necesariamente) una prueba / soporte / lo que sea para la hipótesis nula. El alto valor p solo significa que la observación no es notable / extrema para una hipótesis nula dada, pero este podría ser el caso de la hipótesis alternativa (es decir, el resultado está de acuerdo con ambas hipótesis efecto sí / no). Esto ocurre típicamente cuando los datos no transportan mucha información (por ejemplo, alto ruido o muestra pequeña).

Ejemplo: Imagine que tiene una bolsa de monedas para las que tiene monedas justas e injustas y desea clasificar una moneda determinada volteándola 20 veces. (digamos que la moneda es una variable de Bernoulli con para monedas justas y para monedas injustas. En este caso, cuando observe 10 caras y 10 colas, entonces podría decir que p- el valor es igual a 1, pero supongo que es obvio que una moneda injusta podría crear este resultado y no deberíamos descartar la posibilidad de que la moneda sea injusta.p0.5pU(0,1)


1

El punto principal de mi pregunta fue: ¿cuándo podemos realmente decir que es verdadero, es decir, en este caso?H0μ1=μ2

No, porque "la ausencia de evidencia no es evidencia de ausencia". La probabilidad puede pensarse como una extensión de la lógica , con incertidumbres añadidas, así que imagine por un momento que, en lugar de números reales en el intervalo de la unidad, la prueba de hipótesis devolvería solo los valores binarios: 0 (falso) o 1 (verdadero). En tal caso, se aplican las reglas básicas de la lógica, como en el siguiente ejemplo :

  • Si llovió afuera, es probable que el suelo esté mojado.
  • El suelo está mojado.
  • Por lo tanto, llovió afuera.

El suelo bien podría estar mojado porque llovió. O podría deberse a un rociador, alguien limpiando sus canaletas, una tubería principal rota, etc. Se pueden encontrar ejemplos más extremos en el enlace de arriba.

μ1μ20

p=1±0H0


0

Nada le impide utilizar fórmulas t o Gauss estándar para calcular el intervalo de confianza: toda la información necesaria se proporciona en su pregunta. p = 1 no significa que haya algo malo en eso. Tenga en cuenta que p = 1 no significa que pueda estar particularmente seguro de que H0 es verdadero. La variación aleatoria aún está presente y si u0 = u1 puede ocurrir bajo H0, también puede ocurrir si el valor verdadero de u0 es ligeramente diferente del verdadero u1, por lo que habrá más en el intervalo de confianza que solo la igualdad.


Hice algunas ediciones, espero que esté más definido ahora.
arkiaamu

OK, eliminé referencias a lo que estaba mal definido en la versión anterior. Mientras tanto, la pregunta ha sido respondida adecuadamente por otros.
Lewian

Utilice la notación MathJax
David

0

Una afirmación muy común es que H0 nunca es cierto, es solo una cuestión de tamaño de muestra.

No entre personas que saben de lo que están hablando, y están hablando con precisión. La prueba de hipótesis tradicional nunca concluye que el nulo es verdadero, pero si el nulo es verdadero o no es independiente de si se concluye que el nulo es verdadero.

Esto significaría que el valor p es 1.00000

Para una prueba de dos colas, sí.

indicando que no hay absolutamente ninguna discrepancia de H0.

H0H00H0H0 predice que eso se llamaría una "discrepancia" mucho más legítima que simplemente ver una sola muestra cuya media no coincide con el modo.

¿Cuáles serían los límites del intervalo de confianza del 95% para la diferencia de medias en este caso?

f(ϵ)ϵlimϵ0f(ϵ)

El punto principal de mi pregunta fue: ¿cuándo podemos realmente decir que H0 es verdadero, es decir, μ1 = μ2 en este caso?

Podemos decir lo que queramos. Sin embargo, decir que una prueba muestra que el nulo es verdadero no es consistente con la prueba de hipótesis tradicional, independientemente de los resultados. Y hacerlo no está bien fundado desde un punto de vista probatorio. La hipótesis alternativa, de que las medias no son las mismas, abarca todas las diferencias posibles en las medias. La hipótesis alternativa es "La diferencia en medias es , o , o , o , o123.5.1, ... "Podemos plantear una diferencia arbitrariamente pequeña en las medias, y eso será consistente con la hipótesis alternativa. Y con una diferencia arbitrariamente pequeña, la probabilidad dada esa media es arbitrariamente cercana a la probabilidad dada la nula. Además, el la hipótesis alternativa abarca no solo la posibilidad de que los parámetros de las distribuciones, como la media, sean diferentes, sino que hay una distribución completamente diferente. Por ejemplo, la hipótesis alternativa abarca "Las dos muestras siempre tendrán una diferencia en el significado de que esto es exactamente 1 o exactamente 0, con probabilidad .5 para cada ". Los resultados son más consistentes con eso que con el nulo.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.