¿Rechazar la hipótesis usando el valor p es equivalente a la hipótesis que no pertenece al intervalo de confianza?

Mientras derivaba formalmente el intervalo de confianza de una estimación, terminé con una fórmula que se parece mucho a la forma en que se calcula el valor . $p$

De ahí la pregunta: ¿son formalmente equivalentes? Es decir, ¿rechaza una hipótesis con un valor crítico equivalente a no pertenece al intervalo de confianza con valor crítico ? $H_0 = 0$ $\alpha$ $0$ $\alpha$

hypothesis-testing confidence-interval p-value

— Jorge Leitao
fuente

@f coppens: sí, si se utilizan dos pruebas, con estadísticas diferentes, terminará con dos intervalos de confianza diferentes. Pero creo que el OP descubrió un hecho básico: tanto el intervalo de confianza como el valor p se obtienen de la distribución de la misma estadística, por lo que ambos se pueden usar para decidir si se rechaza la hipótesis nula o no.

— StijnDeVuyst

@StijnDeVuyst: el intervalo Clopper / Pearon para una proporción y el intervalo Sterne para una proporción se derivan de la distribución binomial con el mismo tamaño (se desconoce la p porque encuentran un intervalo de confianza para p). La diferencia entre Clopper / Pearson y Sterne se debe a la asimetría de la densidad binomial. El intervalo Sterne intenta minimizar el ancho del intervalo y Clopper_pearson intenta mantener la simetría (pero debido a la asimetría del binomio, esto solo se puede encontrar aproximadamente).

No en general, no. Considere los casos en que el ancho del intervalo es una función del valor del parámetro estimado, mientras que para la prueba el ancho del intervalo es una función del hipotético. Un ejemplo obvio sería probar un binomio p. Usemos la normal aprox. por simplicidad (aunque la forma de argumento no se basa en ello). Considere n = 10 y un valor nulo de p = 0.5. Imagina observar 2 cabezas; el nulo no se rechaza (porque "2" está dentro de un intervalo del 95% aproximadamente 0,5) pero el IC para p no incluye 0,5 (porque el IC es más estrecho que el ancho del intervalo debajo del nulo.

— Glen_b -Reinstate Monica

O si necesita que sea lo suficientemente grande como para que el aprox normal sea bueno, intente 469 cabezas en 1000 lanzamientos, para H0 p = 0.5; nuevamente, el IC del 95% para p no incluye 0.5, pero la prueba del 5% no rechaza, porque el ancho del intervalo correspondiente bajo H0 es más ancho que bajo la alternativa (que es de lo que hace el IC).

— Glen_b -Reinstale a Monica el

@Glen_b: Parece que esta nueva pregunta stats.stackexchange.com/questions/173005 proporciona un ejemplo de la situación exacta que estaba describiendo aquí.

— ameba dice Reinstate Monica

Si y no.

Primero el "si"

Lo que ha observado es que cuando una prueba y un intervalo de confianza se basan en la misma estadística, existe una equivalencia entre ellos: podemos interpretar el valor como el valor más pequeño de para el cual el valor nulo del parámetro se incluiría en el intervalo de confianza . $p$ $\alpha$ $1-\alpha$

Deje que sea un parámetro desconocido en el espacio de parámetros , y deje que la muestra sea una realización de la variable aleatoria . Para simplificar, defina un intervalo de confianza como un intervalo aleatorio tal que su probabilidad de cobertura (De manera similar, podría considerar intervalos más generales, donde la probabilidad de cobertura está limitada o aproximadamente igual a . El razonamiento es análogo). $\theta$ $\Theta\subseteq\mathbb{R}$ $\mathbf{x}=(x_1,\ldots,x_n)\in\mathcal{X}^ n\subseteq\mathbb{R}^n$ $\mathbf{X}=(X_1,\ldots,X_n)$ $I_\alpha(\mathbf{X})$

P_{θ} (θ \in I_{α} (X)) = 1 - α for all α \in (0, 1) .

$P_\theta(\theta\in I_\alpha(\mathbf{X}))= 1-\alpha\qquad\mbox{for all }\alpha\in(0,1).$

1 - α

$1-\alpha$

Considere una prueba de dos lados de la hipótesis de punto nulo contra la alternativa . Deje que denote el valor p de la prueba. Para cualquier , se rechaza en el nivel if . La región de rechazo de nivel es el conjunto de que conduce al rechazo de : $H_0(\theta_0): \theta=\theta_0$ $H_1(\theta_0): \theta\neq \theta_0$ $\lambda(\theta_0,\mathbf{x})$ $\alpha\in(0,1)$ $H_0(\theta_0)$ $\alpha$ $\lambda(\theta_0,x)\leq\alpha$ $\alpha$ $\mathbf{x}$ $H_0(\theta_0)$

R_{α} (θ_{0}) = {x \in R^{n} : λ (θ_{0}, x) \leq α} .

$R_\alpha(\theta_0)=\{\mathbf{x}\in\mathbb{R}^n: \lambda(\theta_0,\mathbf{x})\leq\alpha\}.$

Ahora, considere una familia de pruebas de dos lados con valores p , para . Para dicha familia podemos definir una región de rechazo invertida $\lambda(\theta,\mathbf{x})$ $\theta\in\Theta$

Q_{α} (x) = {θ \in Θ : λ (θ, x) \leq α} .

$Q_\alpha(\mathbf{x})=\{\theta\in\Theta: \lambda(\theta,\mathbf{x})\leq\alpha\}.$

Para cualquier fija , se rechaza si , lo que sucede si y solo si , es decir, Si la prueba se basa en una estadística de prueba con una distribución nula absolutamente continua completamente especificada, entonces bajo . Entonces Dado que esta ecuación se cumple para cualquier $\theta_0$ $H_0(\theta_0)$ $\mathbf{x}\in R_\alpha(\theta_0)$ $\theta_0\in Q_\alpha(\mathbf{x})$

x \in R_{α} (θ_{0}) \Leftrightarrow θ_{0} \in Q_{α} (x) .

$\mathbf{x}\in R_\alpha(\theta_0) \Leftrightarrow \theta_0\in Q_\alpha(\mathbf{x}).$

λ (θ_{0}, X) \sim U (0, 1)

$\lambda(\theta_0,\mathbf{X})\sim \mbox{U}(0,1)$

H_{0} (θ_{0})

$H_0(\theta_0)$

P_{θ_{0}} (X \in R_{α} (θ_{0})) = P_{θ_{0}} (λ (θ_{0}, X) \leq α) = α .

$P_{\theta_0}(\mathbf{X}\in R_\alpha(\theta_0))=P_{\theta_0}(\lambda(\theta_0,\mathbf{X})\leq\alpha)=\alpha.$

θ_{0} \in Θ

$\theta_0\in\Theta$ y dado que la ecuación anterior implica que se deduce que el conjunto aleatorio siempre cubre el parámetro verdadero con probabilidad . En consecuencia, dejar que denote el complemento de , para todos tenemos lo que significa que el complemento de la región de rechazo invertido es un intervalo de confianza para .

P_{θ_{0}} (X \in R_{α} (θ_{0})) = P_{θ_{0}} (θ_{0} \in Q_{α} (X)),

$P_{\theta_0}(\mathbf{X}\in R_\alpha(\theta_0))=P_{\theta_0}(\theta_0\in Q_\alpha(\mathbf{X})),$

Q_{α} (x)

$Q_\alpha(\mathbf{x})$

θ_{0}

$\theta_0$

α

$\alpha$

Q_{α}^{C} (x)

$Q_\alpha^C(\mathbf{x})$

Q_{α} (x)

$Q_\alpha(\mathbf{x})$

θ_{0} \in Θ

$\theta_0\in\Theta$

P_{θ_{0}} (θ_{0} \in Q_{α}^{C} (X)) = 1 - α,

$P_{\theta_0}(\theta_0\in Q_\alpha^C(\mathbf{X}))=1-\alpha,$

1 - α

$1-\alpha$

θ

$\theta$

A continuación se muestra una ilustración que muestra las regiones de rechazo y los intervalos de confianza correspondientes a la prueba para una media normal, para diferentes medias nulas y diferentes medias de muestra , con . se rechaza si está en la región sombreada de color gris claro. En gris oscuro se muestra la región de rechazo y el intervalo de confianza . $z$ $\theta$ $\bar{x}$ $\sigma=1$ $H_0(\theta)$ $(\bar{x},\theta)$ $R_{0.05}(-0.9)=(-\infty,-1.52)\cup(-0.281,\infty)$ $I_{0.05}(1/2)=Q_{0.05}^C(1/2)=(-0.120,1.120)$

(Gran parte de esto está tomado de mi tesis doctoral ).

Ahora para el "no"

Arriba describí la forma estándar de construir intervalos de confianza. En este enfoque, usamos algunas estadísticas relacionadas con el parámetro desconocido para construir el intervalo. También hay intervalos basados en algoritmos de minimización, que tratan de minimizar la longitud de la condición intervalo en el valor de . Por lo general, dichos intervalos no corresponden a una prueba. $\theta$ $X$

Este fenómeno tiene que ver con problemas relacionados con que dichos intervalos no estén anidados, lo que significa que el intervalo del 94% puede ser más corto que el intervalo del 95%. Para más información sobre esto, consulte la Sección 2.5 de este reciente trabajo mío (que aparecerá en Bernoulli).

Y un segundo "no"

En algunos problemas, el intervalo de confianza estándar no se basa en la misma estadística que la prueba estándar (como lo discutió Michael Fay en este documento ). En esos casos, los intervalos de confianza y las pruebas pueden no dar los mismos resultados. Por ejemplo, puede ser rechazado por la prueba aunque 0 esté incluido en el intervalo de confianza. Esto no contradice el "sí" anterior, ya que se utilizan estadísticas diferentes. $\theta_0=0$

Y a veces "sí" no es algo bueno

Como señala f coppens en un comentario, a veces los intervalos y las pruebas tienen objetivos algo conflictivos. Queremos intervalos cortos y pruebas con alta potencia, pero el intervalo más corto no siempre corresponde a la prueba con la potencia más alta. Para algunos ejemplos de esto, vea este artículo (distribución normal multivariante), o este (distribución exponencial), o la Sección 4 de mi tesis .

Los bayesianos también pueden decir sí y no

Hace algunos años, publiqué una pregunta aquí sobre si existe una equivalencia de intervalo de prueba también en las estadísticas bayesianas. La respuesta corta es que, utilizando pruebas de hipótesis Bayesianas estándar, la respuesta es "no". Sin embargo, al reformular un poco el problema de las pruebas, la respuesta puede ser "sí". (¡Mis intentos de responder mi propia pregunta finalmente se convirtieron en un papel !)

— MånsT
fuente

Buena respuesta (+1) y (lo haces parcialmente) puede ser bueno señalar el hecho de que a veces los intervalos de confianza y las pruebas de hipótesis tienen objetivos (potencialmente) conflictivos: uno trata de encontrar un intervalo de confianza 'lo más pequeño posible' mientras para la prueba de hipótesis, uno trata de encontrar una región crítica "lo más poderosa posible".

@fcoppens: ¡Gracias por la sugerencia! He actualizado mi respuesta con algunas líneas sobre esto.

— MånsT

¡Buena tesis! ¿Trabajaste también en el intervalo Sterne?

@fcoppens: Sí, he trabajado un poco en el intervalo Sterne, principalmente en este documento

— MånsT

@amoeba: En realidad, creo que su "no" es mi segundo "no". Por lo que puedo decir, basa el intervalo de confianza en la estadística y la prueba en la estadística . Tenga en cuenta la diferencia en el denominador. Puede construir pruebas e intervalos utilizando cualquiera de las estadísticas, y siempre que use la misma estadística para ambas, no habrá discrepancias.

T_{1} = (\hat{p} - p) / \sqrt{\hat{p} (1 - \hat{p}) / n}

$T_1=(\hat{p}-p)/\sqrt{\hat{p}(1-\hat{p})/n}$

T_{2} = (\hat{p} - p) / \sqrt{p (1 - p) / n}

$T_2=(\hat{p}-p)/\sqrt{p(1-p)/n}$

— MånsT

Al observar un solo parámetro, es posible que una prueba sobre el valor del parámetro y el intervalo de confianza "no coincida" dependiendo de cómo se construyan. En particular, una prueba de hipótesis es una prueba de nivel , si rechaza la hipótesis nula una proporción del tiempo en que la hipótesis nula es verdadera. Por esa razón, se pueden usar, por ejemplo, estimaciones de parámetros del modelo (por ejemplo, la varianza) que solo son válidos bajo la hipótesis nula. Si luego se intenta construir un IC invirtiendo esta prueba, la cobertura puede no ser del todo correcta bajo la hipótesis alternativa. Por esa razón, generalmente se construirá un intervalo de confianza de manera diferente para que la cobertura también sea correcta bajo la alternativa, lo que puede conducir a un desajuste (generalmente muy pequeño). $\alpha$ $\leq \alpha$

— Björn
fuente