¿Cuál es la diferencia entre intervalos de confianza y pruebas de hipótesis?

He leído sobre controversias con respecto a la prueba de hipótesis con algunos comentaristas que sugieren que la prueba de hipótesis no debe usarse. Algunos comentaristas sugieren que los intervalos de confianza deberían usarse en su lugar.

¿Cuál es la diferencia entre intervalos de confianza y pruebas de hipótesis? Se agradecería una explicación con referencia y ejemplos.

hypothesis-testing confidence-interval

— estadísticas de amor
fuente

Creo que quería preguntarse por qué informar los resultados de las pruebas de hipótesis al mostrar el intervalo de confianza es mejor que simplemente decir que algo se confirma o rechaza en algún nivel de valor p.

Debería considerar revisar algunas de sus otras preguntas como respondidas.

— Andy W

Respuestas:

Puede usar un intervalo de confianza (IC) para la prueba de hipótesis. En el caso típico, si el IC para un efecto no abarca 0, puede rechazar la hipótesis nula. Pero un IC puede usarse para más, mientras que informar si se ha aprobado es el límite de la utilidad de una prueba.

La razón por la que se recomienda usar CI en lugar de solo una prueba t, por ejemplo, es porque puede hacer algo más que probar hipótesis. Puede hacer una declaración sobre el rango de efectos que cree que es probable (los que están en el IC). No puedes hacer eso con solo una prueba t. También puede usarlo para hacer declaraciones sobre el valor nulo, lo que no puede hacer con una prueba t. Si la prueba t no rechaza el valor nulo, entonces simplemente dice que no puede rechazar el valor nulo, lo que no dice mucho. Pero si tiene un intervalo de confianza estrecho alrededor del valor nulo, entonces puede sugerir que el valor nulo, o un valor cercano a él, es probablemente el verdadero valor y sugerir que el efecto del tratamiento, o variable independiente, es demasiado pequeño para ser significativo ( o que tu experimento no

Agregado más tarde: realmente debería haber dicho eso, aunque puedes usar un CI como una prueba, no es una. Es una estimación de un rango donde crees que se encuentran los valores de los parámetros. Puede hacer pruebas como inferencias, pero es mucho mejor que nunca hable de esa manera.

¿Cual es mejor?

A) El efecto es 0.6, t (29) = 2.8, p <0.05. Este efecto estadísticamente significativo es ... (se produce cierta discusión sobre esta significación estadística sin mencionar o incluso tener una gran capacidad para discutir la implicación práctica de la magnitud del hallazgo ... bajo un marco de Neyman-Pearson, la magnitud de la t y Los valores de p carecen de sentido y todo lo que puede discutir es si el efecto está presente o no está presente. Nunca se puede hablar de que realmente no hay un efecto basado en la prueba).

B) Usando un intervalo de confianza del 95%, calculo el efecto entre 0.2 y 1.0. (Se sigue debatiendo sobre el efecto real del interés, ya sea que los valores plausibles sean aquellos que tienen algún significado particular y cualquier uso de la palabra significativo para exactamente lo que se supone que significa. Además, el ancho del CI puede ir directamente a una discusión sobre si este es un hallazgo sólido o si solo puede llegar a una conclusión más tentativa)

Si tomó una clase de estadística básica, podría gravitar inicialmente hacia A. Y puede haber algunos casos en los que sea una mejor manera de informar un resultado. Pero para la mayoría del trabajo, B es, con mucho, superior. Una estimación de rango no es una prueba.

— John
fuente

Una adición a los comentarios de @john: Primero, a veces la pregunta clave es si el IC abarca 1, no 0 (por ejemplo, regresión logística).

— Peter Flom - Restablece a Monica

Chicos, es 1 o es 0? (¡Esto me parece muy esclarecedor, así que supongo que necesito aprender el valor correcto para tener en cuenta!) @John

— Adhesh Josh

¿Cuál es la relación entre el IC del 95% y la hipótesis de prueba de dos colas con alfa = 0.05? son iguales? Si no es así, ¿cómo?

— love-stats

love-stats, cuando se usan igual son iguales.

— John

Adhesh Josh, la hipótesis nula puede ser cualquier valor fijo especificado de antemano. Esa es otra característica del CI sobre el NHST directo. Es muy fácil de usar cuando desea probar contra un valor hipotético distinto de 0.

— Juan

$x_1, x_2, \ldots, x_n$ $\mu$ $\mathcal N(\mu,1)$ $\mu = m$ $H_0: \mu = m$ $0.05.$ $v = (x_1 + x_2 + \cdots + x_n ) / n$ $A(m)$ $v$ $A(m)$ $v$ $\mu=m$ $\mathcal N(m,1)$ $\mu$ $m$ $v$ $A(m)$ $m$ $v$ $0$ $\mu = 0$

$v$ $\mu$ $m$ $\mu=m$ $0.05.$ $m$ $\mu=m$ $0.02$ $1-0.98$

— DavidR
fuente

Lea esto ya que el valor p no puede interpretarse como el nivel más pequeño de prueba para rechazar nulo. "Ya se ha demostrado que interpretar los valores de p en experimentos individuales (o en curso) no está permitido en un contexto de prueba de hipótesis de Neyman-Pearson. El cálculo del valor de p depende solo de la verdad de la hipótesis nula. El valor de p no mide la cantidad de evidencia que respalda la HA; es una medida de evidencia inductiva contra H0 ". 'Fuente: ftp.stat.duke.edu/WorkingPapers/03-26.pdf

— sree22

@ sree22 ¿puede ampliar esto o sugerir una nueva redacción? Estaba tratando de dar una definición de valor p en este contexto, no una interpretación.

— DavidR

'Estudiante' abogó por intervalos de confianza con el argumento de que podían mostrar qué efectos eran más importantes y cuáles eran más significativos.

Por ejemplo, si encontró dos efectos donde el primero tuvo un intervalo de confianza para su impacto financiero de £ 5 a £ 6, mientras que el segundo tuvo un intervalo de confianza de £ 200 a £ 2800. El primero es más estadísticamente significativo, pero el segundo es probablemente más importante.

— Enrique
fuente