¿Son útiles los intervalos de confianza?


11

En las estadísticas frecuentistas, un intervalo de confianza del 95% es un procedimiento que produce intervalos que, si se repite un número infinito de veces, contendría el parámetro verdadero el 95% del tiempo. ¿Por qué es útil esto?

Los intervalos de confianza a menudo se malinterpretan. Son no un intervalo que podemos estar 95% seguro de que el parámetro es de (a menos que usted está utilizando el intervalo de credibilidad bayesiano similar). Los intervalos de confianza se sienten como un cebo para mí.

El único caso de uso que se me ocurre es proporcionar el rango de valores para el cual no podríamos rechazar la hipótesis nula de que el parámetro es ese valor. ¿No proporcionarían los valores p esta información, pero mejor? ¿Sin ser tan engañoso?

En resumen: ¿por qué necesitamos intervalos de confianza? ¿Cómo son, cuando se interpretan correctamente, útiles?



El intervalo de credibilidad Bayesiano no es ni un intervalo que podemos estar 95% seguro de que el parámetro es en.
Sexto Empírico

@MartijnWeterings: a menos que esté 100% seguro de su anterior.
Xi'an

@ Xi'an que funciona cuando un parámetro es 100% seguro de ser considerado razonablemente una variable aleatoria y un experimento es como el muestreo de una distribución de frecuencia conjunta , es decir, utiliza la regla de Bayes como: sin 'previo' explícito. No es lo mismo para un parámetro que se considera fijo. Entonces, las creencias posteriores requerirían que también 'actualice' la distribución de frecuencia conjunta anterior de y . Es un poco absurdo afirmar que está actualizando 'creencias previas' que eran 100% seguras. P ( θ , x ) P ( θ | x ) = P ( θ , x ) / P ( x ) X θθP(θ,x)P(θ|x)=P(θ,x)/P(x)Xθ
Sextus Empiricus

Respuestas:


10

Siempre que el intervalo de confianza se trate como aleatorio (es decir, visto desde la perspectiva de tratar los datos como un conjunto de variables aleatorias que aún no hemos visto), podemos hacer declaraciones de probabilidad útiles al respecto. Específicamente, suponga que tiene un intervalo de confianza en el nivel para el parámetro , y el intervalo tiene límites . Entonces podemos decir que:1αθL(x)U(x)

P(L(X)θU(X)|θ)=1αfor all θΘ.

Salir del paradigma frecuentista y marginar sobre para cualquier distribución previa da el resultado de probabilidad marginal correspondiente (más débil):θ

P(L(X)θU(X))=1α.

Una vez que fijamos los límites del intervalo de confianza mediante la fijación de los datos a , ya no recurrimos a esta declaración de probabilidad, porque ahora hemos arreglado los datos. Sin embargo, si el intervalo de confianza se trata como un intervalo aleatorio, entonces podemos hacer esta declaración de probabilidad, es decir, con probabilidad el parámetro caerá dentro del intervalo (aleatorio).X=x1αθ

Dentro de las estadísticas frecuentistas, los enunciados de probabilidad son enunciados sobre frecuencias relativas en ensayos repetidos infinitamente. Pero eso es cierto para cada enunciado de probabilidad en el paradigma frecuentista, por lo que si su objeción es a enunciados de frecuencia relativa, esa no es una objeción específica de los intervalos de confianza. Si nos movemos fuera del paradigma frecuentista, entonces podemos decir legítimamente que un intervalo de confianza contiene su parámetro objetivo con la probabilidad deseada, siempre que hagamos esta declaración de probabilidad marginalmente (es decir, no condicional a los datos) y así trataremos el intervalo de confianza en su sentido aleatorio

No sé sobre los demás, pero eso me parece un resultado de probabilidad bastante poderoso y una justificación razonable para esta forma de intervalo. Yo mismo soy más partidario de los métodos bayesianos, pero los resultados de probabilidad que respaldan los intervalos de confianza (en su sentido aleatorio) son resultados poderosos que no deben ser detectados.


1
"Salir del paradigma frecuentista" ¿no es ese exactamente el problema? En general, queremos un intervalo que contenga el valor verdadero de un parámetro de interés con alguna probabilidad. Ningún análisis frecuentista puede darnos eso, y reinterpretarlo implícitamente como un análisis bayesiano conduce a malentendidos. Es mejor responder la pregunta directamente a través de un intervalo bayesiano creíble. Hay usos para intervalos de confianza en los que realiza repetidamente "experimentos", por ejemplo, control de calidad.
Dikran Marsupial

No se trata de reinterpretar implícitamente como bayesiano (esto último condicionaría a los datos para obtener un posterior). La respuesta es simplemente mostrarle al OP que podemos hacer declaraciones de probabilidad útiles sobre el intervalo de confianza. En cuanto a las objeciones más generales al paradigma frecuentista, son buenas y buenas, pero no son objeciones específicas a los intervalos de confianza.
Ben - Restablece a Mónica el

1
Como se puede ver en las declaraciones de probabilidad anteriores, podemos garantizar que el CI contiene el parámetro con cierta probabilidad, siempre y cuando miramos esto a priori .
Ben - Restablece a Mónica el

1
Si se ha salido del paradigma frecuentista, pero no se está moviendo a un marco bayesiano, ¿qué marco es? No estaba expresando una objeción al frecuentes, creo que debería usar el marco que responde más directamente a la pregunta que realmente desea plantear. La confianza y los intervalos creíbles responden diferentes preguntas.
Dikran Marsupial

1
@Dikran: La declaración de probabilidad se mantiene como está escrita y es una declaración matemática pura. Realmente no veo cómo puede objetar razonablemente esto.
Ben - Restablece a Monica

5

Estoy de acuerdo con @Ben arriba, y pensé que proporcionaría un ejemplo simple de dónde un intervalo bayesiano versus un intervalo frecuente sería de valor en la misma circunstancia.

Imagine una fábrica con líneas de montaje paralelas. Es costoso detener una línea y, al mismo tiempo, quieren producir productos de calidad. Les preocupan tanto los falsos positivos como los falsos negativos a lo largo del tiempo. Para la fábrica, es un proceso promedio: tanto el poder como la protección garantizada contra falsos positivos son importantes. Los intervalos de confianza, así como los intervalos de tolerancia, son importantes para la fábrica. No obstante, las máquinas se desalinearán, es decir, , y el equipo de detección observará eventos espurios. El resultado promedio es importante, mientras que el resultado específico es un detalle operativo.θΘ

En el lado opuesto de esto hay un solo cliente que compra un solo producto o un solo lote de productos. No les importan las propiedades de repetición de la línea de ensamblaje. Les importa el único producto que compraron. Imaginemos que el cliente es la NASA y necesita que el producto cumpla con una especificación, digamos No les importa la calidad de las piezas que no compraron. Necesitan un intervalo bayesiano de alguna forma. Además, una sola falla podría matar a muchos astronautas y costar miles de millones de dólares. Necesitan saber que cada parte comprada cumple con las especificaciones. Promediar sería mortal. Para un cohete Saturno V, una tasa de defectos del uno por ciento habría implicado 10,000 piezas defectuosas durante los vuelos del Apollo. Requerieron 0% de defectos en todas las misiones.γΓ.

Le preocupa tener un intervalo de confianza cuando trabaja en el espacio muestral como lo hace una fábrica. Está creando el espacio muestral. Le preocupan los intervalos creíbles cuando trabaja en el espacio de parámetros, como lo estaría haciendo un cliente. Si no te importan las observaciones fuera de la tuya, entonces eres bayesiano. Si te importan las muestras que no se vieron, pero que podrían haberse visto, entonces eres un Frecuentista.

¿Le preocupa el promedio a largo plazo o el evento específico?


¿La NASA realmente compra piezas basadas en intervalos bayesianos? Entiendo tu punto, pero ¿lo hacen realmente ?
Aksakal

@ Aksakal No lo sé. Juran, por supuesto, escribió un trabajo maravilloso sobre aseguramiento de la calidad en la NASA, pero no recuerdo en absoluto si el proceso de prueba se discutió, ya que ha pasado más de una década desde que lo leí. Sé que W Edwards Deming se opuso a los intervalos de confianza a favor de intervalos creíbles, pero de nuevo, eso no corresponde directamente. Mi conjetura, y conozco personas que lo sabrían, pero es inconveniente preguntar en este momento, es que usan métodos Frecuentistas porque eso es en lo que la mayoría de las personas están capacitadas. Usas el martillo que tienes.
Dave Harris el

Sin embargo, ¿es el caso de "un martillo"? ¿Quizás tiene algo que ver con la forma en que están las cosas en ingeniería?
Aksakal

@ Aksakal No estoy calificado para opinar sobre eso.
Dave Harris el

Supongamos que una compañía hace partes, con una prueba de hipótesis compuesta de nivel ha probado para detectar errores: de ellas pasan sin errores y de ellas fallan. Puede darle a la NASA una garantía razonable. La cantidad máxima de productos que pueden pasar accidentalmente la prueba (considerada erróneamente sin error) es . Sabiendo que vendió artículos, puede calcular una probabilidad máxima de que una parte vendida no esté de acuerdo con la hipótesis alternativa . α H 0 : γ > Γ x y n α x γ ΓnαH0:γ>ΓxynαxγΓ
Sextus Empiricus

4

Tenga en cuenta que según la definición estricta del intervalo de confianza, es posible que no tengan ningún significado, es decir, que no sean informativos sobre el parámetro de interés. Sin embargo, en la práctica, generalmente son muy significativos.

Como ejemplo de un intervalo de confianza sin sentido, supongamos que tengo un procedimiento que el 95% del tiempo produce , y el 5% del tiempo produce [ , ], donde son cualquier par de variables aleatorias como . Entonces este es un procedimiento que captura cualquier probabilidad al menos el 95% del tiempo, por lo que técnicamente es un intervalo de confianza válido para cualquier probabilidad. Sin embargo, si le dijera que el intervalo producido por este procedimiento fue para una dada , debería darse cuenta de que realmente no ha aprendido nada sobre .[0,1]UminUmaxUmin,Umax U m i n < U m a x [ 0.01 , 0.011 ] p pUmin<Umax[0.01,0.011]pp

Por otro lado, la mayoría de los intervalos de confianza se construyen de una manera más útil. Por ejemplo, si le dije que fue creado usando un procedimiento de Wald Interval, entonces sabemos que

p^ ˙ N(p,se)

donde es el error estándar. Esta es una declaración muy significativa sobre cómo relaciona con . Convertir esto en un intervalo de confianza es simplemente un intento de simplificar este resultado a alguien que no está tan familiarizado con las distribuciones normales. Tampoco es solo decir que es solo una herramienta para las personas que no conocen las distribuciones normales; Por ejemplo, el percentil bootstrap es una herramienta para resumir el error entre el estimador y el parámetro verdadero cuando la distribución de este error puede no ser gaussiana.sep pp^p


2

Los intervalos de confianza no solo son útiles, sino que son esenciales en algún campo, como la física. Desafortunadamente, la mayor parte del ruido con respecto a los IC proviene de los bayesianos atrapados en falsos debates con los frequentistas, generalmente en el contexto de las "ciencias" sociales y otras disciplinas similares a la ciencia.

Supongamos que mido una cantidad en Física, como la carga de electricidad. Siempre le proporcionaría la medida de incertidumbre del valor, que generalmente es una desviación estándar. Dado que, en Física, los errores son a menudo gaussianos, esto se traduce directamente en CI. Sin embargo, cuando los errores no son gaussianos, se vuelve un poco complicado, algunas integrales necesitan ser evaluadas, etc. Sin embargo, nada demasiado esotérico por lo general.

Aquí hay una breve presentación sobre el CI en física de partículas y la definición:

declaración cuantitativa sobre la fracción de veces que dicho intervalo contendría el valor verdadero del parámetro en una gran cantidad de experimentos repetidos

Tenga en cuenta que, en Física, los "experimentos repetidos" a menudo tienen un significado literal: se supone que en realidad puede repetir los experimentos en el documento, y realmente observaría esa fracción. Entonces, el CI tiene un significado casi literal para usted, y es solo una forma de expresar la información sobre la incertidumbre de la medición. No es un experimento mental, ni una opinión subjetiva, ni tus sentimientos ni los míos sobre las probabilidades, etc. Es lo que pudiste idear a partir de los experimentos, y lo que debería ser capaz de observar al reproducir tu experimento.


1

Este hilo se ha convertido rápidamente en el debate Frequentista vs Bayesiano, y eso no es fácil de resolver. La matemática en ambos enfoques es sólida, por lo que siempre se reduce a preferencias filosóficas. La interpretación frecuentista de la probabilidad como el límite de la frecuencia relativa de un evento está justificada por la fuerte ley de los grandes números; independientemente de su interpretación preferida de la probabilidad, la frecuencia relativa de un evento convergerá a su probabilidad con la probabilidad 1.

Los intervalos de confianza frecuentes son más difíciles de interpretar que los intervalos bayesianos creíbles. Al tratar una cantidad desconocida como una variable aleatoria, los bayesianos pueden afirmar que un intervalo contiene esa cantidad con cierta probabilidad. Los frecuentes se niegan a tratar algunas cantidades como variables aleatorias, y cualquier ecuación que contenga solo constantes solo puede ser verdadera o falsa. Entonces, al estimar una constante desconocida, los frecuentas deben vincularlos con un intervalo ALEATORIO para involucrar la probabilidad. En lugar de un intervalo que contiene una variable aleatoria con alguna probabilidad, un método frecuentista genera muchos intervalos posibles diferentes, algunos de los cuales contienen la constante desconocida. Si la probabilidad de cobertura es razonablemente alta, es un salto razonable de fe afirmar que un intervalo particular contiene la constante desconocida (nota, no "

Un bayesiano se resistiría ante tal salto de fe tanto como un frequentista se resiste a tratar cualquier cantidad desconocida como una variable aleatoria. El método de construcción frecuente Neyman, de hecho, expuso un problema vergonzoso con tales saltos de fe. Sin prevenirlo activamente (ver Feldman y Cousins, 1997 para un enfoque), los resultados raros pueden generar intervalos de confianza VACÍOS para un parámetro de distribución. ¡Tal salto de fe sería muy irrazonable! He visto a algunos bayesianos usar ese ejemplo para burlarse de los métodos frecuentados, mientras que los frecuentas suelen responder con "bueno, todavía obtengo un intervalo correcto la mayor parte del tiempo y sin hacer suposiciones falsas". Señalaré que el estancamiento bayesiano / frecuentista no es importante para la mayoría de los que aplican sus métodos.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.