Parte del problema es que la definición frecuentista de una probabilidad no permite que se aplique una probabilidad no trivial al resultado de un experimento en particular, sino solo a una población ficticia de experimentos de los cuales este experimento en particular puede considerarse una muestra. La definición de un IC es confusa, ya que es una declaración sobre esta (generalmente) población ficticia de experimentos, en lugar de sobre los datos particulares recopilados en la instancia en cuestión. Entonces, parte del problema es una de las definiciones de probabilidad: la idea del verdadero valor dentro de un intervalo particular con una probabilidad del 95% es inconsistente con un marco frecuentista.
Otro aspecto del problema es que el cálculo de la confianza frecuentista no utiliza toda la información contenida en la muestra particular relevante para delimitar el verdadero valor de la estadística. Mi pregunta "¿Hay ejemplos en los que los intervalos bayesianos creíbles son obviamente inferiores a los intervalos de confianza frecuentistas"analiza un artículo de Edwin Jaynes que tiene algunos ejemplos realmente buenos que realmente resaltan la diferencia entre los intervalos de confianza y los intervalos creíbles. Uno que es particularmente relevante para esta discusión es el Ejemplo 5, que discute la diferencia entre un intervalo creíble y un intervalo de confianza para estimar el parámetro de una distribución exponencial truncada (para un problema en el control de calidad industrial). En el ejemplo que da, ¡hay suficiente información en la muestra para estar seguro de que el verdadero valor del parámetro no se encuentra en ningún lugar en un intervalo de confianza del 90% correctamente construido!
Esto puede parecer impactante para algunos, pero la razón de este resultado es que los intervalos de confianza y los intervalos creíbles son respuestas a dos preguntas diferentes, a partir de dos interpretaciones diferentes de la probabilidad.
El intervalo de confianza es la respuesta a la solicitud: "Dame un intervalo que ponga entre paréntesis el valor verdadero del parámetro en el % de las instancias de un experimento que se repite una gran cantidad de veces". El intervalo creíble es una respuesta a la solicitud: "Dame un intervalo que ponga entre paréntesis el valor verdadero con la probabilidad dada la muestra particular que realmente he observado " . Para poder responder a la última solicitud, primero debemos adoptar cualquiera ( ) un nuevo concepto del proceso de generación de datos o (b) un concepto diferente de la definición de probabilidad misma. p100pp
La razón principal por la que un intervalo de confianza del 95% en particular no implica una probabilidad del 95% de contener la media es porque el intervalo de confianza es una respuesta a una pregunta diferente, por lo que es solo la respuesta correcta cuando la respuesta a las dos preguntas sucede a tener la misma solución numérica
En resumen, los intervalos creíbles y de confianza responden diferentes preguntas desde diferentes perspectivas; ambos son útiles, pero debe elegir el intervalo correcto para la pregunta que realmente desea hacer. Si desea un intervalo que admita una interpretación de una probabilidad del 95% (posterior) de contener el valor verdadero, elija un intervalo creíble (y, con él, la conceptualización de probabilidad correspondiente), no un intervalo de confianza. Lo que no debe hacer es adoptar una definición de probabilidad diferente en la interpretación que la utilizada en el análisis.
¡Gracias a @cardinal por sus refinamientos!
Aquí hay un ejemplo concreto, del excelente libro de David MaKay "Teoría de la información, inferencia y algoritmos de aprendizaje" (página 464):
Deje que el parámetro de interés sea y los datos , un par de puntos y dibujados independientemente de la siguiente distribución:D x 1 x 2θDx1x2
p(x|θ)=⎧⎩⎨⎪⎪1/21/20x=θ,x=θ+1,otherwise
Si es , entonces esperaríamos ver los conjuntos de datos , , y todos con igual probabilidad . Considere el intervalo de confianza39 ( 39 , 39 ) ( 39 , 40 ) ( 40 , 39 ) ( 40 , 40 ) 1 / 4θ39(39,39)(39,40)(40,39)(40,40)1/4
[θmin(D),θmax(D)]=[min(x1,x2),max(x1,x2)] .
Claramente, este es un intervalo de confianza válido del 75% porque si vuelve a muestrear los datos, , muchas veces el intervalo de confianza construido de esta manera contendría el valor verdadero el 75% del tiempo.D=(x1,x2)
Ahora considere los datos . En este caso, el intervalo de confianza frecuente del 75% sería . Sin embargo, suponiendo que el modelo del proceso de generación es correcto, podría ser 28 o 29 en este caso, y no tenemos ninguna razón para suponer que 29 es más probable que 28, por lo que la probabilidad posterior es . Entonces, en este caso, el intervalo de confianza frecuentista claramente no es un intervalo creíble del 75%, ya que solo hay un 50% de probabilidad de que contenga el verdadero valor de , dado lo que podemos inferir sobre de esta muestra en particular .[ 29 , 29 ] θ p ( θ = 28 | D ) = p ( θ = 29 | D ) = 1 / 2 theta θD=(29,29)[29,29]θp(θ=28|D)=p(θ=29|D)=1/2θθ
Sí, este es un ejemplo artificial, pero si los intervalos de confianza y los intervalos creíbles no fueran diferentes, seguirían siendo idénticos en los ejemplos artificiales.
Tenga en cuenta que la diferencia clave es que el intervalo de confianza es una declaración sobre lo que sucedería si repitiera el experimento muchas veces, el intervalo creíble es una declaración sobre lo que se puede inferir de esta muestra en particular.