La respuesta aproximada a la pregunta es que un intervalo de confianza del 95% le permite tener una confianza del 95% de que el valor del parámetro verdadero se encuentra dentro del intervalo. Sin embargo, esa respuesta aproximada es incompleta e inexacta.
Lo incompleto radica en el hecho de que no está claro que "95% de confianza" significa algo concreto, o si lo hace, entonces ese significado concreto no sería acordado universalmente ni siquiera por una pequeña muestra de estadísticos. El significado de confianza depende de qué método se utilizó para obtener el intervalo y de qué modelo de inferencia se está utilizando (que espero se aclare más adelante).
¡La inexactitud radica en el hecho de que muchos intervalos de confianza no están diseñados para decirle nada sobre la ubicación del valor del parámetro verdadero para el caso experimental particular que produjo el intervalo de confianza! Eso será sorprendente para muchos, pero se deduce directamente de la filosofía de Neyman-Pearson que se establece claramente en esta cita de su artículo de 1933 "Sobre el problema de las pruebas más eficientes de hipótesis estadísticas":
Nos inclinamos a pensar que, en lo que respecta a una hipótesis particular, ninguna prueba basada en la teoría de la probabilidad puede proporcionar por sí misma ninguna evidencia valiosa de la verdad o falsedad de esa hipótesis.
Pero podemos ver el propósito de las pruebas desde otro punto de vista. Sin esperar saber si cada hipótesis separada es verdadera o falsa, podemos buscar reglas para gobernar nuestro comportamiento con respecto a ellas, y luego asegurarnos de que, a largo plazo, no nos equivoquemos demasiado.
¡Por lo tanto, los intervalos que se basan en la 'inversión' de las pruebas de hipótesis NP heredarán de esa prueba la naturaleza de haber conocido propiedades de error a largo plazo sin permitir la inferencia sobre las propiedades del experimento que las produjo! Tengo entendido que esto protege contra la inferencia inductiva, que Neyman aparentemente consideró una abominación.
Neyman afirma explícitamente el término "intervalo de confianza" y el origen de la teoría de los intervalos de confianza en su artículo de Biometrika de 1941 "Argumento fiduciario y la teoría de los intervalos de confianza". En cierto sentido, entonces, cualquier cosa que sea adecuadamente un intervalo de confianza juega con sus reglas y, por lo tanto, el significado de un intervalo individual solo puede expresarse en términos de la tasa de largo plazo a la que los intervalos calculados por ese método contienen (cubren) el verdadero valor del parámetro
Ahora necesitamos bifurcar la discusión. Un capítulo sigue la noción de "cobertura", y el otro sigue intervalos no Neymanianos que son como intervalos de confianza. Diferiré el primero para poder completar esta publicación antes de que sea demasiado larga.
Existen muchos enfoques diferentes que producen intervalos que podrían denominarse intervalos de confianza no nemanianos. El primero de ellos son los intervalos fiduciales de Fisher. (La palabra 'fiducial' puede asustar a muchos y provocar sonrisas burlonas de otros, pero lo dejaré de lado ...) Para algunos tipos de datos (p. Ej., Normal con varianza de población desconocida) los intervalos calculados por el método de Fisher son numéricamente idénticos a intervalos que serían calculados por el método de Neyman. Sin embargo, invitan a interpretaciones que son diametralmente opuestas. Los intervalos de Neymanian reflejan solo las propiedades de cobertura a largo plazo del método, mientras que los intervalos de Fisher están destinados a apoyar la inferencia inductiva con respecto a los valores de parámetros verdaderos para el experimento particular que se realizó.
El hecho de que un conjunto de límites de intervalo pueda provenir de métodos basados en cualquiera de los dos paradigmas filosóficamente distintos conduce a una situación realmente confusa: los resultados se pueden interpretar de dos maneras contradictorias. Del argumento fiducial hay una probabilidad del 95% de que un intervalo fiducial particular del 95% contendrá el valor del parámetro verdadero. Por el método de Neyman, solo sabemos que el 95% de los intervalos calculados de esa manera contendrán el valor del parámetro verdadero, y tienen que decir cosas confusas sobre la probabilidad de que el intervalo que contiene el valor del parámetro verdadero sea desconocido pero 1 o 0.
En gran medida, el enfoque de Neyman ha dominado el de Fisher. Eso es muy desafortunado, en mi opinión, porque no conduce a una interpretación natural de los intervalos. (Vuelva a leer la cita anterior de Neyman y Pearson y vea si coincide con su interpretación natural de los resultados experimentales. Lo más probable es que no sea así).
Si un intervalo puede interpretarse correctamente en términos de tasas de error globales, pero también correctamente en términos de inferencia local, no veo una buena razón para prohibir a los usuarios de intervalos la interpretación más natural que ofrece este último. Por lo tanto, mi sugerencia es que la interpretación adecuada de un intervalo de confianza es AMBAS de las siguientes:
Neymanian: este intervalo del 95% se construyó mediante un método que produce intervalos que cubren el verdadero valor del parámetro en el 95% de las ocasiones a largo plazo (... de nuestra experiencia estadística).
Pescador: este intervalo del 95% tiene una probabilidad del 95% de cubrir el valor del parámetro verdadero.
(Los métodos bayesianos y de probabilidad también generarán intervalos con propiedades frecuentas deseables. Dichos intervalos invitan a interpretaciones ligeramente diferentes que probablemente se sentirán más naturales que el Neymaniano).