Confundido sobre el intervalo de confianza

Estoy confundido sobre el concepto de intervalo de confianza. Específicamente, suponga que hay una variable gaussiana con conocida, y estoy interesado en el límite inferior de la media con un nivel de confianza del . $X \sim N(\mu, \sigma)$ $\sigma$ $\mu_L$ $95\%$

Haré el experimento veces y observaré , , , , . $5$ $X_1$ $X_2$ $X_3$ $X_4$ $X_5$

Opción 1: trato cada muestra por separado y puedo calcular para cada . Y luego supongo que hay alguna forma (no sé cómo) de calcular el límite inferior real de estos 5 's. $\mu_L = X_i - \sigma z$ $X_i$ $\mu_L$

Opción 2: por otro lado, si tomo , puedo calcular . (suponiendo que es normal, también podemos usar t-stat). $T = (X_1+X_2+X_3+X_4+X_5)/5$ $\mu_L = T - \sigma/\sqrt{5}z$ $T$

¿Existe algún método que no sea la opción 2 para calcular un límite inferior basado en las $5$ muestras? Y para la opción 1, ¿hay alguna manera de calcular el límite inferior basado en los 5 límites inferiores calculados?

confidence-interval

— calbear
fuente

Esta es una gran pregunta porque explora la posibilidad de procedimientos alternativos y nos pide que pensemos por qué y cómo un procedimiento podría ser superior a otro.

La respuesta corta es que hay infinitas maneras en que podríamos diseñar un procedimiento para obtener un límite de confianza más bajo para la media, pero algunas de estas son mejores y otras peores (en un sentido que es significativo y bien definido). La opción 2 es un procedimiento excelente, porque una persona que lo use necesitaría recolectar menos de la mitad de los datos que una persona que usa la opción 1 para obtener resultados de calidad comparable. La mitad de los datos generalmente significa la mitad del presupuesto y la mitad del tiempo, por lo que estamos hablando de una diferencia sustancial y económicamente importante. Esto proporciona una demostración concreta del valor de la teoría estadística.

En lugar de repetir la teoría, de la cual existen muchas cuentas excelentes de libros de texto, exploremos rápidamente tres procedimientos de límite de confianza inferior (LCL) para variaciones normales independientes de desviación estándar conocida. Elegí tres naturales y prometedores sugeridos por la pregunta. Cada uno de ellos está determinado por un nivel de confianza deseado : $n$ $1-\alpha$

$t_{\min} = \min(X_1, X_2, \ldots, X_n) - k^{\min}_{\alpha, n, \sigma} \sigma$ $k^{\min}_{\alpha, n, \sigma}$ $t_{\min}$ $\mu$ $\alpha$ $\Pr(t_{\min} \gt \mu) = \alpha$
Opción 1b, el procedimiento "máximo" . El límite de confianza inferior se establece igual a . El valor del número se determina de modo que la probabilidad de que exceda la media verdadera es solo ; es decir, . $t_{\max} = \max(X_1, X_2, \ldots, X_n) - k^{\max}_{\alpha, n, \sigma} \sigma$ $k^{\max}_{\alpha, n, \sigma}$ $t_{\max}$ $\mu$ $\alpha$ $\Pr(t_{\max} \gt \mu) = \alpha$
Opción 2, el procedimiento "medio" . El límite de confianza inferior se establece igual a . El valor del número se determina de modo que la probabilidad de que exceda la media verdadera es solo ; es decir, . $t_\text{mean} = \text{mean}(X_1, X_2, \ldots, X_n) - k^\text{mean}_{\alpha, n, \sigma} \sigma$ $k^\text{mean}_{\alpha, n, \sigma}$ $t_\text{mean}$ $\mu$ $\alpha$ $\Pr(t_\text{mean} \gt \mu) = \alpha$

Como es bien sabido, donde ; es la función de probabilidad acumulativa de la distribución Normal estándar. Esta es la fórmula citada en la pregunta. Una taquigrafía matemática es $k^\text{mean}_{\alpha, n, \sigma} = z_\alpha/\sqrt{n}$ $\Phi(z_\alpha) = 1-\alpha$ $\Phi$

$k^\text{mean}_{\alpha, n, \sigma} = \Phi^{-1}(1-\alpha)/\sqrt{n}.$

Las fórmulas para los procedimientos min y max son menos conocidas pero fáciles de determinar:

$k^\text{min}_{\alpha,n,\sigma} = \Phi^{-1}(1-\alpha^{1/n})$ .
$k^\text{max}_{\alpha, n, \sigma} = \Phi^{-1}((1-\alpha)^{1/n})$ .

Por medio de una simulación, podemos ver que las tres fórmulas funcionan. El siguiente Rcódigo lleva a cabo el experimento por n.trialsseparado e informa los tres LCL para cada prueba:

simulate <- function(n.trials=100, alpha=.05, n=5) {
  z.min <- qnorm(1-alpha^(1/n))
  z.mean <- qnorm(1-alpha) / sqrt(n)
  z.max <- qnorm((1-alpha)^(1/n))
  f <- function() {
    x <- rnorm(n); 
    c(max=max(x) - z.max, min=min(x) - z.min, mean=mean(x) - z.mean)
  }    
  replicate(n.trials, f())
}

(El código no se molesta en trabajar con distribuciones normales generales: como somos libres de elegir las unidades de medida y el cero de la escala de medición, es suficiente estudiar el caso , Por eso ninguna de las fórmulas para los distintos realmente depende de .) $\mu=0$ $\sigma=1$ $k^*_{\alpha,n,\sigma}$ $\sigma$

10,000 ensayos proporcionarán suficiente precisión. Ejecutemos la simulación y calculemos la frecuencia con la que cada procedimiento no puede producir un límite de confianza menor que la media real:

set.seed(17)
sim <- simulate(10000, alpha=.05, n=5)
apply(sim > 0, 1, mean)

La salida es

   max    min   mean 
0.0515 0.0527 0.0520

Estas frecuencias están lo suficientemente cerca del valor estipulado de que podemos estar satisfechos de que los tres procedimientos funcionan como se anuncia: cada uno de ellos produce un límite de confianza inferior al 95% para la media. $\alpha=.05$

(Si le preocupa que estas frecuencias difieran ligeramente de , puede ejecutar más pruebas. Con un millón de pruebas, se acercan aún más a : .) $.05$ $.05$ $(0.050547, 0.049877, 0.050274)$

Sin embargo, una cosa que nos gustaría de cualquier procedimiento de LCL es que no solo debe ser correcta la proporción de tiempo prevista, sino que también debe estar cerca de ser correcta. Por ejemplo, imagine un estadístico (hipotético) que, en virtud de una profunda sensibilidad religiosa, puede consultar el oráculo de Delfos (de Apolo) en lugar de recopilar los datos y hacer un cálculo LCL. Cuando ella le pide al dios un 95% de LCL, el dios simplemente adivinará el verdadero significado y le dirá eso, después de todo, él es perfecto. Pero, debido a que el dios no desea compartir plenamente sus habilidades con la humanidad (que debe seguir siendo falible), el 5% del tiempo dará un LCL que es $X_1, X_2, \ldots, X_n$ $100\sigma$ demasiado alto. Este procedimiento de Delphic también es un LCL del 95%, pero sería aterrador de usar en la práctica debido al riesgo de que produzca un límite realmente horrible.

Podemos evaluar cuán precisos tienden a ser nuestros tres procedimientos de LCL. Una buena manera es observar sus distribuciones de muestreo: de manera equivalente, los histogramas de muchos valores simulados también funcionarán. Aquí están. Primero, sin embargo, el código para producirlos:

dx <- -min(sim)/12
breaks <- seq(from=min(sim), to=max(sim)+dx, by=dx)
par(mfcol=c(1,3))
tmp <- sapply(c("min", "max", "mean"), function(s) {
  hist(sim[s,], breaks=breaks, col="#70C0E0", 
       main=paste("Histogram of", s, "procedure"), 
       yaxt="n", ylab="", xlab="LCL");
  hist(sim[s, sim[s,] > 0], breaks=breaks, col="Red", add=TRUE)
})

Histogramas

Se muestran en ejes x idénticos (pero ejes verticales ligeramente diferentes). Lo que nos interesa es

Las partes rojas a la derecha de cuyas áreas representan la frecuencia con la que los procedimientos no subestiman la media, son casi iguales a la cantidad deseada, . (Ya lo habíamos confirmado numéricamente). $0$ $\alpha=.05$
Los diferenciales de los resultados de la simulación. Evidentemente, el histograma de la derecha es más angosto que los otros dos: describe un procedimiento que de hecho subestima la media (igual a ) completamente el % del tiempo, pero incluso cuando lo hace, esa subestimación está casi siempre dentro de del Verdadera media. Los otros dos histogramas tienen una propensión a subestimar la media real por un poco más, hasta aproximadamente demasiado bajo. Además, cuando sobrestiman la verdadera media, tienden a sobrestimarla en más del procedimiento correcto. Estas cualidades los hacen inferiores al histograma más a la derecha. $0$ $95$ $2 \sigma$ $3\sigma$

El histograma de la derecha describe la Opción 2, el procedimiento convencional de LCL.

Una medida de estos diferenciales es la desviación estándar de los resultados de la simulación:

> apply(sim, 1, sd)
     max      min     mean 
0.673834 0.677219 0.453829

Estos números nos dicen que los procedimientos máximo y mínimo tienen extensiones iguales (de aproximadamente ) y el procedimiento medio normal tiene solo dos tercios de su extensión (de aproximadamente ). Esto confirma la evidencia de nuestros ojos. $0.68$ $0.45$

Los cuadrados de las desviaciones estándar son las varianzas, iguales a , y , respectivamente. Las variaciones pueden estar relacionadas con la cantidad de datos : si un analista recomienda el procedimiento máximo (o mínimo ), entonces para lograr el margen estrecho exhibido por el procedimiento habitual, su cliente tendría que obtener veces más datos ... más del doble. En otras palabras, al usar la Opción 1, estaría pagando más del doble por su información que al usar la Opción 2. $0.45$ $0.45$ $0.20$ $0.45/0.21$

— whuber
fuente

Nunca dejas de asombrarme.

— Momo

+1 @whuber Esta es una buena ilustración. Al describir los intervalos de confianza de arranque, Efron habla sobre la precisión y la corrección. La precisión es que el verdadero nivel de confianza del intervalo está cerca del valor anunciado. Sus 3 ejemplos son todos precisos. La corrección se refiere a lo mejor. Para un intervalo de confianza de dos lados que significaría uno preciso con el ancho más corto (el intervalo o límite basado en la media en su caso). Su ejemplo es interesante porque los tres métodos son al menos algo competitivos.

— Michael R. Chernick

La opción 1 de OP no está cerca de ser competitiva por las razones que di en mi respuesta.

— Michael R. Chernick

@Michael Estoy de acuerdo en que su interpretación de la Opción 1 no es competitiva. Lo que encontré interesante, y exploré aquí, es que hay algunas interpretaciones más viables de cómo uno podría "calcular el límite inferior real" a partir de cinco separadas, dos de las cuales he examinado aquí. Probablemente también debería haber examinado detenidamente una opción "mediana": no será terriblemente inferior al cálculo habitual (aproximadamente un 40% menos eficiente).

— whuber

La primera opción no tiene en cuenta la variación reducida que obtiene de la muestra. La primera opción le ofrece cinco límites de confianza inferiores del 95% para la media basada en una muestra de tamaño 1 en cada caso. Combinarlos promediando no crea un límite que pueda interpretar como un límite inferior del 95%. Nadie haría eso. La segunda opción es lo que se hace. El promedio de las cinco observaciones independientes tiene una varianza menor en un factor de 6 que la varianza de una sola muestra. Por lo tanto, le ofrece un límite inferior mucho mejor que cualquiera de los cinco que calculó de la primera manera.

Además, si se puede suponer que X es iid normal, entonces T será normal. $_i$

— Michael R. Chernick
fuente