Resumen
Cuando puede suponer poco o nada sobre la verdadera ley de probabilidad y puede inferir poco sobre ella, como es el caso de pequeñas muestras nobservaciones: entonces un par de estadísticas de orden elegidas adecuadamente constituirán un intervalo de confianza para la mediana. Qué estadísticas de pedido elegir se pueden encontrar fácilmente con un análisis rápido del Binomial(n,1/2)distribución. En la práctica, se deben tomar algunas decisiones: estas se analizan e ilustran al final de esta publicación.
Por cierto, el mismo análisis se puede utilizar para construir intervalos de confianza para cualquier cuantil q (de los cuales la mediana, correspondiente a q=50%, es un ejemplo). El binomio(n,q) La distribución gobierna la solución en este caso.
Introducción
Recuerde lo que significa un intervalo de confianza (IC). La configuración es una muestra aleatoria independienteX=(X1,X2,…,Xn) con cada Xi regido por la misma distribución F. Se supone solo queF es un elemento de un conjunto Ωde posibles distribuciones. Cada uno de ellos tiene una medianaF1/2. Para cualquier fijoα Entre 0 y 1, un CI de nivel α es un par de funciones (también conocido como "estadísticas"), L y Utal que
PrF(L(X)≤F1/2≤U(X))≥1−α.
El lado derecho es la cobertura del CI para la distribución.F.
Aparte: para que esto sea útil, también preferimos que (1) el mínimo de las coberturas sobreF∈Ω ser lo más pequeño posible y (2) la duración esperada del intervalo, EF(U(X)−L(X)), debería ser corto para todos o "la mayoría" F∈Ω.
Análisis
Supongamos que no asumimos nada sobre Ω. En esta situación, todavía podemos explotar las estadísticas de pedidos . Estos son los valores específicos en la muestra ordenada. Para simplificar la notación, ordenemos la muestra de una vez por todas para que
X1≤X2≤⋯≤Xn.
El valor Xi es el ithorden estadístico de la muestra. Ya que no estamos asumiendo nada sobreΩ, no sabemos nada de F al principio, por lo que no podemos inferir mucho sobre los intervalos probables entre cada Xi y su vecino Xi+1. Sin embargo, todavía podemos razonar cuantitativamente sobre los valores individuales: ¿cuál es la probabilidad de queXi no excede la mediana de F? Para resolver esto, dejeY ser una variable aleatoria gobernada por F, y deja
πF=PrF(Y≤F1/2)
ser la posibilidad de que Y no excede la mediana de F. Entonces cuandoXi≤F1/2 lo sabemos (desde X1≤⋯≤Xi≤F1/2) que nuestra muestra original no ordenada de n los valores deben haber contenido al menos i valores que no excedan F1/2.
Este es un problema binomial. Formalmente, si definimos la variable aleatoriaZ A igual 1 cuando Y≤F1/2 y 0 de lo contrario, lo anterior muestra que Z tiene una distribución de Bernoulli con parámetro πF. Un "éxito" consiste en observar un valor igual o inferior a la mediana. Por lo tantoPr(Xi>F1/2) está dada por la probabilidad binomial asociada con menos de i éxitos:
Pr(Xi>F1/2)=∑j=0i−1(nj)πjF(1−πF)n−j.
Probablemente notaste que πF≥1/2. De hecho, para muchas distribuciones los dos valores son iguales: difieren solo cuandoF asigna probabilidad positiva a la mediana F1/2. Para analizar la diferencia, escribaπF=1/2+ε para ε≥0. por2(j−1)≤n esto implica
πjF(1−πF)n−j=(1/2+ε)j(1/2−ε)n−j=(1/2+ε)j[(1/2−ε)j(1/2−ε)n−2j]=(1/4−ε2)j(1/2−ε)n−2j≤(1/4)j(1/2)n−2j=2−n.
En consecuencia, cuando 2(i−1)≤n, podemos deshacernos de la dependencia de la suma de F, a costa de reemplazar la igualdad por una desigualdad:
Pr(Xi>F1/2)≤2−n∑j=0i−1(nj).
Exactamente el mismo argumento (aplicado al invertir las estadísticas del pedido) muestra que cuando 2(i+1)≥n,
Pr(Xi<F1/2)≤2−n∑j=i+1n(nj).
Los lados derechos se reducen a cero siempre que i≤0 (en el primer caso) o i≥n(en el segundo). Por lo tanto, siempre es posible encontrar índicesl≤u para cual
Pr(Xl>F1/2 or Xu<F1/2)=Pr(Xl>F1/2)+Pr(Xu<F1/2)≤2−n(∑j=0l−1(nj)+∑j=u+1n(nj)).
Solución
Este es el complemento de la condición definitoria para un intervalo de confianza y, por lo tanto, equivalente a él:
Pr(Xl≤F1/2≤Xu)≥2−n∑j=lu(nj).
Seleccionando l≤u para hacer el lado derecho al menos 1−α, habremos encontrado un procedimiento de intervalo de confianza cuyo nivel es al menos 1−α.
En otras palabras, al elegir tales índices l y u, configurando L(X)=Xl y U(X)=Xu, el intervalo [L(X),U(X)] será un CI para la mediana F1/2 tener cobertura al menos 1−α. Puede calcular su cobertura real en términos de probabilidades binomiales. Esta cobertura se alcanzará para cualquier distribución.F que asigna probabilidad cero a F1/2(que incluye todas las distribuciones continuas). Será superado por cualquierF que asigna probabilidad distinta de cero a F1/2.
Discusión
En este punto tenemos algunas opciones. Lo más común es hacer que los límites sean simétricos estableciendou razonablemente cerca de n+1−l. De hecho, estipulandou=n+1−l, los límites de confianza se pueden encontrar para cualquier n con una búsqueda rápida o aplicando la función de cuantiles binomiales.
Por ejemplo, dejemosn=10 y α=10% (para ilustrar un 1−α=90%Procedimiento de CI). Vamos a contar la parte inferior de la distribución binomial acumulativa con parámetros10 y 1/2:
> i <- 0:5; names(i) <- i; print(pbinom(i, 10, 1/2), digits=1)
0 1 2 3 4 5
0.001 0.011 0.055 0.172 0.377 0.623
(Este es un R
comando y su respuesta). Porque el valor en2, igual a 5.5%, esta cerca de α/2, es tentador tomar l=3 y u=10+1−3=8, para entonces la cobertura será 1−0.055−0.055=0.89 que está cerca del objetivo de 90%. Si debe lograr la cobertura deseada, entonces debe tomarl=2 y u=8 o l=3 y u=9, ambos con cobertura 1−0.011−.055=0.935.
A modo de verificación, simulemos muchos conjuntos de datos de cualquier distribución, calcule estos CI para los conjuntos de datos y calcule la proporción de CI que cubren la mediana real. Este R
ejemplo usa una distribución Normal:
n <- 10
n.sim <- 1e4
x <- apply(matrix(rnorm(n*n.sim), nrow=n), 2, sort)
covers <- function(x, l, u) mean(x[l, ] <= 0 & x[u, ] >= 0)
c(l3.u8=covers(x,3,8), l2.u8=covers(x,2,8), l3.u9=covers(x,3,9))
La salida es
l3.u8 l2.u8 l3.u9
0.8904 0.9357 0.9319
Las coberturas concuerdan estrechamente con los valores teóricos.
Como otro ejemplo, saquemos muestras de una distribución discreta, como un Poisson:
lambda <- 2
x <- apply(matrix(rpois(n*n.sim, 2), nrow=n), 2, sort)
med <- round(lambda + 1/3 - 0.02/lambda)
c(l3.u8=covers(x,3,8), l2.u8=covers(x,2,8), l3.u9=covers(x,3,9))
l3.u8 l2.u8 l3.u9
0.9830 0.9845 0.9964
Esta vez las coberturas son mucho más altas de lo previsto. La razón es que hay un27%posibilidad de que un valor aleatorio sea igual a la mediana. Esto aumenta enormemente la posibilidad de que el IC cubra la mediana. Esto no es un problema ni una paradoja. Por definición, la cobertura tiene que ser al menos1−α no importa cual sea la distribución Fes, pero es posible (como en este caso) que la cobertura para particular distribuciones sea sustancialmente mayor que1−α.
Ahí radica la compensación: cuando no asumes nada sobreF, el CI basado en estadísticas de pedido es el único que puede construir. Su cobertura para su verdadero (pero desconocido)Fpodría ser bastante más alto de lo que esperas. Eso significa que su CI será más amplio que si hubiera hecho algunas suposiciones más fuertes sobreΩ limitando las posibilidades de F.