Intervalos de confianza para la mediana

Tengo una distribución de muestras con un pequeño número de valores en cada una (menos de $10$ ) He calculado la mediana de cada muestra, que quiero comparar con un modelo y obtener la diferencia entre el modelo y la mediana de cada muestra. Para tener un resultado consistente, necesito un error en esta diferencia.

Resulta que encontrar la desviación estándar en tal caso puede ser bastante difícil, al menos para un no profesional como yo (ver, por ejemplo, aquí ).

He encontrado este sitio web que dice cómo calcular los intervalos de confianza para la mediana, incluso si no se cita una referencia oficial.

Me parece razonable, pero realmente no puedo juzgar, así que me gustaría saber:

¿Son correctas esas fórmulas?
Hay una referencia para eso?
¿Qué pasa si quiero encontrar CI diferente de $95\%$ ?

Gracias por adelantado

EDITAR: También he encontrado este ejemplo de arranque para datos no gaussianos . Ahora, no sé mucho sobre bootstrapping, pero sería bueno tener una dirección sobre su validez.

confidence-interval standard-error median

— Py-ser
fuente

La distribución de muestreo exacta de una mediana de muestra se deriva en stats.stackexchange.com/questions/45124 . (Las distribuciones asintóticas también se dan en la mayoría de las respuestas, pero es poco probable que sean relevantes aquí). Sin embargo, ninguno de los dos es lo mismo que un intervalo de confianza ...

— whuber

@whuber, gracias por el enlace, pero no puedo entender la relación. ¿Podría por favor ser un poco más claro?

— Py-ser

Para encontrar un intervalo de confianza (IC) para un parámetro, utilizando una estadística particular, necesita conocer la distribución de muestreo de esa estadística. Aquí busca un IC para la mediana de la población (el parámetro) basado en la muestra y pregunta específicamente sobre la mediana de la muestra (una estadística). (El hilo al que me refiero aborda esa última pregunta). Es crucial conocer la distribución exacta de esa estadística; de ahí se puede derivar un procedimiento de intervalo de confianza. Los resultados asintóticos, en los que se basa su propia referencia, corren el riesgo de ser aproximaciones pobres para tamaños de muestra pequeños.

— whuber

La estadística es poissoniana. Pero aún no entiendo: ¿a qué resultado asintótico se refiere? ¿Son esas fórmulas un caso particular?

— Py-ser

Supongo que no has leído mi respuesta en ese hilo , porque da un resultado exacto para cualquier número de observaciones: "Esta es una fórmula exacta para la distribución de la mediana para cualquier distribución continua".

— whuber

Resumen

Cuando puede suponer poco o nada sobre la verdadera ley de probabilidad y puede inferir poco sobre ella, como es el caso de pequeñas muestras $n$ observaciones: entonces un par de estadísticas de orden elegidas adecuadamente constituirán un intervalo de confianza para la mediana. Qué estadísticas de pedido elegir se pueden encontrar fácilmente con un análisis rápido del Binomial $(n, 1/2)$ distribución. En la práctica, se deben tomar algunas decisiones: estas se analizan e ilustran al final de esta publicación.

Por cierto, el mismo análisis se puede utilizar para construir intervalos de confianza para cualquier cuantil $q$ (de los cuales la mediana, correspondiente a $q=50\%$ , es un ejemplo). El binomio $(n, q)$ La distribución gobierna la solución en este caso.

Introducción

Recuerde lo que significa un intervalo de confianza (IC). La configuración es una muestra aleatoria independiente $X = (X_1, X_2, \ldots, X_n)$ con cada $X_i$ regido por la misma distribución $F$ . Se supone solo que $F$ es un elemento de un conjunto $\Omega$ de posibles distribuciones. Cada uno de ellos tiene una mediana $F_{1/2}$ . Para cualquier fijo $\alpha$ Entre $0$ y $1$ , un CI de nivel $\alpha$ es un par de funciones (también conocido como "estadísticas"), $L$ y $U$ tal que

{Pr}_{F} (L (X) \leq F_{1 / 2} \leq U (X)) \geq 1 - α .

${\Pr}_F(L(X)\le F_{1/2} \le U(X)) \ge 1 - \alpha.$

El lado derecho es la cobertura del CI para la distribución. $F$ .

Aparte: para que esto sea útil, también preferimos que (1) el mínimo de las coberturas sobre $F\in\Omega$ ser lo más pequeño posible y (2) la duración esperada del intervalo, $\mathbb{E}_F(U(X)-L(X))$ , debería ser corto para todos o "la mayoría" $F\in\Omega$ .

Análisis

Supongamos que no asumimos nada sobre $\Omega$ . En esta situación, todavía podemos explotar las estadísticas de pedidos . Estos son los valores específicos en la muestra ordenada. Para simplificar la notación, ordenemos la muestra de una vez por todas para que

X_{1} \leq X_{2} \leq \dots \leq X_{n} .

$X_1 \le X_2 \le \cdots \le X_n.$

El valor $X_i$ es el $i^\text{th}$ orden estadístico de la muestra. Ya que no estamos asumiendo nada sobre $\Omega$ , no sabemos nada de $F$ al principio, por lo que no podemos inferir mucho sobre los intervalos probables entre cada $X_i$ y su vecino $X_{i+1}$ . Sin embargo, todavía podemos razonar cuantitativamente sobre los valores individuales: ¿cuál es la probabilidad de que $X_i$ no excede la mediana de $F$ ? Para resolver esto, deje $Y$ ser una variable aleatoria gobernada por $F$ , y deja

π_{F} = {Pr}_{F} (Y \leq F_{1 / 2})

$\pi_F = {\Pr}_F(Y \le F_{1/2})$

ser la posibilidad de que $Y$ no excede la mediana de $F$ . Entonces cuando $X_i \le F_{1/2}$ lo sabemos (desde $X_1\le \cdots \le X_i \le F_{1/2}$ ) que nuestra muestra original no ordenada de $n$ los valores deben haber contenido al menos $i$ valores que no excedan $F_{1/2}$ .

Este es un problema binomial. Formalmente, si definimos la variable aleatoria $Z$ A igual $1$ cuando $Y \le F_{1/2}$ y $0$ de lo contrario, lo anterior muestra que $Z$ tiene una distribución de Bernoulli con parámetro $\pi_F$ . Un "éxito" consiste en observar un valor igual o inferior a la mediana. Por lo tanto $\Pr(X_i \gt F_{1/2})$ está dada por la probabilidad binomial asociada con menos de $i$ éxitos:

Pr (X_{i} > F_{1 / 2}) = \sum_{j = 0}^{i - 1} (\binom{n}{j}) π_{F}^{j} (1 - π_{F})^{n - j} .

$\Pr(X_i \gt F_{1/2}) = \sum_{j=0}^{i-1} \binom{n}{j} \pi_F^j(1-\pi_F)^{n-j}.$

Probablemente notaste que $\pi_F \ge 1/2$ . De hecho, para muchas distribuciones los dos valores son iguales: difieren solo cuando $F$ asigna probabilidad positiva a la mediana $F_{1/2}$ . Para analizar la diferencia, escriba $\pi_F = 1/2 + \varepsilon$ para $\varepsilon \ge 0$ . por $2(j-1) \le n$ esto implica

\begin{aligned} π_{F}^{j} (1 - π_{F})^{n - j} & = (1 / 2 + ε)^{j} (1 / 2 - ε)^{n - j} = (1 / 2 + ε)^{j} [(1 / 2 - ε)^{j} (1 / 2 - ε)^{n - 2 j}] \\ = (1 / 4 - ε^{2})^{j} (1 / 2 - ε)^{n - 2 j} \leq (1 / 4)^{j} (1 / 2)^{n - 2 j} = 2^{- n} . \end{aligned}

$\eqalign{ \pi_F^j(1-\pi_F)^{n-j} &= (1/2+\varepsilon)^j(1/2-\varepsilon)^{n-j} = (1/2+\varepsilon)^j[(1/2-\varepsilon)^j(1/2-\varepsilon)^{n-2j}]\\ &=(1/4-\varepsilon^2)^j(1/2-\varepsilon)^{n-2j} \le (1/4)^j(1/2)^{n-2j}=2^{-n}. }$

En consecuencia, cuando $2(i-1) \le n$ , podemos deshacernos de la dependencia de la suma de $F$ , a costa de reemplazar la igualdad por una desigualdad:

Pr (X_{i} > F_{1 / 2}) \leq 2^{- n} \sum_{j = 0}^{i - 1} (\binom{n}{j}) .

$\Pr(X_i \gt F_{1/2}) \le 2^{-n}\sum_{j=0}^{i-1} \binom{n}{j}.$

Exactamente el mismo argumento (aplicado al invertir las estadísticas del pedido) muestra que cuando $2(i+1) \ge n$ ,

Pr (X_{i} < F_{1 / 2}) \leq 2^{- n} \sum_{j = i + 1}^{n} (\binom{n}{j}) .

$\Pr(X_i \lt F_{1/2}) \le 2^{-n}\sum_{j=i+1}^n \binom{n}{j}.$

Los lados derechos se reducen a cero siempre que $i \le 0$ (en el primer caso) o $i \ge n$ (en el segundo). Por lo tanto, siempre es posible encontrar índices $l \le u$ para cual

\begin{aligned} Pr (X_{l} > F_{1 / 2} or X_{u} < F_{1 / 2}) & = Pr (X_{l} > F_{1 / 2}) + Pr (X_{u} < F_{1 / 2}) \\ \leq 2^{- n} (\sum_{j = 0}^{l - 1} (\binom{n}{j}) + \sum_{j = u + 1}^{n} (\binom{n}{j})) . \end{aligned}

$\eqalign{ \Pr(X_l \gt F_{1/2} \text{ or } X_u \lt F_{1/2}) &= \Pr(X_l \gt F_{1/2}) + \Pr( X_u \lt F_{1/2}) \\ &\le 2^{-n}\left(\sum_{j=0}^{l-1} \binom{n}{j} + \sum_{j=u+1}^n \binom{n}{j}\right). }$

Solución

Este es el complemento de la condición definitoria para un intervalo de confianza y, por lo tanto, equivalente a él:

Pr (X_{l} \leq F_{1 / 2} \leq X_{u}) \geq 2^{- n} \sum_{j = l}^{u} (\binom{n}{j}) .

$\Pr(X_l \le F_{1/2}\le X_u ) \ge 2^{-n}\sum_{j=l}^u \binom{n}{j}.$

Seleccionando $l \le u$ para hacer el lado derecho al menos $1-\alpha$ , habremos encontrado un procedimiento de intervalo de confianza cuyo nivel es al menos $1-\alpha$ .

En otras palabras, al elegir tales índices $l$ y $u$ , configurando $L(X) = X_l$ y $U(X) = X_u$ , el intervalo $[L(X), U(X)]$ será un CI para la mediana $F_{1/2}$ tener cobertura al menos $1-\alpha$ . Puede calcular su cobertura real en términos de probabilidades binomiales. Esta cobertura se alcanzará para cualquier distribución. $F$ que asigna probabilidad cero a $F_{1/2}$ (que incluye todas las distribuciones continuas). Será superado por cualquier $F$ que asigna probabilidad distinta de cero a $F_{1/2}$ .

Discusión

En este punto tenemos algunas opciones. Lo más común es hacer que los límites sean simétricos estableciendo $u$ razonablemente cerca de $n+1-l$ . De hecho, estipulando $u=n+1-l$ , los límites de confianza se pueden encontrar para cualquier $n$ con una búsqueda rápida o aplicando la función de cuantiles binomiales.

Por ejemplo, dejemos $n=10$ y $\alpha=10\%$ (para ilustrar un $1-\alpha=90\%$ Procedimiento de CI). Vamos a contar la parte inferior de la distribución binomial acumulativa con parámetros $10$ y $1/2$ :

> i <- 0:5; names(i) <- i; print(pbinom(i, 10, 1/2), digits=1)
    0     1     2     3     4     5   
0.001 0.011 0.055 0.172 0.377 0.623

(Este es un Rcomando y su respuesta). Porque el valor en $2$ , igual a $5.5\%$ , esta cerca de $\alpha/2$ , es tentador tomar $l=3$ y $u=10+1-3=8$ , para entonces la cobertura será $1 - 0.055 - 0.055 = 0.89$ que está cerca del objetivo de $90\%$ . Si debe lograr la cobertura deseada, entonces debe tomar $l=2$ y $u=8$ o $l=3$ y $u=9$ , ambos con cobertura $1 - 0.011 - .055 = 0.935$ .

A modo de verificación, simulemos muchos conjuntos de datos de cualquier distribución, calcule estos CI para los conjuntos de datos y calcule la proporción de CI que cubren la mediana real. Este Rejemplo usa una distribución Normal:

n <- 10
n.sim <- 1e4
x <- apply(matrix(rnorm(n*n.sim), nrow=n), 2, sort)
covers <- function(x, l, u) mean(x[l, ] <= 0 & x[u, ] >= 0)
c(l3.u8=covers(x,3,8), l2.u8=covers(x,2,8), l3.u9=covers(x,3,9))

La salida es

 l3.u8  l2.u8  l3.u9 
 0.8904 0.9357 0.9319

Las coberturas concuerdan estrechamente con los valores teóricos.

Como otro ejemplo, saquemos muestras de una distribución discreta, como un Poisson:

lambda <- 2
x <- apply(matrix(rpois(n*n.sim, 2), nrow=n), 2, sort)
med <- round(lambda + 1/3 - 0.02/lambda)
c(l3.u8=covers(x,3,8), l2.u8=covers(x,2,8), l3.u9=covers(x,3,9))

 l3.u8  l2.u8  l3.u9 
0.9830 0.9845 0.9964

Esta vez las coberturas son mucho más altas de lo previsto. La razón es que hay un $27\%$ posibilidad de que un valor aleatorio sea igual a la mediana. Esto aumenta enormemente la posibilidad de que el IC cubra la mediana. Esto no es un problema ni una paradoja. Por definición, la cobertura tiene que ser al menos $1-\alpha$ no importa cual sea la distribución $F$ es, pero es posible (como en este caso) que la cobertura para particular distribuciones sea sustancialmente mayor que $1-\alpha$ .

Ahí radica la compensación: cuando no asumes nada sobre $F$ , el CI basado en estadísticas de pedido es el único que puede construir. Su cobertura para su verdadero (pero desconocido) $F$ podría ser bastante más alto de lo que esperas. Eso significa que su CI será más amplio que si hubiera hecho algunas suposiciones más fuertes sobre $\Omega$ limitando las posibilidades de $F$ .

— whuber
fuente

Esta respuesta se centra en la pregunta # 3. En cuanto a las dos primeras preguntas, (1) ("¿son correctas estas fórmulas?"), La respuesta no es del todo, porque usan una aproximación Normal a la distribución Binomial; y (2) ("¿hay una referencia"), la respuesta es quizás, pero a quién le importa? Una referencia para el análisis en esta respuesta es Hahn & Meeker, Estadísticos Intervalos .

— whuber

Si desea utilizar métodos numéricos, puede generar una estimación de la distribución de muestreo de las medianas utilizando bootstrap. Vuelva a muestrear repetidamente su muestra y calcule muchas medianas. El estándar de estas medianas sirve como una estimación del estándar de la distribución de muestreo de las medianas. Utilicé un método similar para calcular la incertidumbre de los resultados del juego de ajedrez en mi artículo sobre gambitos de ajedrez que se puede encontrar aquí https://sonoma.academia.edu/JamalMunshi/papers

— Jamal Munshi
fuente

Esta es una buena idea. A la luz de los comentarios a la pregunta, lo que se necesita es un análisis de su precisión para pequeños

n

$n$ . Además, no tiene sentido volver a muestrear repetidamente en la práctica porque la distribución exacta es fácil de obtener en forma cerrada. Para un conjunto de datos

x_{1} \leq x_{2} \leq \dots \leq x_{n}

$x_1\le x_2\le\cdots\le x_n$ , la posibilidad de que la mediana de una muestra de bootstrap no exceda

x

$x$ (dónde

x_{i} \leq x < x_{i + 1}

$x_i \le x \lt x_{i+1}$ ) es la posibilidad de que al menos la mitad de los valores de muestra estén en el conjunto

{x_{1}, x_{2} \dots, x_{i}}

$\{x_1,x_2\ldots,x_i\}$ . Esto está dado por una distribución binomial con parámetros

n

$n$ y

i / n

$i/n$ .

— whuber

@whuber, lo siento, quisiste decir "esto NO es una buena idea", ¿verdad?

— Py-ser

@ Py-ser La idea subyacente es buena en el sentido de que una versión funcionará, pero la interpretación y la implementación deben mejorarse.

— whuber

Pero, toda nuestra discusión pasada fue que piensas que el bootstrapping NO es una buena idea.

— Py-ser