¿Existe un intervalo de confianza no paramétrico confiable para la media de una distribución sesgada?


30

Las distribuciones muy sesgadas, como el log-normal, no dan como resultado intervalos de confianza de arranque precisos. Aquí hay un ejemplo que muestra que las áreas de cola izquierda y derecha están lejos del 0.025 ideal, sin importar qué método de arranque intente en R:

require(boot)
n    <- 25
B    <- 1000
nsim <- 1000
set.seed(1)
which <- c('basic', 'perc', 'norm', 'bca', 'stud')
mul <- 0; sdl <- 1.65   # on log scale
dist <- c('normal', 'lognormal')[2]
switch(dist, normal    = {g <- function(x) x; mu <- mul},
             lognormal = {g <- exp; mu <- exp(mul + sdl * sdl / 2)})
count <- matrix(0, nrow=length(which), ncol=2,
                dimnames=list(which, c('lower', 'upper')))
stat <- function(x, j) {
## See http://www.psychology.mcmaster.ca/bennett/boot09/percentileT.pdf
  x <- x[j]
  m <- mean(x)
  s <- sd(x)
  n <- length(x)
  sem <- s / sqrt(n)
  m.var <- sem ^ 2
  c(m, m.var)
}
for(i in 1 : nsim) {
  if(i %% 100 == 0) cat(i, '')
  x <- g(rnorm(n, mul, sdl))
  b  <- boot(x, stat, R=B)
  ci <- boot.ci(b, type=which)
  for(w in which) {
    nam <- switch(w, perc='percent', norm='normal', basic='basic',
                  stud='student', bca='bca')
    z <- rev(rev(ci[[nam]])[1:2])
    count[w, 'lower'] <- count[w, 'lower'] + (z[1] > mu)
    count[w, 'upper'] <- count[w, 'upper'] + (z[2] < mu)
  }
}
cat('\n')
count / nsim

El resultado está abajo:

      lower upper
basic 0.000 0.329
perc  0.003 0.257
norm  0.000 0.287
bca   0.015 0.185
stud  0.005 0.129

Para bootstraps individuales todavía no proporcionan una cobertura adecuada y precisa:n=400

      lower upper
basic 0.001 0.114
perc  0.005 0.093
norm  0.002 0.102
bca   0.017 0.067
stud  0.011 0.058

La probabilidad empírica también falla al proporcionar intervalos de confianza precisos al tomar muestras de la distribución lognormal.

¿Existe un enfoque de propósito general que no dependa de conocer la distribución por adelantado? ¿Alguien ha tratado de obtener intervalos de confianza para la media ajustando los datos a la distribución generalizada Tukey (esta distribución es muy flexible)? ¿Qué pasa con el uso de las bandas de confianza de Kolmogorov-Smirnov para el CDF? ¿Calcular la media en los límites superior e inferior del CDF sería terriblemente conservador? Me conformaría con un poco de conservadurismo si un método tiene una amplia aplicabilidad.λ

Para reformular los objetivos, estoy buscando un enfoque generalmente aplicable para obtener un intervalo de confianza para una población que signifique

  1. el intervalo es asimétrico si la distribución de datos sin procesar es asimétrica
  2. el intervalo tiene cobertura correcta en ambas colas (p. ej., probabilidad de error de 0.025 en ambas)
  3. El procedimiento no requiere que el analista especifique nada sobre la distribución subyacente o la transformación necesaria para hacer que la distribución sea simétrica

Tenga en cuenta que el teorema del límite central es irrelevante aquí; Tengo un tamaño de muestra pequeño fijo y el intervalo de confianza debe ser asimétrico para ser exacto en ambas colas. El paramétrica basadas en intervalo de confianza bajo un modelo lognormal con y todavía tiene mala cobertura (error de cola izquierda 0,012, 0,047 derecho cuando ambos deben ser 0,025).μ = 0 , σ = 1.65 n = 20000tμ=0,σ=1.65n=20000

Al seguir pensando en esto, hay dos formas amplias de conceptualizar el problema que me gustaría discutir.

  1. La media no es una cantidad que se presta a inferencia no paramétrica, al menos cuando se requiere exactitud de inferencia. La mediana de la muestra es significativa para cualquier distribución continua y tenemos un intervalo de confianza exacto simple para la mediana. En una muestra de tamaño de una distribución normal, el intervalo de confianza para la mediana es más largo que el intervalo de confianza basado en exacto para la media (ver código a continuación). Quizás este factor de 1,28 sea un precio razonable a pagar por la solidez y la completa libertad de distribución.1.28 × tn=201.28×t
  2. Aunque ninguna rutina de arranque única proporcionará límites de confianza adecuadamente precisos para muestras de distribuciones extremadamente sesgadas, la carga de arranque doble puede mejorar significativamente la cobertura de confianza en ambas colas. Nankervis tiene algunos buenos resultados y proporciona un excelente algoritmo computacional. Pero ningún software que pude encontrar implementa esto.

Código R que ilustra 1. arriba:

## Exact CI for median from DescTools package SignTest.default
## See also ttp://www.stat.umn.edu/geyer/old03/5102/notes/rank.pdf,
## http://de.scribd.com/doc/75941305/Confidence-Interval-for-Median-Based-on-Sign-Test
cimed <- function(x, alpha=0.05, na.rm=FALSE) {
  if(na.rm) x <- x[! is.na(x)]
  n <- length(x)
  k <- qbinom(p=alpha / 2, size=n, prob=0.5, lower.tail=TRUE)
  ## Actual CL: 1 - 2 * pbinom(k - 1, size=n, prob=0.5) >= 1 - alpha
  sort(x)[c(k, n - k + 1)]
}

n <- 20
m <- 20000
cil <- cilt <- 0
z <- qt(0.975, n - 1)

for(i in 1 : m) {
  x <- rnorm(n)
  cil  <- cil + diff(cimed(x))
  cilt <- cilt + 2 * z * sqrt(var(x) / n)
}
cil  <- cil / m
cilt <- cilt / m

c(cil, cilt, cilt / cil, cil / cilt)

1
Esto es computacionalmente intensivo, pero ¿y si tomas el cdf empírico y comienzas a generar puentes brownianos al azar? cada puente browniano representa el delta entre el ecdf y algunos hipotéticos cdf. Calcule la media usando el cdf hipotético y péselo por el factor prescrito por la prueba KS. Repitiendo esto por un tiempo, tendrás un conjunto de datos ponderado de medias y podrás calcular el intervalo de confianza.
Nir Friedman

No tengo un hipotético cdf. Y qué sucedería si solo usara la región de confianza superior e inferior de 0.95 de KS y calculara la media a partir de ellos, es decir, esto sería terriblemente conservador.
Frank Harrell

El cdf hipotético se introduce agregando un puente browniano generado aleatoriamente al cdf empírico. Además, no sugiero tomar la media de la región de confianza. Sugiero obtener muchos medios generando muchas distribuciones hipotéticas, ponderadas adecuadamente y luego obteniendo el intervalo de confianza. Básicamente es solo un enfoque diferente de bootstrapping, aunque creo que el resultado podría ser diferente.
Nir Friedman

Sería interesante ver cuán eficientemente podría programarse y cuán precisa es la cobertura del intervalo de confianza. Gracias por la sugerencia. Me pregunto si la bota bayesiana imitaría eso. He probado el bootstrap bayesiano en otro contexto y no mejoró la cobertura del intervalo de confianza.
Frank Harrell

Respuestas:


11

Soy algo pesimista sobre un método no paramétrico, al menos sin la introducción de algún tipo de restricciones en la distribución subyacente.

Mi razonamiento para esto es que siempre habrá una distribución que rompa la verdadera probabilidad de cobertura para cualquier finito (aunque como , esta distribución se volverá cada vez más patológica), o el intervalo de confianza tendrá que ser arbitrariamente grande.n nn

Para ilustrar, podría imaginar una distribución que se vea como normal hasta cierto valor , pero después de que torne extremadamente sesgada. Esto puede tener una influencia ilimitada en la media de la distribución y, a medida que empuja lo más lejos posible, puede tener una probabilidad arbitrariamente pequeña de ingresar a su muestra. Por lo tanto, puede imaginar que para cualquier , podría elegir que un sea ​​tan grande que todos los puntos de su muestra tengan una probabilidad extremadamente alta de que parezca que proviene de una distribución normal con media = 0, sd = 1, pero puede También tiene cualquier medio verdadero.α α n ααααnα

Entonces, si está buscando una cobertura asintótica adecuada , por supuesto, esto puede lograrse con el CLT. Sin embargo, su pregunta implica que está (bastante razonablemente) interesado en la cobertura finita. Como muestra mi ejemplo, siempre habrá un caso patológico que arruine cualquier CI de longitud finita.

Ahora, aún podría tener un CI no paramétrico que logre una buena cobertura finita al agregar restricciones a su distribución. Por ejemplo, la restricción log-cóncava es una restricción no paramétrica. Sin embargo, parece inadecuado para su problema, ya que log-normal no es log-cóncavo.

Quizás para ayudar a ilustrar cuán difícil podría ser su problema, he realizado un trabajo no publicado sobre una restricción diferente: convexo inverso (si hace clic en mi perfil, tengo un enlace a una página personal que tiene una preimpresión). Esta restricción incluye la mayoría , pero no todos los log-normales. También puede ver que para esta restricción, las colas pueden ser "arbitrariamente pesadas", es decir, para cualquier distribución convexa inversa de hasta , puede tener colas lo suficientemente pesadas como para que la media sea tan grande como desee.α


2
Excelentes pensamientos Dudo en exigir ese tipo de restricciones porque veo distribuciones bimodales y otras complejidades con bastante frecuencia.
Frank Harrell

1
@FrankHarrell: se ha trabajado con modelos mixtos con componentes de cóncavo logarítmico no paramétrico. Sin embargo, no puedo imaginar en este momento que haya buenos métodos para crear una confianza para la media general, especialmente si no se conoce de antemano el número de componentes.
Cliff AB

2

Una de las suposiciones subyacentes de cualquier muestra es la representatividad. Cuanto más largas sean las colas de una distribución, menos probable será que una muestra pequeña sea lo suficientemente representativa para que cualquier método resuelva de manera confiable el IC porque la muestra no podrá representar la distribución.

Por ejemplo, ejecutar un CI de perc simple en una distribución exponencial con un tamaño de muestra de 250 arroja resultados bastante buenos. Son mucho mejores que una con una muestra de 25, aunque todavía no es ideal.

Estoy de acuerdo con Cliff AB en que no habrá una solución general, pero no tiene que hipotetizar distribuciones extremas. No habrá nada que funcione ampliamente con muestras pequeñas. Y en algunos casos, las muestras pueden tener que ser muy grandes (pero sería bueno estar equivocado).

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.