¿Cuáles son los ejemplos en los que falla una "rutina ingenua"?

Supongamos que tengo un conjunto de datos de muestra de una distribución desconocida o compleja, y quiero realizar alguna inferencia en una estadística de los datos. Mi inclinación por defecto es simplemente generar un montón de muestras de arranque con el reemplazo, y calcular mi estadística de en cada muestra de arranque para crear una distribución estimada para . $T$ $T$ $T$

¿Cuáles son ejemplos donde esta es una mala idea?

Por ejemplo, un caso en el que la ejecución ingenua de este arranque podría fallar es si estoy tratando de usar el arranque en datos de series temporales (por ejemplo, para probar si tengo una autocorrelación significativa). El arranque ingenua descrito anteriormente (la generación de la º punto de datos de la serie de muestras de arranque enésimo mediante el muestreo con reemplazo de mi serie original) sería (creo) ser poco aconsejable, ya que ignora la estructura en mi serie de tiempo original, por lo que obtenga técnicas de arranque más sofisticadas como el arranque en bloque. $i$

Para decirlo de otra manera, ¿qué hay para el bootstrap además de "muestreo con reemplazo"?

hypothesis-testing confidence-interval bootstrap

— raegtin
fuente

Si desea hacer inferencia para la media de los datos de iid, el bootstrap es una gran herramienta. Todo lo demás es cuestionable y requiere una prueba caso por caso de convergencia débil.

— StasK

Respuestas:

Si la cantidad de interés, por lo general funcional de una distribución, es razonablemente uniforme y sus datos se encuentran en ID, generalmente se encuentra en un territorio bastante seguro. Por supuesto, hay otras circunstancias en las que el bootstrap también funcionará.

Lo que significa para el bootstrap "fallar"

Hablando en términos generales, el propósito del bootstrap es construir una distribución de muestreo aproximada para la estadística de interés. No se trata de una estimación real del parámetro. Por lo tanto, si la estadística de interés (en algunos y centrado) es y en distribución, nos gustaría que nuestra distribución bootstrap sea converger a la distribución de . Si no tenemos esto, entonces no podemos confiar en las inferencias hechas. $\newcommand{\Xhat}{\hat{X}_n}\Xhat$ $\Xhat \to X_\infty$ $X_\infty$

El ejemplo canónico de cuándo la rutina de arranque puede fallar, incluso en un marco iid es cuando se trata de aproximar la distribución de muestreo de una estadística de orden extremo. A continuación hay una breve discusión.

Estadística de orden máxima de una muestra aleatoria de una distribución $\;\mathcal{U}[0,\theta]$

Deje ser una secuencia de variables aleatorias uniformes iid en . Deje . La distribución de es (Tenga en cuenta que, mediante un argumento muy simple, esto también muestra que en probabilidad, e incluso, casi con seguridad , si las variables aleatorias se definen en el mismo espacio). $X_1, X_2, \ldots$ $[0,\theta]$ $\newcommand{\Xmax}{X_{(n)}} \Xmax = \max_{1\leq k \leq n} X_k$ $\Xmax$

P (X_{(n)} \leq x) = (x / θ)^{n} .

$\renewcommand{\Pr}{\mathbb{P}}\Pr(\Xmax \leq x) = (x/\theta)^n \>.$

X_{(n)} \to θ

$\Xmax \to \theta$

Un cálculo elemental produce o, en otras palabras, converge en distribución a una variable aleatoria exponencial con media .

P (n (θ - X_{(n)}) \leq x) = 1 - (1 - \frac{x}{θ n})^{n} \to 1 - e^{- x / θ},

$\Pr( n(\theta - \Xmax) \leq x ) = 1 - \Big(1 - \frac{x}{\theta n}\Big)^n \to 1 - e^{-x/\theta} \>,$

n (θ - X_{(n)})

$n(\theta - \Xmax)$

θ

$\theta$

Ahora, formamos un (ingenua) de arranque estimación de la distribución de por remuestreo con el reemplazo de conseguir y el uso de la distribución de condicional en . $n(\theta - \Xmax)$ $X_1, \ldots, X_n$ $X_1^\star,\ldots,X_n^\star$ $n(\Xmax - \Xmax^\star)$ $X_1,\ldots,X_n$

Pero, observe que con probabilidad , por lo que la distribución de arranque tiene una masa puntual en cero incluso asintóticamente a pesar de El hecho de que la distribución limitante real es continua. $\Xmax^\star = \Xmax$ $1 - (1-1/n)^n \to 1 - e^{-1}$

Más explícitamente, aunque la verdadera distribución limitante es exponencial con media , la distribución limitante de arranque coloca una masa puntual en cero de tamaño independientemente del valor real de . Al tomar suficientemente grande, podemos hacer que la probabilidad de la verdadera distribución limitante sea arbitraria pequeña para cualquier intervalo fijo , sin embargo, el bootstrap informará ( ¡ todavía !) Que hay al menos una probabilidad de 0.632 en este intervalo! A partir de esto, debe quedar claro que el bootstrap puede comportarse arbitrariamente mal en esta configuración. $\theta$ $1−e^{-1} \approx 0.632$ $\theta$ $\theta$ $[0,\varepsilon)$

En resumen, el bootstrap falla (miserablemente) en este caso. Las cosas tienden a ir mal cuando se trata de parámetros en el borde del espacio de parámetros.

Un ejemplo de una muestra de variables aleatorias normales

Hay otros ejemplos similares del fracaso del bootstrap en circunstancias sorprendentemente simples.

Considere una muestra de donde el espacio de parámetros para está restringido a . El MLE en este caso es . Nuevamente, usamos la estimación de bootstrap . Nuevamente, se puede demostrar que la distribución de (condicional en la muestra observada) no converge a la misma distribución limitante que . $X_1, X_2, \ldots$ $\mathcal{N}(\mu,1)$ $\mu$ $[0,\infty)$ $\newcommand{\Xbar}{\bar{X}}\Xhat = \max(\bar{X},0)$ $\Xhat^\star = \max(\Xbar^\star, 0)$ $\sqrt{n}(\Xhat^\star - \Xhat)$ $\sqrt{n}(\Xhat - \mu)$

Matrices intercambiables

Quizás uno de los ejemplos más dramáticos es para una matriz intercambiable. Deje que sea una matriz de variables aleatorias tales que, por cada par de matrices de permutación y , las matrices y tienen la misma distribución conjunta. Es decir, permutar filas y columnas de mantiene la distribución invariable. (Puede pensar en un modelo de efectos aleatorios bidireccionales con una observación por celda como ejemplo, aunque el modelo es mucho más general). $\newcommand{\bm}[1]{\mathbf{#1}}\bm{Y} = (Y_{ij})$ $\bm{P}$ $\bm{Q}$ $\bm{Y}$ $\bm{P} \bm{Y} \bm{Q}$ $\bm{Y}$

Supongamos que deseamos estimar un intervalo de confianza para la media (debido al supuesto de intercambiabilidad descrito anteriormente de las medias de todas las las celdas deben ser iguales). $\mu = \mathbb{E}(Y_{ij}) = \mathbb{E}(Y_{11})$

McCullagh (2000) consideró dos formas naturales diferentes (es decir, ingenuas) de arrancar tal conjunto. Ninguno de ellos obtiene la varianza asintótica para la media muestral correcta. También considera algunos ejemplos de una matriz intercambiable unidireccional y regresión lineal.

Referencias

Desafortunadamente, el tema no es trivial, por lo que ninguno de estos son lecturas particularmente fáciles.

P. Bickel y D. Freedman, Alguna teoría asintótica para el bootstrap . Ana. Stat. vol. 9, no. 6 (1981), 1196-1217.

DWK Andrews, Inconsistencia de la rutina de carga cuando un parámetro está en el límite del espacio de parámetros , Econometrica , vol. 68, no. 2 (2000), 399–405.

P. McCullagh, Muestreo y matrices intercambiables , Bernoulli , vol. 6, no. 2 (2000), 285-301.

EL Lehmann y JP Romano, Prueba de hipótesis estadísticas , 3er. ed., Springer (2005). [Capítulo 15: Métodos generales de muestra grande]

— cardenal
fuente

El comportamiento del bootstrap de estadísticas de orden me parece razonable, dado que la distribución exponencial tiene una "masa puntual" similar en cero - El modo de una distribución exponencial es 0, por lo que parece razonable que la probabilidad no sea cero en el valor más probable! El bootstrap probablemente sería algo más como una distribución geométrica que es un análogo discreto de lo exponencial. No tomaría esto como un "fracaso" de la rutina de arranque aquí, ya que la cantidad estimada de siempre se encuentra en el intervalo apropiado

θ

$\theta$

θ \geq X_{(n)}

$\theta\geq X_{(n)}$

— probabilidadisógica

@cardinal: la distribución asintótica no es el punto de referencia apropiado, a menos que tenga una muestra infinita. La distribución de bootstrap debe compararse con la distribución de muestra finita para la que fue diseñada. Lo que desea mostrar es que a medida que el número de iteraciones de bootstrap llega al infinito, la distribución de bootstrap converge a la distribución de muestreo finito . dejar es una solución aproximada, no exacta.

n \to \infty

$n\to\infty$

— probabilidadislogico

@cardinal +1, he votado la pregunta anteriormente, pero solo quiero agradecer por una muy buena respuesta, ejemplos y enlaces a los artículos.

— mpiktas

@probabilityislogic, por supuesto, en general, la aplicación de la teoría asintótica depende de la tasa de convergencia, si es lenta, entonces no es aplicable. Pero entonces tiene que demostrar que la tasa es lenta, ya que sospecho que, por ejemplo, con una distribución uniforme tomando el tamaño de muestra 100, encontrará los problemas que @cardinal describió.

— mpiktas

@probabilityislogic, al principio, solo vi el último de tus dos comentarios más recientes. Para abordar la primera, puede ver las dos primeras oraciones de la sección anterior con el encabezado "Lo que significa que el bootstrap 'falle'", donde esto se aborda explícitamente. El bootstrap no se trata de estimar el parámetro. Asumimos que tenemos una buena manera de estimar el parámetro deseado (en este caso, funciona bien). El bootstrap se trata de saber algo sobre la distribución del parámetro para que podamos hacer inferencia. Aquí, el bootstrap se equivoca en la distribución ( ¡muy! ).

X_{(n)}

$X_{(n)}$

— cardenal

El siguiente libro tiene un capítulo (Capítulo 9) dedicado a "Cuando falla Bootstrapping junto con remedios para fallas":

MR Chernick, Métodos Bootstrap: una guía para profesionales e investigadores , 2ª ed. Hoboken NJ: Wiley-Interscience, 2008.

Los temas son:

Tamaño de muestra demasiado pequeño
Distribuciones con momentos infinitos
Estimando valores extremos
Encuesta de muestreo
Secuencias de datos que dependen de M
Procesos autorregresivos inestables
Dependencia de largo alcance

— Sadeghd
fuente

¿Has visto este comentario a una respuesta en este hilo? Por cierto, ese comentario enlaza a una página de Amazon para el libro de Chernick; Las reseñas de los lectores son esclarecedoras.

— whuber

@whuber Bueno, no noté ese comentario. ¿Debo eliminar mi respuesta?

— Sábado

Debido a que su respuesta es más detallada que la referencia en el comentario, potencialmente tiene valor: pero de acuerdo con las políticas y objetivos de SE, sería bueno verla amplificada con alguna explicación de por qué está recomendando este libro o, aún mejor - para incluir un resumen de la información en él. De lo contrario, agrega poco y debe eliminarse o convertirse en un comentario a la pregunta.

— whuber

El arranque ingenuo depende de que el tamaño de la muestra sea grande, de modo que el CDF empírico para los datos sea una buena aproximación al CDF "verdadero". Esto asegura que el muestreo del CDF empírico es muy similar al muestreo del CDF "verdadero". El caso extremo es cuando solo ha muestreado un punto de datos: el arranque no logra nada aquí. Se volverá cada vez más inútil a medida que se acerque a este caso degenerado.

El arranque ingenuo no necesariamente fallará en el análisis de series de tiempo (aunque puede ser ineficiente), si modela la serie utilizando funciones básicas de tiempo continuo (tales como polinomios de leyenda) para un componente de tendencia, y funciones seno y coseno de tiempo continuo para ciclo cíclico componentes (más el término de error de ruido normal). Luego, simplemente ingresa la cantidad de veces que se muestrea la función de probabilidad. No es un desastre para bootstrapping aquí.

Cualquier modelo de autocorrelación o ARIMA tiene una representación en este formato anterior: este modelo es simplemente más fácil de usar y creo que entiendo e interpreto (ciclos fáciles de entender en funciones seno y coseno, coeficientes difíciles de entender de un modelo ARIMA). Por ejemplo, la función de autocorrelación es la transformada inversa de Fourier del espectro de potencia de una serie temporal.

— probabilidadislogica
fuente

@probabilityislogic -1, accidentalmente elevé la respuesta anteriormente (culpar a Opera mini), así que tuve que editarla para poder votar negativamente, lamento usar esas tácticas. Hice esto solo porque no me gustó la respuesta al principio, pero no voté en contra porque quería preparar mis argumentos, que daré en el siguiente comentario.

— mpiktas

@probabilityislogic, para los procesos de series de tiempo, el tiempo juega un papel importante, por lo que la distribución del vector es diferente de . El remuestreo como se hace en bootstrap ingenuo destruye esta estructura, por lo que, por ejemplo, si intenta ajustar el modelo AR (1), después del remuestreo puede obtener que está tratando de ajustar como , que es No parece natural. Si Google de "series de tiempo bootstrapping" el segundo artículo da ejemplo de cómo tiene estimación de la varianza de las series de tiempo ...

(X_{t}, X_{t + 1})

$(X_t,X_{t+1})$

(X_{t + 1}, X_{t})

$(X_{t+1},X_t)$

Y_{10}

$Y_{10}$

ρ Y_{15}

$\rho Y_{15}$

— mpiktas

@probabilityislogic, ¿le sería posible demostrar su idea en su respuesta para la estimación ingenua de arranque de en el modelo AR (1) ? No creo que sea posible, de ahí la razón básica del voto negativo. Me alegraría que me demuestren lo contrario.

ρ

$\rho$

Y_{t} = ρ Y_{t - 1} + u_{t}

$Y_t=\rho Y_{t-1}+u_t$

— mpiktas

@probabilityislogic y? ¿Cuál será la estimación de en ese caso? Lamento molestar, pero realmente no veo cómo puedes demostrar que la ingenua rutina de arranque no fallará en este caso.

r h o

$rho$

— mpiktas

Mi libro aquí tiene un capítulo sobre cuándo falla el bootstrap y también un capítulo sobre cómo se aplica el bootstrap en series de tiempo. Para series temporales, el bootstrap puede aplicarse a los residuos de un modelo en el enfoque basado en el modelo. El otro enfoque de dominio de tiempo no paramétrico es el bloque de arranque del cual hay muchos tipos.

— Michael Chernick