Si la cantidad de interés, por lo general funcional de una distribución, es razonablemente uniforme y sus datos se encuentran en ID, generalmente se encuentra en un territorio bastante seguro. Por supuesto, hay otras circunstancias en las que el bootstrap también funcionará.
Lo que significa para el bootstrap "fallar"
Hablando en términos generales, el propósito del bootstrap es construir una distribución de muestreo aproximada para la estadística de interés. No se trata de una estimación real del parámetro. Por lo tanto, si la estadística de interés (en algunos y centrado) es y en distribución, nos gustaría que nuestra distribución bootstrap sea converger a la distribución de . Si no tenemos esto, entonces no podemos confiar en las inferencias hechas.X^nX^n→X∞X∞
El ejemplo canónico de cuándo la rutina de arranque puede fallar, incluso en un marco iid es cuando se trata de aproximar la distribución de muestreo de una estadística de orden extremo. A continuación hay una breve discusión.
Estadística de orden máxima de una muestra aleatoria de una distribuciónU[0,θ]
Deje ser una secuencia de variables aleatorias uniformes iid en . Deje . La distribución de es
(Tenga en cuenta que, mediante un argumento muy simple, esto también muestra que en probabilidad, e incluso, casi con seguridad , si las variables aleatorias se definen en el mismo espacio).X1,X2,…[0,θ]X(n)=max1≤k≤nXkX(n)
P(X(n)≤x)=(x/θ)n.
X(n)→θ
Un cálculo elemental produce
o, en otras palabras, converge en distribución a una variable aleatoria exponencial con media .
P(n(θ−X(n))≤x)=1−(1−xθn)n→1−e−x/θ,
n(θ−X(n))θ
Ahora, formamos un (ingenua) de arranque estimación de la distribución de por remuestreo con el reemplazo de conseguir y el uso de la distribución de condicional en .n(θ−X(n))X1,…,XnX⋆1,…,X⋆nn(X(n)−X⋆(n))X1,…,Xn
Pero, observe que con probabilidad , por lo que la distribución de arranque tiene una masa puntual en cero incluso asintóticamente a pesar de El hecho de que la distribución limitante real es continua.X⋆(n)=X(n)1−(1−1/n)n→1−e−1
Más explícitamente, aunque la verdadera distribución limitante es exponencial con media , la distribución limitante de arranque coloca una masa puntual en cero de tamaño independientemente del valor real de . Al tomar suficientemente grande, podemos hacer que la probabilidad de la verdadera distribución limitante sea arbitraria pequeña para cualquier intervalo fijo , sin embargo, el bootstrap informará ( ¡ todavía !) Que hay al menos una probabilidad de 0.632 en este intervalo! A partir de esto, debe quedar claro que el bootstrap puede comportarse arbitrariamente mal en esta configuración.θ1−e−1≈0.632 θθ[0,ε)
En resumen, el bootstrap falla (miserablemente) en este caso. Las cosas tienden a ir mal cuando se trata de parámetros en el borde del espacio de parámetros.
Un ejemplo de una muestra de variables aleatorias normales
Hay otros ejemplos similares del fracaso del bootstrap en circunstancias sorprendentemente simples.
Considere una muestra de donde el espacio de parámetros para está restringido a . El MLE en este caso es . Nuevamente, usamos la estimación de bootstrap . Nuevamente, se puede demostrar que la distribución de (condicional en la muestra observada) no converge a la misma distribución limitante que .X1,X2,…N(μ,1)μ[0,∞)X^n=max(X¯,0)X^⋆n=max(X¯⋆,0)n−−√(X^⋆n−X^n)n−−√(X^n−μ)
Matrices intercambiables
Quizás uno de los ejemplos más dramáticos es para una matriz intercambiable. Deje que sea una matriz de variables aleatorias tales que, por cada par de matrices de permutación y , las matrices y tienen la misma distribución conjunta. Es decir, permutar filas y columnas de mantiene la distribución invariable. (Puede pensar en un modelo de efectos aleatorios bidireccionales con una observación por celda como ejemplo, aunque el modelo es mucho más general).Y=(Yij)PQYPYQY
Supongamos que deseamos estimar un intervalo de confianza para la media (debido al supuesto de intercambiabilidad descrito anteriormente de las medias de todas las las celdas deben ser iguales).μ=E(Yij)=E(Y11)
McCullagh (2000) consideró dos formas naturales diferentes (es decir, ingenuas) de arrancar tal conjunto. Ninguno de ellos obtiene la varianza asintótica para la media muestral correcta. También considera algunos ejemplos de una matriz intercambiable unidireccional y regresión lineal.
Referencias
Desafortunadamente, el tema no es trivial, por lo que ninguno de estos son lecturas particularmente fáciles.
P. Bickel y D. Freedman, Alguna teoría asintótica para el bootstrap . Ana. Stat. vol. 9, no. 6 (1981), 1196-1217.
DWK Andrews, Inconsistencia de la rutina de carga cuando un parámetro está en el límite del espacio de parámetros , Econometrica , vol. 68, no. 2 (2000), 399–405.
P. McCullagh, Muestreo y matrices intercambiables , Bernoulli , vol. 6, no. 2 (2000), 285-301.
EL Lehmann y JP Romano, Prueba de hipótesis estadísticas , 3er. ed., Springer (2005). [Capítulo 15: Métodos generales de muestra grande]