¿Es cierto que el percentil bootstrap nunca debe usarse?

31

En las notas de MIT OpenCourseWare para 18.05 Introducción a la probabilidad y las estadísticas, primavera de 2014 (actualmente disponible aquí ), dice:

El método del percentil bootstrap es atractivo debido a su simplicidad. Sin embargo, depende de la distribución de arranque de función de que una muestra particular sea una buena aproximación a la distribución verdadera de . Rice dice del método del percentil: "Aunque esta ecuación directa de los cuantiles de la distribución de muestreo bootstrap con límites de confianza puede parecer inicialmente atractiva, su justificación es algo oscura". [2] En resumen, no use el método del percentil bootstrap . Utilice el bootstrap empírico (hemos explicado ambos con la esperanza de que no confunda el bootstrap empírico con el bootstrap percentil). $\bar{x}^{*}$ $\bar{x}$

[2] John Rice, Estadística matemática y análisis de datos , 2ª edición, p. 272

Después de un poco de búsqueda en línea, esta es la única cita que he encontrado que establece directamente que el percentil bootstrap no debe usarse.

Lo que recuerdo haber leído del texto Principios y teoría para la minería de datos y el aprendizaje automático de Clarke et al. es que la justificación principal para el arranque es el hecho de que donde es el CDF empírico. (No recuerdo detalles más allá de esto).

\frac{1}{n} \sum_{i = 1}^{n} {\hat{F}}_{n} (x) \overset{p}{\to} F (x)

$\dfrac{1}{n}\sum_{i=1}^{n}\hat{F}_n(x) \overset{p}{\to} F(x)$

{\hat{F}}_{n}

$\hat{F}_n$

¿Es cierto que no se debe usar el método de arranque por percentil? Si es así, ¿qué alternativas existen cuando no se conoce necesariamente (es decir, no hay suficiente información disponible para hacer un arranque paramétrico)? $F$

Actualizar

Debido a que se ha solicitado una aclaración, el "arranque empírico" de estas notas del MIT se refiere al siguiente procedimiento: calculan y con $\delta_1 = (\hat{\theta}^{*}-\hat{\theta})_{\alpha/2}$ $\delta_2 = (\hat{\theta}^{*}-\hat{\theta})_{1-\alpha/2}$ las estimaciones bootstrap dey la muestra completa estimación de, y el intervalo de confianza estimado resultante sería. $\hat{\theta}^{*}$ $\theta$ $\hat{\theta}$ $\theta$ $[\hat{\theta}-\delta_2, \hat{\theta} - \delta_1]$

En esencia, la idea principal es la siguiente: bootstrapping empírica estima una cantidad proporcional a la diferencia entre la estimación puntual y el parámetro real, es , y utiliza esta diferencia para llegar a los límites inferior y superior de CI. $\hat{\theta}-\theta$

El "percentil bootstrap" se refiere a lo siguiente: el uso como el intervalo de confianza para . En esta situación, utilizamos bootstrapping para calcular estimaciones del parámetro de interés y tomar los percentiles de estas estimaciones para el intervalo de confianza. $[\hat{\theta}^*_{\alpha/2}, \hat{\theta}^*_{1-\alpha/2}]$ $\theta$

confidence-interval bootstrap

— Clarinetista
fuente

2

Edité mucho tu actualización. Comprueba que mi edición tiene sentido. Sus citas del libro de Efron fueron confusas porque lo que describe Efron no corresponde a lo que sus notas del MIT llaman "arranque empírico". Así que acabo de dejar la descripción de lo que hacen las notas del MIT. Por cierto, estoy confundido acerca de una cosa en su descripción del "arranque empírico": en la parte superior de la página 6 dice "Dado que

está en el percentil 90 ..." - No entiendo esto . Está claro en el ejemplo que el lado izquierdo del IC se obtiene restando el percentil 90, es decir, su

.

δ_{.1}^{*}

$\delta_{.1}^*$

δ_{2}

$\delta_2$

— ameba dice Reinstate Monica

2

@amoeba tus ediciones son correctas. Gracias por ayudarme en todo. Creo que hay algunos problemas con las notas del MIT; su descripción de las dificultades con los bootstraps percentiles no era muy clara y su argumento en contra de ellos es principalmente una apelación a la autoridad. No pude reproducir su último ejemplo numérico contra el bootstrap percentil. No piense que trabajaron con algunos detalles tan bien como nosotros mientras abordamos esta útil pregunta, y por lo tanto su texto puede tener algunas deficiencias, como usted señala.

— EdM

Al observar esa nota del MIT, no veo cómo los autores obtuvieron los intervalos de confianza en la sección 9 "El método del percentil bootstrap (no debe usarse)" de [37.4, 42.4]. Parece que la muestra que están utilizando no es la misma que la de la sección 6, a la que están haciendo la comparación. Si tomamos la muestra para δ ∗ = x ∗ - x informada al final de la página 5 y sumamos la media muestral de 40.3 y tomamos los IC, los límites que obtengo son [38.9, 41.9] que tiene el mismo ancho de 3 como los límites que informan en la sección 6 de [38.7, 41.7].

— Confundido el

21

Hay algunas dificultades que son comunes a todas las estimaciones de bootstrapping no paramétricas de intervalos de confianza (IC), algunas que son más problemáticas tanto con el "empírico" (llamado "básico" en la boot.ci()función del bootpaquete R como en la Ref. 1 ) y las estimaciones de IC "percentil" (como se describe en la Ref. 2 ), y algunas que pueden exacerbarse con IC de percentil.

TL; DR : en algunos casos, las estimaciones de CI de arranque por percentil podrían funcionar adecuadamente, pero si ciertas suposiciones no se cumplen, entonces el CI de percentil podría ser la peor opción, con el arranque empírico / básico la siguiente peor. Otras estimaciones de CI de arranque pueden ser más confiables, con una mejor cobertura. Todo puede ser problemático. Mirar las gráficas de diagnóstico, como siempre, ayuda a evitar posibles errores incurridos al simplemente aceptar la salida de una rutina de software.

Configuración de Bootstrap

Generalmente siguiendo la terminología y los argumentos de la Ref. 1 , tenemos una muestra de datos extraerse de variables aleatorias independientes e idénticamente distribuidos compartir una función de distribución acumulativa . La función de distribución empírica (FED) construido a partir de la muestra de datos es . Estamos interesados en una característica de la población, estimada por una estadística cuyo valor en la muestra es . Nos gustaría saber qué tan bien estima $y_1, ..., y_n$ $Y_i$ $F$ $\hat F$ $\theta$ $T$ $t$ $T$ $\theta$ , por ejemplo, la distribución de . $(T - \theta)$

Usos de arranque no paramétricas de muestreo del FED al muestreo imitador de , teniendo muestras de cada uno de tamaño con el reemplazo de la . Los valores calculados a partir de las muestras de bootstrap se denotan con "*". Por ejemplo, la estadística calculada en la muestra de arranque j proporciona un valor . $\hat F$ $F$ $R$ $n$ $y_i$ $T$ $T_j^*$

CIs de arranque empírico / básico versus percentil

La empírica / bootstrap Basic utiliza la distribución de entre los muestras de arranque de para estimar la distribución de dentro de la población descrita por en sí. Por lo tanto, sus estimaciones de CI se basan en la distribución de , donde es el valor de la estadística en la muestra original. $(T^*-t)$ $R$ $\hat F$ $(T-\theta)$ $F$ $(T^*-t)$ $t$

Este enfoque se basa en el principio fundamental de bootstrapping ( Ref. 3 ):

La población corresponde a la muestra como lo es la muestra a las muestras de bootstrap.

El arranque percentil en su lugar utiliza los cuantiles de mismos valores para determinar el CI. Estas estimaciones pueden ser bastante diferentes si hay sesgo o sesgo en la distribución de . $T_j^*$ $(T-\theta)$

Digamos que hay un sesgo observado tal que: $B$

{\bar{T}}^{*} = t + B,

$\bar T^*=t+B,$

donde es la media de . Para concreción, digamos que los percentiles 5 y 95 de se expresan como y , donde es la media sobre las muestras de bootstrap y son cada positivo y potencialmente diferente para permitir sesgo. Las estimaciones basadas en percentiles 5º y 95º de CI se darían directamente, respectivamente, por: $\bar T^*$ $T_j^*$ $T_j^*$ $\bar T^*-\delta_1$ $\bar T^*+\delta_2$ $\bar T^*$ $\delta_1,\delta_2$

{\bar{T}}^{*} - δ_{1} = t + B - δ_{1}; {\bar{T}}^{*} + δ_{2} = t + B + δ_{2} .

$\bar T^*-\delta_1=t+B-\delta_1; \bar T^*+\delta_2=t+B+\delta_2.$

Las estimaciones de CI del percentil 5 y 95 por el método de arranque empírico / básico serían respectivamente ( Ref. 1 , eq. 5.6, página 194):

2 t - ({\bar{T}}^{*} + δ_{2}) = t - B - δ_{2}; 2 t - ({\bar{T}}^{*} - δ_{1}) = t - B + δ_{1} .

$2t-(\bar T^*+\delta_2) = t-B-\delta_2; 2t-(\bar T^*-\delta_1) = t-B+\delta_1.$

Por lo tanto, los IC basados en percentiles interpretan mal el sesgo y cambian las direcciones de las posiciones potencialmente asimétricas de los límites de confianza en torno a un centro doblemente sesgado . Los IC porcentuales de bootstrapping en tal caso no representan la distribución de . $(T-\theta)$

Este comportamiento se ilustra muy bien en esta página , para el arranque de una estadística con un sesgo tan negativo que la estimación de la muestra original está por debajo del IC del 95% basado en el método empírico / básico (que incluye directamente la corrección de sesgo adecuada). ¡Los IC del 95% basados en el método del percentil, dispuestos alrededor de un centro doblemente sesgado negativamente, en realidad están por debajo de la estimación puntual negativamente sesgada de la muestra original!

¿Nunca se debe usar el bootstrap percentil?

Eso puede ser una exageración o una subestimación, dependiendo de su perspectiva. Si puede documentar sesgos y sesgos mínimos, por ejemplo, visualizando la distribución de con histogramas o gráficos de densidad, el bootstrap percentil debería proporcionar esencialmente el mismo CI que el CI empírico / básico. Estos son probablemente ambos mejores que la simple aproximación normal al IC. $(T^*-t)$

Sin embargo, ninguno de los enfoques proporciona la precisión en la cobertura que pueden proporcionar otros enfoques de arranque. Efron desde el principio reconoció las posibles limitaciones de los IC de percentiles, pero dijo: "Principalmente nos contentaremos con dejar que los diversos grados de éxito de los ejemplos hablen por sí mismos". ( Ref. 2 , página 3)

El trabajo posterior, resumido por ejemplo por DiCiccio y Efron ( Ref. 4 ), desarrolló métodos que "mejoran en un orden de magnitud sobre la precisión de los intervalos estándar" proporcionados por los métodos empíricos / básicos o percentiles. Por lo tanto, se podría argumentar que no se deben utilizar los métodos empíricos / básicos ni los percentiles, si le interesa la precisión de los intervalos.

En casos extremos, por ejemplo, el muestreo directo de una distribución lognormal sin transformación, ninguna estimación de CI de arranque podría ser confiable, como ha señalado Frank Harrell .

¿Qué limita la fiabilidad de estos y otros CI de arranque?

Varios problemas pueden hacer que los CI de arranque no sean confiables. Algunos se aplican a todos los enfoques, otros pueden aliviarse mediante enfoques distintos de los métodos empíricos / básicos o percentiles.

La primera, en general, es cuestión de qué tan bien la distribución empírica representa la distribución de la población . Si no es así, entonces ningún método de arranque será confiable. En particular, el arranque para determinar cualquier cosa cercana a los valores extremos de una distribución puede no ser confiable. Este problema se discute en otra parte de este sitio, por ejemplo aquí y aquí . Los pocos discretas, valores, disponibles en las colas de para cualquier muestra particular pueden no representar las colas de una continua muy bien. Un caso extremo pero ilustrativo es tratar de usar bootstrapping para estimar la estadística de orden máxima de una muestra aleatoria de un uniforme $\hat F$ $F$ $\hat F$ $F$ Distribución , como se explica muy bienaquí. Tenga en cuenta que el IC de 95% o 99% de bootstrapped se encuentra en la cola de una distribución y, por lo tanto, podría sufrir este problema, particularmente con tamaños de muestra pequeños. $\;\mathcal{U}[0,\theta]$

En segundo lugar, no hay ninguna garantía de que el muestreo de cualquier cantidad de tendrá la misma distribución que el muestreo desde . Sin embargo, esa suposición subyace en el principio fundamental de bootstrapping. Las cantidades con esa propiedad deseable se denominan fundamentales . Como AdamO explica : $\hat F$ $F$

Esto significa que si el parámetro subyacente cambia, la forma de la distribución solo se desplaza por una constante, y la escala no cambia necesariamente. Esta es una suposición fuerte!

Por ejemplo, si hay sesgo es importante saber que el muestreo de alrededor de es el mismo que el muestreo de alrededor de . Y este es un problema particular en el muestreo no paramétrico; como Ref. 1 lo pone en la página 33: $F$ $\theta$ $\hat F$ $t$

En problemas no paramétricos la situación es más complicada. Ahora es poco probable (pero no estrictamente imposible) que cualquier cantidad pueda ser exactamente crucial.

Entonces, lo mejor que suele ser posible es una aproximación. Sin embargo, este problema a menudo puede abordarse adecuadamente. Es posible estimar qué tan cerca está una cantidad muestreada de pivote, por ejemplo con gráficos de pivote como lo recomiendan Canty et al . Estos pueden mostrar cómo las distribuciones de las estimaciones de arranque varían con , o qué tan bien una transformación proporciona una cantidad que es fundamental. Los métodos para mejorar los CI de arranque pueden intentar encontrar una transformación $(T^*-t)$ $t$ $h$ $(h(T^*)-h(t))$ $h$ tal que está más cerca de ser crucial para estimar los IC en la escala transformada, luego se transforma nuevamente a la escala original. $(h(T^*)-h(t))$

boot.ci() $BC_a$ $\alpha$ $n^{-1}$ $n^{-0.5}$ $T_j^*$

En casos extremos, uno podría necesitar recurrir a bootstrapping dentro de las muestras bootstrap para proporcionar un ajuste adecuado de los intervalos de confianza. Este "Bootstrap doble" se describe en la Sección 5.6 de la Ref. 1 , con otros capítulos en ese libro que sugieren formas de minimizar sus demandas computacionales extremas.

— EdM
fuente

1

Realmente no entiendo por qué dices que "arranque empírico" sería "mucho menos sensible" a las desviaciones de la distribución de la población. ¿No son el bootstrap percentil y este "bootstrap empírico" que utilizan exactamente los mismos cuantiles de la distribución bootstrap? Pensé que la única diferencia es que si la distribución bootstrap es asimétrica alrededor de la media de la muestra, los intervalos de estos dos enfoques serán invertidos. Como se describe aquí: en.wikipedia.org/wiki/… ("básico" vs "percentil").

— ameba dice Reinstate Monica

1

@amoeba difieren en cómo manejan el sesgo en las estimaciones de arranque, no solo en cambiar los intervalos. Esta respuesta necesita más trabajo para separar los problemas de arranque empírico vs percentil de los problemas relacionados con las colas de distribuciones, que he confundido aquí y que espero aclarar en un par de días.

— EdM

1

No elevo esta respuesta porque, según las referencias proporcionadas y la justificación (muy razonable) presentada: " el percentil bootstrap nunca debe usarse " es simplemente una exageración, no "un poco". Sí, si podemos, deberíamos usar alguna forma de método de arranque con corrección de sesgo, pero no, mejor usar el arranque por percentil para obtener estimaciones de CI algo ineficientes en lugar de mantener 2SE sin pensar en la media y pensar que descubrimos América. (Estoy muy de acuerdo con lo que dice el cuerpo principal de la respuesta, solo que no es el último párrafo, ya que siento que deja la puerta abierta a malas interpretaciones).

— usrsr11852 dice Reinstate Monic

1

Sustancialmente reorganizado y corregido, en parte en respuesta a los comentarios.

— EdM

1

U^{*}

$U^*$

{\hat{θ}}_{U}^{*} - \hat{θ}

$\hat\theta^*_U - \hat\theta$

{\hat{θ}}_{U}^{*}

$\hat\theta^*_U$

\hat{θ} - U^{*} = \hat{θ} - ({\hat{θ}}_{U}^{*} - \hat{θ}) = 2 \hat{θ} - {\hat{θ}}_{U}^{*}

$\hat\theta - U^* = \hat\theta -(\hat\theta^*_U - \hat\theta)=2 \hat\theta - \hat\theta^*_U$

t

$t$

\hat{θ}

$\hat\theta$

{\hat{θ}}_{U}^{*}

$\hat\theta^*_U$

{\bar{T}}^{*}

$\bar T^*$

δ_{2}

$\delta_2$

8

Algunos comentarios sobre terminología diferente entre MIT / Rice y el libro de Efron

Creo que la respuesta de EdM hace un trabajo fantástico al responder la pregunta original de los OP, en relación con las notas de clase del MIT. Sin embargo, el OP también cita el libro de Efrom (2016) Computer Age Statistical Inference que utiliza definiciones ligeramente diferentes que pueden generar confusión.

Capítulo 11 - Ejemplo de correlación de muestra de puntaje del alumno

$\hat \theta = 0.498$ $B = 2000$ $\hat \theta^*$

Bootstrap de intervalo estándar

Luego define la siguiente rutina de arranque de intervalo estándar :

\hat{θ} \pm 1.96 \hat{s e}

$\hat \theta \pm 1.96 \hat{se}$

$\hat{se}$ $se_{boot}$

Desviación estándar empírica de los valores de arranque:

$\mathbf{x} = (x_1,x_2,...,x_n)$ $\mathbf{x^*} = (x_1^*,x_2^*,...,x_n^*)$ $b$

{\hat{θ}}^{* b} = s (x^{* b}) for b = 1, 2, . . ., B

$\hat \theta^{*b} = s(\mathbf{x}^{*b}) \ \text{ for } b = 1,2,...,B$

$\hat \theta$

{\hat{s e}}_{b o o t} = {[\sum_{b = 1}^{B} ({\hat{θ}}^{* b} - {\hat{θ}}^{*})^{2} / (B - 1)]}^{1 / 2}

$\hat{se}_{boot} = \left[ \sum_{b=1}^B (\hat \theta^{*b} - \hat \theta^{*})^2 / (B-1)\right]^{1/2}$

{\hat{θ}}^{*} = \frac{\sum_{b = 1}^{B} {\hat{θ}}^{* b}}{B}

$\hat \theta^{*} = \frac{\sum_{b=1}^B \hat \theta^{*b}}{B}$

Esta definición parece diferente a la utilizada en la respuesta de EdM:

$(T^∗−t)$ $R$ $\hat F$ $(T−\theta)$ $F$

Bootstrap de percentil

Aquí, ambas definiciones parecen alineadas. De Efron página 186:

$B$ $\hat \theta^{*1}, \hat \theta^{*2},...,\hat \theta^{*B}$

En este ejemplo, estos son 0.118 y 0.758 respectivamente.

Citando a EdM:

$T^∗_j$

Comparar el método estándar y el percentil como lo define Efron

Basado en sus propias definiciones, Efron hace un esfuerzo considerable para argumentar que el método del percentil es una mejora. Para este ejemplo, los CI resultantes son:

Conclusión

Yo diría que la pregunta original del OP está alineada con las definiciones proporcionadas por EdM. Las ediciones realizadas por el OP para aclarar las definiciones están alineadas con el libro de Efron y no son exactamente las mismas para CI de arranque empírico vs estándar.

Comentarios son bienvenidos

— Xavier Bourret Sicotte
fuente

2

boot.ci()

θ

$\theta$

Acabo de consultar el manual para boot.ci(): "Los intervalos normales también usan la corrección de sesgo bootstrap". Así que eso parece ser una diferencia del "arranque de intervalo estándar" descrito por Efron.

— EdM

Bastante justo: los intervalos normales descritos en el libro son el caso base a partir del cual construye enfoques mejores y más precisos (hasta BC y BCa), por lo que tiene sentido que no se implemente

— Xavier Bourret Sicotte

@EdM y Xavier: ¿ la inferencia estadística de la era de la computadora describe los CI "empíricos / básicos"? Si es así, ¿cómo los llama el libro? Si no, ¿no es extraño?

— ameba dice Reinstate Monica

1

@amoeba no es que pueda ver a primera vista. El libro está disponible en formato PDF para uso personal. Como sostengo en mi respuesta y como se señala en el libro, hay mejores opciones que los CI "empíricos / básicos" y "percentiles" con respecto a la cobertura, por lo que puedo ver por qué uno podría omitirse: sin sesgos y con CI simétrico, No hay mucha diferencia entre ellos. Ciertamente no puedo culpar al inventor del bootstrap por enfatizar su método de CI inicial, ya que conduce más directamente a BC y BCa que "empírico / básico".

— EdM

5

Estoy siguiendo su directriz: "Buscando una respuesta basada en fuentes confiables y / u oficiales".

El bootstrap fue inventado por Brad Efron. Creo que es justo decir que es un estadístico distinguido. Es un hecho que él es profesor en Stanford. Creo que eso hace que sus opiniones sean creíbles y oficiales.

Creo que la Inferencia estadística de la era de la computadora de Efron y Hastie es su último libro y, por lo tanto, debería reflejar sus puntos de vista actuales. De p. 204 (11.7, notas y detalles),

Los intervalos de confianza de Bootstrap no son ni exactos ni óptimos, sino que apuntan a una amplia aplicabilidad combinada con una precisión casi exacta.

Si lee el Capítulo 11, "Intervalos de confianza de Bootstrap", le da 4 métodos para crear intervalos de confianza de bootstrap. El segundo de estos métodos es (11.2) El Método del percentil. Los métodos tercero y cuarto son variantes del método de percentil que intentan corregir lo que Efron y Hastie describen como un sesgo en el intervalo de confianza y para lo cual dan una explicación teórica.

Por otro lado, no puedo decidir si hay alguna diferencia entre lo que las personas del MIT llaman CI de arranque empírico y CI porcentual. Puede que tenga un pedo cerebral, pero veo el método empírico como el método del percentil después de restar una cantidad fija. Eso no debería cambiar nada. Probablemente estoy leyendo mal, pero estaría realmente agradecido si alguien puede explicar cómo estoy entendiendo mal su texto.

De todos modos, la autoridad principal no parece tener un problema con los IC de percentiles. También creo que su comentario responde a las críticas de Bootstrap CI que algunas personas mencionan.

MAYOR AGREGAR

$[\bar{x*}-\delta_{.1},\bar{x*}-\delta_{.9}]$ $[\bar{x*}-\delta_{.9},\bar{x*}-\delta_{.1}]$
$\delta = \bar{x} - \mu$ $\bar{x} - \mu$ $\mu-\bar{x}$ . Igual de razonable. Además, el delta para el segundo set es el bootstrap de percentil contaminado. Efron usa el percentil y creo que la distribución de los medios reales debería ser lo más fundamental. Añadiría que, además de Efron y Hastie y el artículo de 1979 de Efron mencionado en otra respuesta, Efron escribió un libro sobre el bootstrap en 1982. En las 3 fuentes hay menciones de bootstrap percentil, pero no encuentro ninguna mención de qué la gente del MIT llama el arranque empírico. Además, estoy bastante seguro de que calculan incorrectamente el bootstrap percentil. A continuación hay un cuaderno R que escribí.

Comentarios sobre la referencia del MIT Primero, introduzcamos los datos del MIT en R. Hice un simple trabajo de cortar y pegar sus muestras de bootstrap y lo guardé en boot.txt.

Ocultar orig.boot = c (30, 37, 36, 43, 42, 43, 43, 46, 41, 42) boot = read.table (file = "boot.txt") significa = as.numeric (lapply (boot , mean)) # lapply crea listas, no vectores. Lo uso SIEMPRE para marcos de datos. mu = mean (orig.boot) del = sort (significa - mu) # las diferencias mu significa del y más

Ocultar mu - sort (del) [3] mu - sort (del) [18] Entonces obtenemos la misma respuesta que ellos. En particular, tengo el mismo percentil 10 y 90. Quiero señalar que el rango del percentil 10 al 90 es 3. Esto es lo mismo que el MIT.

¿Cuáles son mis medios?

Ocultar significa ordenar (significa) Estoy obteniendo diferentes medios. Punto importante: mi 10 y 90 significan 38.9 y 41.9. Esto es lo que esperaría. Son diferentes porque estoy considerando distancias desde 40.3, por lo que estoy invirtiendo el orden de resta. Tenga en cuenta que 40.3-38.9 = 1.4 (y 40.3 - 1.6 = 38.7). Entonces, lo que ellos llaman el bootstrap percentil proporciona una distribución que depende de los medios reales que obtengamos y no de las diferencias.

Punto clave El bootstrap empírico y el bootstrap percentil serán diferentes, ya que lo que llaman el bootstrap empírico será el intervalo [x ∗ ¯ − δ.1, x ∗ ¯ − δ.9] [x ∗ ¯ − δ.1, x ∗ ¯ − δ.9] mientras que el percentil bootstrap tendrá el intervalo de confianza [x ∗ ¯ − δ.9, x ∗ ¯ − δ.1] [x ∗ ¯ − δ.9, x ∗ ¯ − δ.1 ] Por lo general, no deberían ser tan diferentes. Tengo mis pensamientos sobre cuál preferiría, pero no soy la fuente definitiva que solicita OP. Experimento de pensamiento: si los dos convergen si aumenta el tamaño de la muestra. Observe que hay 210210 muestras posibles de tamaño 10. No nos volvamos locos, pero ¿qué pasa si tomamos 2000 muestras, un tamaño que generalmente se considera suficiente?

Ocultar set.seed (1234) # reproducible boot.2k = matriz (NA, 10,2000) para (i en c (1: 2000)) {boot.2k [, i] = muestra (arranque original, 10, reemplazar = T)} mu2k = sort (apply (boot.2k, 2, mean)) Veamos mu2k

Ocultar resumen (mu2k) media (mu2k) -mu2k [200] media (mu2k) - mu2k [1801] Y los valores reales-

Ocultar mu2k [200] mu2k [1801] Entonces, ahora, lo que el MIT llama el arranque empírico da un intervalo de confianza del 80% de [, 40.3 -1.87,40.3 +1.64] o [38.43,41.94] y su mala distribución de percentiles da [38.5, 42] Por supuesto, esto tiene sentido porque la ley de los grandes números dirá en este caso que la distribución debería converger a una distribución normal. Por cierto, esto se discute en Efron y Hastie. El primer método que dan para calcular el intervalo de arranque es usar mu = / - 1.96 sd. Como señalan, para un tamaño de muestra lo suficientemente grande, esto funcionará. Luego dan un ejemplo para el cual n = 2000 no es lo suficientemente grande como para obtener una distribución aproximadamente normal de los datos.

Conclusiones En primer lugar, quiero establecer el principio que uso para decidir las cuestiones de denominación. "Es mi fiesta la que puedo llorar si quiero". Aunque originalmente fue enunciado por Petula Clark, creo que también aplica estructuras de nombres. Entonces, con sincera deferencia al MIT, creo que Bradley Efron merece nombrar los diversos métodos de arranque como lo desee. Qué él ha hecho ? No puedo encontrar ninguna mención en Efron de 'arranque empírico', solo percentil. Así que humildemente estaré en desacuerdo con Rice, MIT, et al. También quisiera señalar que, según la ley de los grandes números, tal como se usa en la conferencia del MIT, lo empírico y el percentil deberían converger al mismo número. Para mi gusto, el bootstrap percentil es intuitivo, justificado y lo que el inventor de bootstrap tenía en mente. Añadiría que me tomé el tiempo para hacer esto solo para mi propia edificación, no para nada más. En particular, No escribí Efron, que probablemente sea lo que OP debería hacer. Estoy más dispuesto a corregirme.

— aginensky
fuente

3

"Creo que es justo decir que es un estadístico distinguido". - Sí, diría que es justo!

— Xavier Bourret Sicotte

Creo que lo que OP llama "arranque empírico" es lo que Wikipedia llama "arranque básico" aquí en.wikipedia.org/wiki/… . Utiliza los mismos percentiles que el "percentil bootstrap", tiene razón, pero los da la vuelta. ¿Efron y Hastie incluyen esto en sus 4 métodos? ¿Cómo lo llaman?

— ameba dice Reinstate Monica

Traté de aclarar esto en la pregunta basada en lo que leí en las notas del MIT. Avíseme si algo no está claro (o si tiene tiempo para revisar las notas, revise mi publicación para ver si está correcta).

— Clarinetista

@Xavier uno podría argumentar que mi declaración de Efron fue insuficiente.

— aginensky

1

[\bar{x *} - δ_{.1}, \bar{x *} - δ_{.9}]

$[\bar{x*}-\delta_{.1},\bar{x*}-\delta_{.9}]$

\bar{x *}

$\bar{x*}$

— EdM

2

Como ya se señaló en respuestas anteriores, el "arranque empírico" se llama "arranque básico" en otras fuentes (incluida la función R boot.ci ), que es idéntico al "arranque porcentual" invertido en la estimación puntual. Venables y Ripley escriben ("Modern Applied Statstics with S", 4ª ed., Springer, 2002, p. 136):

En problemas asimétricos, los intervalos básicos y percentiles diferirán considerablemente, y los intervalos básicos parecen más racionales.

$n$

$f(x)=3x^2$ $\pm t_{1-\alpha/2}\sqrt{s^2/n})$ $\pm z_{1-\alpha/2}\sqrt{s^2/n})$

$\lambda$ $\pm z_{1-\alpha/2}$ $\pm z_{1-\alpha/2}$

En ambos casos de uso, el bootstrap BCa tiene la mayor probabilidad de cobertura entre los métodos de bootstrap, y el bootstrap percentil tiene una mayor probabilidad de cobertura que el bootstrap básico / empírico.

— cdalitz
fuente