A mí también me sedujeron tanto el bootstrapping como el teorema de Bayes, pero no pude entender mucho las justificaciones del bootstrapping hasta que lo vi desde una perspectiva bayesiana. Luego, como explico a continuación, la distribución de bootstrap puede verse como una distribución posterior bayesiana, lo que hace obvia la razón (a?) Detrás de bootstrapping, y también tiene la ventaja de aclarar las suposiciones hechas. Hay más detalles sobre el argumento a continuación y las suposiciones hechas en https://arxiv.org/abs/1803.06214 (páginas 22-26).
Como ejemplo, que se configura en la hoja de cálculo en http://woodm.myweb.port.ac.uk/SL/resample.xlsx (haga clic en la pestaña bootstrap en la parte inferior de la pantalla), supongamos que tenemos una muestra de 9 medidas con una media de 60. Cuando utilicé la hoja de cálculo para producir 1000 muestras con reemplazo de esta muestra y redondeé las medias al número par más cercano, 82 de estas medias fueron 54. La idea de bootstrapping es que nosotros use la muestra como una población "simulada" para ver cuán variable es probable que sean las medias de las muestras de 9, por lo que esto sugiere que la probabilidad de que una media de la muestra sea 6 por debajo de la media de la población (en este caso, la población simulada basada en el muestra con una media de 60) es 8.2%. Y podemos llegar a una conclusión similar sobre las otras barras en el histograma de remuestreo.
Ahora imaginemos que la verdad es que la media de la población real es 66. Si es así, nuestra estimación de la probabilidad de que la media de la muestra sea 60 (es decir, los datos) es 8.2% (utilizando la conclusión en el párrafo anterior recordando que 60 es 6 por debajo de la media poblacional hipotética de 66). Escribamos esto como
P (Datos dados Media = 66) = 8.2%
y esta probabilidad corresponde a un valor x de 54 en la distribución de remuestreo. El mismo tipo de argumento se aplica a cada media poblacional posible de 0, 2, 4 ... 100. En cada caso, la probabilidad proviene de la distribución de muestreo, pero esta distribución se refleja sobre la media de 60.
Ahora apliquemos el teorema de Bayes. La medición en cuestión solo puede tomar valores entre 0 y 100, por lo que redondeando al número par más cercano las posibilidades para la media de la población son 0, 2, 4, 6, .... 100 Si suponemos que la distribución previa es plana, cada una de ellas tiene una probabilidad previa del 2% (a 1 dp), y el teorema de Bayes nos dice que
P (PopMean = 66 Datos dados) = 8.2% * 2% / P (Datos)
dónde
P (Datos) = P (PopMean = 0 Datos dados) * 2% + P (PopMean = 2 Datos dados) * 2% + ... + P (PopMean = 100 Datos dados) * 2%
Ahora podemos cancelar el 2% y recordar que la suma de las probabilidades debe ser 1 ya que las probabilidades son simplemente las de la distribución de muestreo. Lo que nos deja con la conclusión de que
P (PopMean = 66) = 8.2%
Recordando que 8.2% es la probabilidad de la distribución de muestreo correspondiente a 54 (en lugar de 66), la distribución posterior es simplemente la distribución de muestreo reflejada sobre la media muestral (60). Además, si la distribución de muestreo es simétrica en el sentido de que las asimetrías son aleatorias, como lo es en este y muchos otros casos, podemos tomar la distribución de muestreo como idéntica a la distribución de probabilidad posterior.
Este argumento hace varias suposiciones, la principal es que la distribución previa es uniforme. Estos se detallan con más detalle en el artículo citado anteriormente.