Generalicemos, para enfocarnos en el quid de la cuestión. Explicaré los detalles más pequeños para no dejar dudas. El análisis requiere solo lo siguiente:
La media aritmética de un conjunto de números se define comoz1,…,zm
1metro( z1+ ⋯ + zmetro) .
La expectativa es un operador lineal. Es decir, cuando son variables aleatorias y α i son números, entonces la expectativa de una combinación lineal es la combinación lineal de las expectativas,Zyo, i = 1 , ... , mαyo
E ( α1Z1+ ⋯ + αmetroZmetro) = α1E ( Z1)+⋯+αmE(Zm).
Sea una muestra ( B 1 , ... , B k ) obtenida de un conjunto de datos x = ( x 1 , ... , x n ) tomando k elementos uniformemente de x con reemplazo. Deje m ( B ) será la media aritmética de B . Esta es una variable aleatoria. LuegoB(B1,…,Bk)x=(x1,…,xn)kxm(B)B
E(m(B))=E(1k(B1+⋯+Bk))=1k(E(B1)+⋯+E(Bk))
sigue por la linealidad de la expectativa. Como todos los elementos de se obtienen de la misma manera, todos tienen la misma expectativa, b dice:Bb
E(B1)=⋯=E(Bk)=b.
Esto simplifica lo anterior a
E(m(B))=1k(b+b+⋯+b)=1k(kb)=b.
Por definición, la expectativa es la suma de valores ponderada por la probabilidad. Dado que se supone que cada valor de tiene la misma probabilidad de 1 / n de ser seleccionado,X1/n
E(m(B))=b=E(B1)=1nx1+⋯+1nxn=1n(x1+⋯+xn)=x¯,
La media aritmética de los datos.
Para responder a la pregunta, si uno usa la media de datos para estimar la media de la población, entonces la media de arranque (que es el caso k = n ) también es igual a ˉ x , y por lo tanto es idéntico como un estimador de la media de la población.x¯k=nx¯
Para las estadísticas que no son funciones lineales de los datos, no se cumple necesariamente el mismo resultado. Sin embargo, sería un error simplemente sustituir la media de bootstrap por el valor de la estadística en los datos: no es así como funciona el bootstrapping. En cambio, al comparar la media de bootstrap con la estadística de datos obtenemos información sobre el sesgo de la estadística. Esto se puede usar para ajustar la estadística original para eliminar el sesgo. Como tal, la estimación corregida por sesgo se convierte así en una combinación algebraica de la estadística original y la media de arranque. Para obtener más información, busque "BCa" (bootstrap acelerado y con corrección de sesgos) y "ABC". Wikipedia proporciona algunas referencias.