Habiendo estudiado recientemente bootstrap, se me ocurrió una pregunta conceptual que todavía me desconcierta:
Tiene una población y desea conocer un atributo de población, es decir, , donde uso para representar a la población. Esta podría ser la media poblacional, por ejemplo. Por lo general, no puede obtener todos los datos de la población. Entonces, se extrae una muestra de tamaño de la población. Supongamos que tiene iid sample por simplicidad. Luego obtienes tu estimador . Desea usar para hacer inferencias sobre , por lo que le gustaría saber la variabilidad de .P θ X N θ = g ( X ) θ θ θ
Primero, hay una verdadera distribución de muestreo de . Conceptualmente, podría extraer muchas muestras (cada una de ellas tiene el tamaño ) de la población. Cada vez tendrá una realización de ya que cada vez tendrá una muestra diferente. Luego, al final, podrá recuperar la verdadera distribución de . Ok, este al menos es el punto de referencia conceptual para la estimación de la distribución de . Permítanme repetirlo: el objetivo final es utilizar varios métodos para estimar o aproximar la distribución verdadera de . N θ =g(X) θ θ θ
Ahora, aquí viene la pregunta. Por lo general, solo tiene una muestra que contiene puntos de datos. Luego, volverá a muestrear esta muestra muchas veces, y obtendrá una distribución de arranque de . Mi pregunta es: ¿qué tan cerca está esta distribución de arranque a la verdadera distribución de muestreo de ? ¿Hay alguna manera de cuantificarlo?N θ