Sé que este es un tema bastante candente en el que nadie realmente puede dar una respuesta simple. Sin embargo, me pregunto si el siguiente enfoque no podría ser útil.
El método bootstrap solo es útil si su muestra sigue más o menos (lea exactamente) la misma distribución que la población original. Para estar seguro de que este es el caso, debe hacer que el tamaño de su muestra sea lo suficientemente grande. Pero, ¿qué es lo suficientemente grande?
Si mi premisa es correcta, tiene el mismo problema cuando utiliza el teorema del límite central para determinar la media de la población. Solo cuando el tamaño de su muestra es lo suficientemente grande, puede estar seguro de que la población de sus medias muestrales se distribuye normalmente (alrededor de la media poblacional). En otras palabras, sus muestras necesitan representar su población (distribución) lo suficientemente bien. Pero de nuevo, ¿qué es lo suficientemente grande?
En mi caso (procesos administrativos: tiempo necesario para finalizar una demanda frente a la cantidad de demandas) tengo una población con una distribución multimodal (todas las demandas que se terminaron en 2011) de las cuales estoy 99% seguro de que es aún menos normalmente distribuido que la población (todas las demandas que se terminan entre el día presente y un día en el pasado, idealmente este intervalo de tiempo es lo más pequeño posible) Quiero investigar.
Mi población de 2011 existe con suficientes unidades para hacer muestras de un tamaño de muestra n . Elijo un valor de x , supongamos que 10 ( x = 10 ). Ahora uso prueba y error para determinar un buen tamaño de muestra. Tomo un n = 50 , y veo si mi población promedio de muestra se distribuye normalmente usando Kolmogorov-Smirnov. Si es así, repito los mismos pasos pero con un tamaño de muestra de 40 , si no, repito con un tamaño de muestra de 60 (etc.).
Después de un tiempo, concluyo que es el tamaño de muestra mínimo absoluto para obtener una representación más o menos buena de mi población de 2011. Como sé que mi población de interés (todas las demandas que se terminaron entre el día presente y un día en el pasado) tiene menos variación, puedo usar con seguridad un tamaño de muestra de n = 45 para iniciar. (Indirectamente, el n = 45 determina el tamaño de mi intervalo de tiempo: tiempo necesario para completar 45 demandas).
Esta es, en resumen, mi idea. Pero como no soy un estadístico sino un ingeniero cuyas lecciones de estadística tuvieron lugar en los días de allá, no puedo excluir la posibilidad de que haya generado mucha basura :-). ¿Qué piensan ustedes? Si mi premisa tiene sentido, ¿debo elegir una mayor que 10 o menor? Dependiendo de sus respuestas (¿necesito sentirme avergonzado o no? :-) Publicaré algunas ideas de discusión más.
respuesta en la primera respuesta Gracias por responder, Su respuesta fue muy útil para mí, especialmente los enlaces del libro.
Pero tengo miedo de que en mi intento de dar información nublé por completo mi pregunta. Sé que las muestras de bootstrap se hacen cargo de la distribución de la muestra de población. Te sigo por completo pero ...
Su muestra de población original debe ser lo suficientemente grande como para estar moderadamente segura de que la distribución de su muestra de población corresponde (igual) con la distribución 'real' de la población.
Esta es simplemente una idea sobre cómo determinar qué tan grande debe ser el tamaño de la muestra original para estar razonablemente seguro de que la distribución de la muestra se corresponde con la distribución de la población.
Supongamos que tiene una distribución de población bimodal y una parte superior es mucho más grande que la otra. Si el tamaño de su muestra es 5, la probabilidad es grande de que las 5 unidades tengan un valor muy cercano a la parte superior grande (la posibilidad de dibujar una unidad al azar es la más grande). En este caso, su distribución de muestra se verá monomodal.
¡Con un tamaño de muestra de cien, la posibilidad de que su distribución de muestra también sea bimodal es mucho mayor! El problema con el bootstrapping es que solo tiene una muestra (y se basa más en esa muestra). Si la distribución de la muestra realmente no se corresponde con la distribución de la población, está en problemas. Esta es solo una idea para hacer que la posibilidad de tener 'una mala distribución de la muestra' sea lo más baja posible sin tener que hacer que el tamaño de la muestra sea infinitamente grande.