Estoy tratando de aprender estadísticas porque encuentro que es tan frecuente que me prohíbe aprender algunas cosas si no las entiendo correctamente. Tengo problemas para entender esta noción de una distribución de muestreo de las medias muestrales. No puedo entender la forma en que algunos libros y sitios lo han explicado. Creo que tengo un entendimiento, pero no estoy seguro si es correcto. A continuación está mi intento de entenderlo.
Cuando hablamos de algún fenómeno que tiene una distribución normal, generalmente (no siempre) concierne a la población.
Queremos usar estadísticas inferenciales para predecir algunas cosas sobre alguna población, pero no tenemos todos los datos. Usamos muestreo aleatorio y cada muestra de tamaño n tiene la misma probabilidad de ser seleccionada.
Entonces tomamos muchas muestras, digamos 100 y luego la distribución de las medias de esas muestras será aproximadamente normal de acuerdo con el teorema del límite central. La media de las medias muestrales se aproximará a la media poblacional.
Ahora, lo que no entiendo es que muchas veces ves "Una muestra de 100 personas ..." ¿No necesitaríamos 10s o 100s de muestras de 100 personas para aproximarnos a la población de la media? ¿O es el caso de que podemos tomar una sola muestra que sea lo suficientemente grande, digamos 1000 y luego decir que la media se aproximará a la media de la población? ¿O tomamos una muestra de 1000 personas y luego tomamos 100 muestras aleatorias de 100 personas en cada muestra de las 1000 personas originales que tomamos y luego usamos eso como nuestra aproximación?
¿Tomar una muestra lo suficientemente grande como para aproximar la media (casi) siempre funciona? ¿Es necesario que la población sea normal para que esto funcione?