Soy un novato en estadísticas, por lo que me disculpo de antemano si estoy haciendo una pregunta mental. He buscado respuestas a mi pregunta, pero encuentro que muchos de los temas son demasiado específicos o van más allá de lo que actualmente entiendo.
Tengo un trabajo de simulación que incluye grandes conjuntos de datos que no se pueden simular exhaustivamente. Para el más pequeño de mis conjuntos de datos, una ejecución exhaustiva presenta la siguiente distribución de resultados de un total de 9180900 pruebas.
Resultado / Frecuencia:
- 0 7183804
- 1 1887089
- 2 105296
- 3 4571
- 4 140
Lo que significan los números no importa; lo que importa es que los conjuntos de datos más grandes que tengo pueden extenderse a miles de millones de pruebas y llevar demasiado tiempo para ejecutarse. Necesito restringir la carga de trabajo.
Creo que debería poder tomar muestras del conjunto completo de pruebas para obtener una distribución para la muestra, e inferir (dentro de algunos límites) que los resultados de una simulación exhaustiva exhibirían aproximadamente la misma distribución. No hay sesgo inherente a las pruebas que se ejecutan, por lo que elegir entradas de forma uniforme y aleatoria debería proporcionar una muestra válida.
Lo que aún no entiendo es cómo debo hacer para seleccionar el tamaño de mi muestra. En particular, la distribución exhibe una cola extraña, y me temo que el muestreo demasiado pequeño perderá las frecuencias más bajas. (¡Las 140 ocurrencias de '4' representan solo el 0.0015% de la población!)
Entonces, mi pregunta es, ¿cuál es la mejor manera de calcular un tamaño de muestra con el que puedo afirmar algún nivel de bondad en mis resultados?
¿O estoy haciendo la pregunta equivocada?