Si no desea analizar todo el conjunto de datos, entonces probablemente no pueda usar el muestreo estratificado , por lo que le sugiero que tome una muestra aleatoria simple grande . Al tomar una muestra aleatoria , se asegura de que la muestra sea, en promedio, representativa de todo el conjunto de datos, y las medidas estadísticas de precisión estándar, como los errores estándar y los intervalos de confianza, le indicarán qué tan lejos de los valores de la población es probable que sus estimaciones de muestra para ser, así que no hay necesidad real de validar que una muestra sea representativa de la población a menos que tenga algunas preocupaciones que realmente se muestrearon al azar.
¿Qué tan grande es una muestra aleatoria simple? Bueno, cuanto más grande sea la muestra, más precisas serán sus estimaciones. Como ya tiene los datos, los cálculos convencionales del tamaño de la muestra no son realmente aplicables; también puede usar la mayor parte de su conjunto de datos que sea práctico para la computación. A menos que esté planeando hacer algunos análisis complejos que harán que el tiempo de cálculo sea un problema, un enfoque simple sería hacer que la muestra aleatoria simple sea tan grande como pueda analizarse en su PC sin generar paginación231
Entonces se trata de una simple aritmética para calcular cuántas observaciones puede muestrear dadas cuántas variables tiene para cada observación y cuántos bytes ocupa cada variable.