Imagine que desea evaluar la compresibilidad de un documento grande muy rápido. Podrías elegir aleatoriamente una subsecuencia, tratar de comprimirla. Esto puede servir como una predicción de la compresibilidad general del documento. Pero, ¿qué tan grande debe ser tu muestra?
Hemos ideado la siguiente estrategia:
- Elija un tamaño de muestra arbitrario (pequeño). Mide la compresibilidad.
- Luego, duplique el tamaño de la muestra y mida la compresibilidad nuevamente. Si hay pocos cambios (digamos menos del 10%), concluya que ha determinado de manera confiable la compresibilidad del documento. De lo contrario, vuelva a duplicar el tamaño de la muestra, y así sucesivamente.
Estamos bastante seguros de que esta no es una estrategia nueva, y nos preguntamos si está relacionada con alguna estrategia conocida utilizada por los estadísticos.
("Compresión" aquí es solo un ejemplo. Básicamente, estamos interesados en una métrica que no tiene buenas propiedades matemáticas conocidas, por lo que no es posible determinar analíticamente cuál podría ser un buen tamaño de muestra. No tenemos más remedio que caer volver a tales heurísticas.)