Me he encontrado con el siguiente problema, que reconozco es bastante típico.
Tengo algunos datos grandes, por ejemplo, unos pocos millones de filas. Ejecuto algunos análisis no triviales, por ejemplo, una consulta SQL que consta de varias subconsultas. Obtengo algún resultado, indicando, por ejemplo, que la propiedad X aumenta con el tiempo.
Ahora, hay dos cosas posibles que podrían conducir a eso:
- De hecho, X aumenta con el tiempo
- Tengo un error en mi análisis.
¿Cómo puedo comprobar que sucedió lo primero, en lugar de lo segundo? Un depurador por etapas, incluso si existe, no ayudará, ya que los resultados intermedios pueden consistir en millones de líneas.
Lo único que se me ocurrió fue generar de alguna manera un pequeño conjunto de datos sintéticos con la propiedad que quiero probar y ejecutar el análisis en él como una prueba unitaria. ¿Hay herramientas para hacer esto? Particularmente, pero no limitado a, SQL.