Normalmente genero el mío, usando algunos datos conocidos como entrada; si es demasiado aleatorio, no siempre es una buena prueba; Necesito datos que se distribuirán de manera similar a mi producto final.
Todas las bases de datos más grandes que tengo que ajustar son de naturaleza científica, por lo que generalmente puedo tomar alguna otra investigación como entrada, y volver a escalarla y agregar jitter. (p. ej., tomar datos que tenían una cadencia de 5 minutos con precisión de milisegundos y convertirlos en una cadencia de 10 segundos con precisión de milisegundos pero una fluctuación de fase de +/- 100 ms a los tiempos)
...
Pero, como otra alternativa, si no desea escribir la suya propia, es mirar algunas de las herramientas de evaluación comparativa, ya que pueden repetir las cosas una y otra vez en función de un conjunto de entrenamiento, puede usarlas para insertar lotes de registros (y luego simplemente ignore los informes sobre qué tan rápido lo hizo) ... y luego puede usar esa misma herramienta para probar qué tan rápido funciona la base de datos una vez que está poblada.