Tengo pruebas unitarias más pequeñas que usan fragmentos pequeños de conjuntos de datos reales. También me gustaría probar mi programa contra conjuntos de datos completos por una multitud de razones. El único problema es que un único conjunto de datos real es de aproximadamente ~ 5 GB. No he encontrado ningún número difícil para lo que los repositorios de Git pueden almacenar, pero eso parece demasiado.
La solución que mi equipo ha adoptado es que el proyecto tiene un archivo que contiene una ruta a un sistema de archivos conectado a la red que contiene nuestros datos de prueba. El archivo es Git ignorado.
Siento que esta es una solución imperfecta por dos razones. Cuando el NAS no funciona, es lento o está inactivo, entonces no podemos ejecutar una prueba completa. La segunda razón es que cuando alguien clona un repositorio por primera vez, las pruebas unitarias fallan, por lo que tienen que descubrir cómo montar cosas con un nombre determinado y la sintaxis utilizada para construir el archivo de ruta de prueba.
Entonces mi pregunta es doble. ¿Cuántos datos son demasiados datos para almacenar en el control de revisión?
¿Cuál es una mejor manera de manejar grandes cantidades de datos de prueba?