Soy estudiante de doctorado en Geofísica y trabajo con grandes cantidades de datos de imágenes (cientos de GB, decenas de miles de archivos). Yo sé svn
y git
bastante bien y llegado a valorar la historia del proyecto, combinado con la capacidad de trabajar juntos fácilmente y tienen protección contra daños en el disco. git
También me parece extremadamente útil para tener copias de seguridad consistentes, pero sé que git no puede manejar grandes cantidades de datos binarios de manera eficiente.
En mis estudios de maestría trabajé en conjuntos de datos de tamaño similar (también imágenes) y tuve muchos problemas para rastrear diferentes versiones en diferentes servidores / dispositivos. Difundir 100GB en la red realmente no es divertido, y me costó mucho tiempo y esfuerzo.
Sé que otros en la ciencia parecen tener problemas similares, pero no pude encontrar una buena solución.
Quiero usar las instalaciones de almacenamiento de mi instituto, así que necesito algo que pueda usar un servidor "tonto". También me gustaría tener una copia de seguridad adicional en un disco duro portátil, porque me gustaría evitar transferir cientos de GB a través de la red siempre que sea posible. Entonces, necesito una herramienta que pueda manejar más de una ubicación remota.
Por último, realmente necesito algo que otro investigador pueda usar, por lo que no es necesario que sea súper simple, sino que se pueda aprender en unas pocas horas.
He evaluado muchas soluciones diferentes, pero ninguna parece encajar:
- svn es algo ineficiente y necesita un servidor inteligente
- hg bigfile / largefile solo puede usar un control remoto
- git bigfile / media también puede usar solo un control remoto, pero tampoco es muy eficiente
- el ático no parece tener un registro o capacidades diferentes
- bup se ve muy bien, pero necesita un servidor "inteligente" para funcionar
Lo intenté git-annex
, lo que hace todo lo que necesito que haga (y mucho más), pero es muy difícil de usar y no está bien documentado. Lo he usado durante varios días y no pude entenderlo, así que dudo que algún otro compañero de trabajo esté interesado.
¿Cómo manejan los investigadores los grandes conjuntos de datos y qué utilizan otros grupos de investigación?
Para ser claros, estoy principalmente interesado en cómo otros investigadores abordan esta situación, no solo este conjunto de datos específico. Me parece que casi todos deberían tener este problema, pero no conozco a nadie que lo haya resuelto. ¿Debo mantener una copia de seguridad de los datos originales y olvidar todo este control de versiones? ¿Es eso lo que todos los demás están haciendo?