Qué software usar para administrar / transformar un archivo csv de 10 Gb (más de 100 millones de líneas) [cerrado]


0

Así que tengo este archivo uge csv con más de 100 millones de registros y quiero trabajar. No quiero solo editarlo .

Lo que necesito es usar algún tipo de transformación de base de datos Excel / básica (agrupar por, extraer algunos caracteres, agregar una nueva columna basada en información combinada, etc.).

Cuál es la mejor manera de hacer esto ? Importar a una base de datos? (como Oracle, bastante seguro de que Access no puede administrar un archivo tan grande) ¿Se pueden usar otras herramientas? En el trabajo, solía tener un software llamado Amadea ( http://www.isoft.fr/html/prod_amadea_en.htm ) que hacía algunas transformaciones de datos como esta. No conozco ninguna otra herramienta (gratuita) que haga esto de la misma manera.

¡Gracias!


Podrías echar un vistazo a TALEND: potente ETL de código abierto. talend.com
FreudianSlip

¿ha considerado dividir el archivo en varios archivos? Incluso si tuviera que importar a una solución de base de datos completa como MSSQL o MySQL, es probable que necesite dividir los datos en varios archivos. Incluso una solución de base de datos completa tendrá problemas para tratar de analizar 10 GB de datos. superuser.com/questions/98583/break-up-a-large-csv-file?rq=1
Ramhound

La división no es una buena idea ya que sabré cómo dividir solo después de los cálculos
Choumarin

Voy por Talend, parece hacer lo que estoy buscando. Sin embargo, la curva de aprendizaje parece un poco empinada ...
Choumarin

Respuestas:


2

Definitivamente use una base de datos. Hay muchos gratuitos, como MySQL, o si solo quieres que una computadora trabaje en él a la vez, entonces Sqlite es extremadamente bueno.

Verifique que su importación haya funcionado correctamente primero, especialmente si hay números no ascii o grandes en el conjunto de datos de entrada.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.