Cuando trabajo en proyectos de análisis de datos, a menudo almaceno datos en archivos de datos separados por comas o delimitados por tabulaciones (CSV, TSV). Mientras que los datos a menudo pertenecen a un sistema de gestión de bases de datos dedicado. Para muchas de mis aplicaciones, esto sería exagerar.
Puedo editar archivos CSV y TSV en Excel (o presumiblemente otro programa de hoja de cálculo). Esto tiene beneficios:
- las hojas de cálculo facilitan la entrada de datos
También hay varios problemas:
- Trabajar con archivos CSV y TSV genera una amplia gama de mensajes de advertencia sobre la pérdida de varias funciones y cómo solo se guardará la hoja activa, etc. Por lo tanto, es molesto si solo desea abrir el archivo y hacer un pequeño cambio.
- Realiza muchas conversiones "supuestamente inteligentes". Por ejemplo, si ingresa 12/3, pensará que desea ingresar una fecha. ACTUALIZACIÓN: Debería haber mencionado que el ejemplo de fecha es solo uno de muchos ejemplos; La mayoría de los problemas parecen estar relacionados con la conversión inapropiada. En particular, los campos de texto que parecen números o fechas causan problemas.
Alternativamente, podría trabajar directamente con el archivo de texto en un editor de texto estándar. Esto asegura que lo que ingreso es lo que se registra. Sin embargo, es una forma muy incómoda de ingresar datos (las columnas no se alinean; es difícil ingresar datos simplemente en varias celdas, etc.).
Pregunta
- ¿Cuál es una buena estrategia para trabajar con archivos de datos CSV o TSV? es decir, ¿qué estrategia hace que sea fácil ingresar y manipular los datos y al mismo tiempo garantizar que lo que ingrese se interprete correctamente?