En una pregunta anterior, pregunté sobre herramientas para editar archivos CSV .
Gavin se vinculó a un comentario sobre la Ayuda R de Duncan Murdoch que sugiere que el Formato de intercambio de datos es una forma más confiable de almacenar datos que CSV.
Para algunas aplicaciones, se necesita un sistema de gestión de bases de datos dedicado. Sin embargo, para proyectos de análisis de datos a pequeña escala, algo más ligero parece más adecuado.
Considere los siguientes criterios para evaluar un formato de archivo:
- confiable : los datos ingresados deben mantenerse fieles a lo ingresado; los datos deben abrirse consistentemente en diferentes softwares;
- simple : sería bueno si el formato de archivo es fácil de entender e idealmente se puede leer con un editor de texto simple; Debería ser fácil escribir un programa simple para leer y escribir el formato.
- abierto : el formato debe estar abierto
- interoperable : el formato de archivo debe ser compatible con muchos sistemas
Encuentro que los formatos de valores separados por tabulaciones y comas fallan en el criterio de confiabilidad. Aunque supongo que podría culpar a los programas de importación y exportación en lugar del formato de archivo. A menudo me encuentro teniendo que hacer pequeños ajustes a las opciones
read.table
para evitar que algún personaje extraño rompa la carga del marco de datos.
Preguntas
- ¿Qué formato de archivo satisface mejor estas necesidades?
- ¿Es el formato de intercambio de datos una mejor alternativa? o tiene sus propios problemas?
- ¿Hay algún otro formato que sea preferible?
- ¿Estoy evaluando injustamente TSV y CSV? ¿Existe un conjunto simple de consejos para trabajar con dichos archivos que hacen que el formato del archivo sea más confiable?
write.DIF()
así que me temo que es una calle unidireccional.