Tengo un archivo de texto grande que es básicamente una secuencia de datos comprimidos en conjunto para cada fila. Me han pedido que analice el fallo de ciertos datos en algunas columnas. Los datos no están delimitados de ninguna manera. Sin embargo, tengo una lista de longitudes de "columna" y comentarios sobre si hay datos relevantes en cada "columna".
Usaría Excel, pero el límite de Excel para delimitar por columnas está restringido a 1000 caracteres por fila, y cada fila va mucho más allá de esto. Varios de estos campos tienen cadenas de 30 espacios que actúan como relleno y hay al menos unos 15 de estos ... Espero analizar estos campos designados "vacíos".
Lo que necesito es una forma en que pueda alimentar mi archivo y con una matriz que pueda proporcionar que tenga las longitudes de columna y tal vez un marcador como "X" para ignorar las columnas respectivas que quiero ignorar, hacer que escupe un nuevo archivo con delimitadores, que luego puedo alimentar a Excel para su análisis.
Por ejemplo, si tuviera un archivo con una fila como aaaaaabbbbbccccdddddeeeffffff
y alimente este archivo con una matriz [6 5 4X 5 3X 6]
, escupiría un archivo con aaaaaa^bbbbb^ddddd^ffffff
esa fila.
¿Hay alguna manera esto se puede hacer con grep
, awk
o sed
?
Gracias por adelantado.
^
ser el delimitador exacto en las filas resultantes?