Tengo dos corpus paralelos (archivos de texto) alineados con oraciones con aproximadamente 50 mil palabras. (del corpus Europarl -> traducción paralela de documentos legales). Ahora me gustaría barajar las líneas de los dos archivos, pero ambos de la misma manera. Quería abordar eso usando gshuf (estoy en una Mac) usando una fuente aleatoria única.
gshuf --random-source /path/to/some/random/data file1
gshuf --random-source /path/to/some/random/data file2
Pero recibí el mensaje de error end of file
, porque aparentemente la semilla aleatoria debe contener todas las palabras que contiene el archivo a ordenar. ¿Es eso cierto? En caso afirmativo, ¿cómo debo crear una semilla aleatoria que sea buena para mis necesidades? Si no, ¿de qué otra manera podría aleatorizar los archivos en paralelo? Pensé en pegarlos, aleatorizarlos y luego dividirlos nuevamente. Sin embargo, esto parece feo ya que primero necesitaría encontrar un delimitador que no ocurra en los archivos.
random sources
. En cuanto apaste
, podría usar como delimitador algunos caracteres de baja ascii que es poco probable que ocurran en sus archivos (como\x02
,\x03
...).