¡Tengo un documento de texto que tiene una carga de texto que tiene un espacio adicional agregado después de cada letra!
Ejemplo:
T h e b o o k a l s o h a s a n a n a l y t i c a l p u r p o s e w h i c h i s m o r e i m p o r t a n t…
Visualmente:
T␣h␣e␣␣b␣o␣o␣k␣␣a␣l␣s␣o␣␣h␣a␣s␣␣a␣n␣␣a␣n␣a␣l␣y␣t␣i ␣c␣a␣l␣␣p␣u␣r␣p␣o␣s␣e␣␣w␣h␣i␣c␣h␣␣i␣s␣␣m␣o␣r␣e␣␣i␣ m␣p␣o␣r␣t␣a␣n␣t ...
Tenga en cuenta que hay un espacio adicional después de cada letra, por lo que hay dos espacios entre palabras consecutivas.
¿Hay alguna forma de obtener awk
o sed
eliminar los espacios adicionales? (Desafortunadamente, este documento de texto es masivo y tomaría mucho tiempo para pasarlo manualmente).
Aprecio que este es probablemente un problema mucho más complejo de resolver con solo un simple script bash, ya que también debe haber algún tipo de reconocimiento de texto.
¿Cómo puedo abordar este problema?
echo 't h i s i s a n e x a m p l e' | sed 's/ //g'
echo 'T h i s ; i s .a n 9 8 e x a m p l e' | perl -pe 's/[a-z]\K (?=[a-z])//ig'