Actualmente estoy usando Beautiful Soup para analizar un archivo HTML y llamar get_text()
, pero parece que me quedan muchos \ xa0 Unicode que representan espacios. ¿Hay alguna manera eficiente de eliminarlos en Python 2.7 y cambiarlos a espacios? Supongo que la pregunta más general sería: ¿hay alguna forma de eliminar el formato Unicode?
Intenté usar:, line = line.replace(u'\xa0',' ')
como lo sugirió otro hilo, pero eso cambió los \ xa0's a u's, así que ahora tengo "u" s en todas partes. ):
EDITAR: Parece que el problema se resuelve str.replace(u'\xa0', ' ').encode('utf-8')
, pero el hecho de .encode('utf-8')
no hacerlo replace()
hace que escupe caracteres aún más extraños, \ xc2 por ejemplo. ¿Alguien puede explicar esto?
u''
s en lugar de ''
s. :-)
u' '
reemplazo, no el ' '
. ¿Es la cadena original la unicode?