Actualmente estoy usando Beautiful Soup para analizar un archivo HTML y llamar get_text(), pero parece que me quedan muchos \ xa0 Unicode que representan espacios. ¿Hay alguna manera eficiente de eliminarlos en Python 2.7 y cambiarlos a espacios? Supongo que la pregunta más general sería: ¿hay alguna forma de eliminar el formato Unicode?
Intenté usar:, line = line.replace(u'\xa0',' ')como lo sugirió otro hilo, pero eso cambió los \ xa0's a u's, así que ahora tengo "u" s en todas partes. ):
EDITAR: Parece que el problema se resuelve str.replace(u'\xa0', ' ').encode('utf-8'), pero el hecho de .encode('utf-8')no hacerlo replace()hace que escupe caracteres aún más extraños, \ xc2 por ejemplo. ¿Alguien puede explicar esto?
u''s en lugar de ''s. :-)
u' 'reemplazo, no el ' '. ¿Es la cadena original la unicode?