Estoy escribiendo un rastreador en Ruby (1.9) que consume mucho HTML de muchos sitios aleatorios.
Al intentar extraer enlaces, decidí usar simplemente en .scan(/href="(.*?)"/i)
lugar de nokogiri / hpricot (mayor aceleración). El problema es que ahora recibo muchos " invalid byte sequence in UTF-8
" errores.
Por lo que entendí, la net/http
biblioteca no tiene opciones específicas de codificación y las cosas que vienen, básicamente, no están etiquetadas correctamente.
¿Cuál sería la mejor manera de trabajar realmente con esos datos entrantes? Intenté .encode
con el conjunto de opciones de reemplazo y no válidas, pero no tuve éxito hasta ahora ...
'U*'
deshace 'C*'
?