Codifico muchos analizadores. Hasta ahora, estaba usando el navegador sin cabeza HtmlUnit para el análisis y la automatización del navegador.
Ahora, quiero separar ambas tareas.
Como el 80% de mi trabajo implica solo el análisis, quiero usar un analizador HTML ligero porque lleva mucho tiempo en HtmlUnit cargar primero una página, luego obtener la fuente y luego analizarla.
Quiero saber qué analizador HTML es el mejor. El analizador sería mejor si está cerca del analizador HtmlUnit.
EDITAR:
Por lo mejor, quiero al menos las siguientes características:
- Velocidad
- Facilidad para localizar cualquier HtmlElement por su "id" o "nombre" o "tipo de etiqueta".
Estaría bien para mí si no limpia el código HTML sucio. No necesito limpiar ninguna fuente HTML. Solo necesito una forma más fácil de moverme a través de HtmlElements y obtener datos de ellos.