Preguntas etiquetadas con html-content-extraction

¿Opciones para el raspado de HTML? [cerrado]

Cerrada . Esta pregunta necesita estar más centrada . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que se centre en un problema solo editando esta publicación . Cerrado hace 6 años . Mejora esta pregunta Estoy pensando en probar Beautiful Soup , un paquete …

406 html web-scraping html-parsing html-content-extraction

Extraer texto de un archivo HTML usando Python

Me gustaría extraer el texto de un archivo HTML usando Python. Quiero esencialmente el mismo resultado que obtendría si copiara el texto de un navegador y lo pegue en el bloc de notas. Me gustaría algo más robusto que usar expresiones regulares que pueden fallar en HTML mal formado. He …

243 python html text html-content-extraction

Extraer parte de una coincidencia de expresiones regulares

Quiero una expresión regular para extraer el título de una página HTML. Actualmente tengo esto: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') ¿Existe una expresión regular para extraer solo el contenido de <título> para que no tenga que eliminar las etiquetas?

130 python html regex html-content-extraction

BeautifulSoup Grab Visible Webpage Text

Básicamente, quiero usar BeautifulSoup para tomar estrictamente el texto visible en una página web. Por ejemplo, esta página web es mi caso de prueba. Y principalmente quiero obtener el texto del cuerpo (artículo) y tal vez incluso algunos nombres de pestañas aquí y allá. He intentado la sugerencia en esta …

124 python text beautifulsoup html-content-extraction

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.

Licensed under cc by-sa 3.0 with attribution required.