Preguntas etiquetadas con html-content-extraction



8
Extraer parte de una coincidencia de expresiones regulares
Quiero una expresión regular para extraer el título de una página HTML. Actualmente tengo esto: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') ¿Existe una expresión regular para extraer solo el contenido de <título> para que no tenga que eliminar las etiquetas?

10
BeautifulSoup Grab Visible Webpage Text
Básicamente, quiero usar BeautifulSoup para tomar estrictamente el texto visible en una página web. Por ejemplo, esta página web es mi caso de prueba. Y principalmente quiero obtener el texto del cuerpo (artículo) y tal vez incluso algunos nombres de pestañas aquí y allá. He intentado la sugerencia en esta …
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.