Preguntas etiquetadas con beautifulsoup

Beautiful Soup es un paquete de Python para analizar HTML / XML. La última versión de este paquete es la versión 4, importada como bs4.

29
UnicodeEncodeError: el códec 'ascii' no puede codificar el carácter u '\ xa0' en la posición 20: el ordinal no está en el rango (128)
Tengo problemas para tratar con caracteres Unicode del texto obtenido de diferentes páginas web (en diferentes sitios). Estoy usando BeautifulSoup. El problema es que el error no siempre es reproducible; a veces funciona con algunas páginas y, a veces, irrita lanzando a UnicodeEncodeError. He intentado casi todo lo que se …

16
Cómo encontrar elementos por clase
Tengo problemas para analizar elementos HTML con el atributo "class" usando Beautifulsoup. El código se ve así soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div Recibo un error en la misma línea "después" de que finaliza el script. File "./beautifulcoding.py", line 130, …

12
bs4.FeatureNotFound: No se pudo encontrar un generador de árboles con las características que solicitó: lxml. ¿Necesita instalar una biblioteca de analizador?
... soup = BeautifulSoup(html, "lxml") File "/Library/Python/2.7/site-packages/bs4/__init__.py", line 152, in __init__ % ",".join(features)) bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? Las salidas anteriores en mi terminal. Estoy en Mac OS 10.7.x. Tengo Python 2.7.1 y seguí este …

6
UnicodeEncodeError: el códec 'charmap' no puede codificar caracteres
Estoy tratando de raspar un sitio web, pero me da un error. Estoy usando el siguiente código: import urllib.request from bs4 import BeautifulSoup get = urllib.request.urlopen("https://www.website.com/") html = get.read() soup = BeautifulSoup(html) print(soup) Y obtengo el siguiente error: File "C:\Python34\lib\encodings\cp1252.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_table)[0] UnicodeEncodeError: 'charmap' codec can't …

5
TypeError: se requiere un objeto similar a bytes, no 'str' en python y CSV
TypeError: se requiere un objeto similar a bytes, no 'str' obtener el error anterior mientras se ejecuta el código python debajo para guardar los datos de la tabla HTML en el archivo Csv. no sé cómo obtener rideup.pls ayúdame. import csv import requests from bs4 import BeautifulSoup url='http://www.mapsofindia.com/districts-india/' response=requests.get(url) html=response.content …

11
Sopa hermosa y extracción de un div y su contenido por ID
soup.find("tagName", { "id" : "articlebody" }) ¿Por qué esto NO devuelve las <div id="articlebody"> ... </div>etiquetas y demás? No devuelve nada. Y sé a ciencia cierta que existe porque lo estoy mirando desde soup.prettify() soup.find("div", { "id" : "articlebody" }) Tampoco funciona. ( EDITAR: descubrí que BeautifulSoup no estaba analizando …




10
BeautifulSoup Grab Visible Webpage Text
Básicamente, quiero usar BeautifulSoup para tomar estrictamente el texto visible en una página web. Por ejemplo, esta página web es mi caso de prueba. Y principalmente quiero obtener el texto del cuerpo (artículo) y tal vez incluso algunos nombres de pestañas aquí y allá. He intentado la sugerencia en esta …

6
Cómo encontrar hijos de nodos usando BeautifulSoup
Quiero obtener todas las <a>etiquetas que son secundarias de <li>: <div> <li class="test"> <a>link1</a> <ul> <li> <a>link2</a> </li> </ul> </li> </div> Sé cómo encontrar un elemento con una clase particular como esta: soup.find("li", { "class" : "test" }) Pero no sé cómo encontrar a todos los <a>que son hijos de …

6
Extraer un valor de atributo con beautifulsoup
Estoy tratando de extraer el contenido de un atributo de "valor" único en una etiqueta de "entrada" específica en una página web. Yo uso el siguiente código: import urllib f = urllib.urlopen("http://58.68.130.147") s = f.read() f.close() from BeautifulSoup import BeautifulStoneSoup soup = BeautifulStoneSoup(s) inputTag = soup.findAll(attrs={"name" : "stainfo"}) output = …

9
¿Podemos usar xpath con BeautifulSoup?
Estoy usando BeautifulSoup para raspar una URL y tenía el siguiente código import urllib import urllib2 from BeautifulSoup import BeautifulSoup url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html" req = urllib2.Request(url) response = urllib2.urlopen(req) the_page = response.read() soup = BeautifulSoup(the_page) soup.findAll('td',attrs={'class':'empformbody'}) Ahora, en el código anterior, podemos usar findAllpara obtener etiquetas e información relacionada con …



Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.