Preguntas etiquetadas con web-scraping

El web scraping es el proceso de extraer información específica de sitios web que no proporcionan fácilmente una API u otros métodos de recuperación automatizada de datos. Las preguntas sobre "Cómo empezar a raspar" (por ejemplo, con Excel VBA) deben * investigarse a fondo * ya que hay numerosos ejemplos de código funcional disponibles. Los métodos de raspado web incluyen aplicaciones de terceros, desarrollo de software personalizado o incluso recopilación manual de datos de forma estandarizada.


16
Cómo encontrar elementos por clase
Tengo problemas para analizar elementos HTML con el atributo "class" usando Beautifulsoup. El código se ve así soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div Recibo un error en la misma línea "después" de que finaliza el script. File "./beautifulcoding.py", line 130, …



3
¿Qué analizador HTML es el mejor? [cerrado]
Tal como está actualmente, esta pregunta no es adecuada para nuestro formato de preguntas y respuestas. Esperamos que las respuestas sean respaldadas por hechos, referencias o experiencia, pero esta pregunta probablemente solicitará debate, argumentos, encuestas o discusión extendida. Si cree que esta pregunta se puede mejorar y posiblemente volver a …

13
¿Cómo seleccionar un valor de menú desplegable con Selenium usando Python?
Necesito seleccionar un elemento de un menú desplegable. Por ejemplo: <select id="fruits01" class="select" name="fruits"> <option value="0">Choose your fruits:</option> <option value="1">Banana</option> <option value="2">Mango</option> </select> 1) Primero tengo que hacer clic en él. Hago esto: inputElementFruits = driver.find_element_by_xpath("//select[id='fruits']").click() 2) Después de eso tengo que seleccionar el elemento bueno, digamos Mango. Traté de …

14
Página JavaScript de raspado web con Python
Estoy tratando de desarrollar un simple raspador web. Quiero extraer texto sin el código HTML. De hecho, logro este objetivo, pero he visto que en algunas páginas donde se carga JavaScript no obtuve buenos resultados. Por ejemplo, si algún código JavaScript agrega texto, no puedo verlo, porque cuando llamo response …




7
Titiritero: pasar variable en .evaluate ()
Estoy tratando de pasar una variable a una page.evaluate()función en Puppeteer , pero cuando uso el siguiente ejemplo muy simplificado, la variable evalVarno está definida. Soy nuevo en Puppeteer y no puedo encontrar ningún ejemplo para construir, así que necesito ayuda para pasar esa variable a la page.evaluate()función para poder …




8
¿Cómo puedo raspar más rápido?
El trabajo aquí es para raspar una API un sitio que se inicia a partir https://xxx.xxx.xxx/xxx/1.jsonde https://xxx.xxx.xxx/xxx/1417749.jsony escribir exactamente a mongodb. Para eso tengo el siguiente código: client = pymongo.MongoClient("mongodb://127.0.0.1:27017") db = client["thread1"] com = db["threadcol"] start_time = time.time() write_log = open("logging.log", "a") min = 1 max = 1417749 for …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.