Preguntas etiquetadas con web-crawler

Un rastreador web (también conocido como araña web) es un programa informático que navega por la World Wide Web de manera metódica, automatizada o ordenada. Otros términos para los rastreadores web son hormigas, indexadores automáticos, bots, arañas web, robots web o, especialmente en la comunidad FOAF, cortadores web.



4
evitar que rsync elimine los archivos fuente sin terminar
Tengo dos máquinas, velocidad y masa. speed tiene una conexión rápida a Internet y ejecuta un rastreador que descarga muchos archivos al disco. mass tiene mucho espacio en disco. Quiero mover los archivos de velocidad a masa después de que hayan terminado la descarga. Idealmente, solo correría: $ rsync --remove-source-files …



2
TypeError: no se puede usar un patrón de cadena en un objeto de tipo bytes en re.findall ()
Estoy tratando de aprender a buscar automáticamente las URL de una página. En el siguiente código, intento obtener el título de la página web: import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with urllib.request.urlopen(url) as response: html = response.read() title = re.findall(pattern, html) print(title) Y …


11
Detectar rastreadores web 'sigilosos'
¿Qué opciones existen para detectar rastreadores web que no quieren ser detectados? (Sé que enumerar las técnicas de detección permitirá que el programador inteligente de rastreadores sigilosos cree una araña mejor, pero no creo que podamos bloquear los rastreadores inteligentes de todos modos, solo los que cometen errores). No estoy …
107 web-crawler 



8
Obtener una lista de URL de un sitio [cerrado]
Cerrado. Esta pregunta no cumple con las pautas de Stack Overflow . Actualmente no acepta respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que esté relacionada con el tema de Stack Overflow. Cerrado hace 4 años . Mejora esta pregunta Estoy implementando un sitio de reemplazo para un cliente, …


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.