Preguntas etiquetadas con web-crawlers

Un programa de computadora que accede a páginas web para diversos fines (para raspar contenido, proporcionar a los motores de búsqueda información sobre su sitio, etc.)


1
Solicitud de Bingbot para trafficbasedsspsitemap.xml que no existe
Los registros de un sitio web que administro muestran una solicitud de un archivo inexistente por parte de Bingbot. Los detalles de la solicitud son Ruta: /trafficbasedsspsitemap.xml Useragent: "Mozilla / 5.0 (compatible; bingbot / 2.0; + http://www.bing.com/bingbot.htm )" Dirección IP: 65.55.213.244 (la búsqueda inversa se resuelve en msnbot-65-55-213-244.search.msn.com ) ¿Por …


4
¿Yahoo Search es lo mismo que Bing Search ahora?
Tuvimos algunos problemas serios con la araña (increíblemente) mal escrita de Yahoo en el pasado , y como resultado los bloqueamos. Marco Arment de Tumblr también compartió sus frustraciones con nosotros el 31/08/2009, lo que fue un factor en nuestro bloqueo. [Yahoo's Spider] nos ha estado inundando con 70-200 solicitudes …




3
¿Qué agente de usuario debo configurar?
Hay Ask bot, que establece este encabezado: Mozilla/2.0 (compatible; Ask Jeeves/Teoma) Considerando esto, tengo las siguientes preguntas: Si estoy escribiendo un rastreador web llamado Goofy, ¿qué agente de usuario debo usar? ¿Cuál es la diferencia si pongo Mozilla/2.0o Mozilla/5.0? Cualquier otra sugerencia sobre cómo debo formatear mi agente de usuario …



7
Cómo bloquear las arañas baidu
La mayoría de mis visitas son de arañas baidu. No creo que ayude en absoluto a los motores de búsqueda, así que estoy pensando en cómo bloquearlos. ¿Podría hacerse esto a través de iptables? Estoy usando nginx como mi servidor web.



2
¿Debo bloquear los bots de mi sitio y por qué?
Mis registros están llenos de visitantes de bots, a menudo de Europa del Este y China. Los bots se identifican como Ahrefs, Seznam, LSSRocketCrawler, Yandex, Sogou, etc. ¿Debo bloquear estos bots de mi sitio y por qué? ¿Cuáles tienen un propósito legítimo en aumentar el tráfico a mi sitio? Muchos …

1
¿Por qué Baidu rastrea mi sitio como loco?
Cuando reviso mi registro de Apache, puedo ver que Baidu ha estado rastreando mi sitio web 10 veces al día durante las últimas 2 semanas. No es que me importe mucho, pero tengo mucha curiosidad acerca de por qué está haciendo esto. Es un sitio web realmente pequeño de una …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.