Preguntas etiquetadas con web-crawlers

Un programa de computadora que accede a páginas web para diversos fines (para raspar contenido, proporcionar a los motores de búsqueda información sobre su sitio, etc.)

4
Estado de Ajax rastreable?
¡Vi que Google tenía una buena propuesta / estándar para hacer que las aplicaciones de Ajax sean rastreables, a través de #! (hash bang) http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Mis preguntas son: ¿Están actualmente utilizando esta "propuesta" en el mundo real? ¿Otros motores de búsqueda, Bing específicamente, también lo usan o planean usarlo?



2
Las Herramientas para webmasters de Google me dicen que los robots están bloqueando el acceso al mapa del sitio
Este es mi robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Pero las Herramientas para webmasters de Google me dicen que los robots están bloqueando el acceso al mapa del sitio: Encontramos un error al intentar acceder a su Sitemap. Asegúrese de que su Sitemap siga nuestras pautas …





1
¿Cómo funciona "Noindex:" en robots.txt?
Me encontré con este artículo en mis noticias de SEO hoy. Parece implicar que puede usar Noindex:directivas además de las Disallow:directivas estándar en robots.txt . Disallow: /page-one.html Noindex: /page-two.html Parece que evitaría que los motores de búsqueda rastreen la página uno y que no indexen la página dos. ¿Esta directiva …

2
Solo permita que los robots de Google y Bing rastreen un sitio
Estoy usando el siguiente archivo robots.txt para un sitio: El objetivo es permitir que googlebot y bingbot accedan al sitio excepto la página /bedven/bedrijf/*y bloqueen el rastreo de todos los demás bots. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 …

1
Combina agentes de usuario en robots.txt
¿Pueden los agentes de usuario aparecer juntos, seguidos de sus reglas comunes como en un robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

2
Signo más delante de las URL en los agentes de usuario
Ejecuté un pequeño rastreador web y tuve que decidir qué agente de usuario usar para él. Las listas de agentes de rastreadores y Wikipedia sugieren el siguiente formato: examplebot/1.2 (+http://www.example.com/bot.html) Sin embargo, algunos bots omiten el signo más delante de la URL. Y me pregunto qué significa en primer lugar, …

1
¿Cómo logró Google rastrear mis 403 páginas?
Tenía un par de archivos privados en un directorio en la carpeta de mi escuela. Puede ver que los archivos existían yendo a myschool.edu/myusername/myfolder, pero al intentar acceder a los archivos a través de myschool.edu/myusername/myfolder/myfile.html, se produce un error 403. ¡Y sin embargo, Google de alguna manera logró tomar el …


2
¿Deberíamos abandonar el esquema de rastreo AJAX?
Así que ahora Google ha desaprobado el esquema de rastreo AJAX . Dicen que no se molesten en implementarlo en nuevos sitios web, porque ya no es necesario ya que Googlebot ahora no tiene problemas para ver contenido dinámico. ¿Deberíamos confiar de inmediato en esta declaración, o mejor seguir el …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.