Webmasters robots.txt

5

¿Puedo invocar a Google para verificar mi archivo robots.txt?

Leí las respuestas en esta pregunta, pero todavía dejan mi pregunta abierta: ¿Google almacena el caché robots.txt? No encontré una manera en las Herramientas para webmasters de Google para invocar una descarga de mi robots.txt . Por algún error, mi robots.txt fue reemplazado por: User-agent: * Disallow: / Y ahora …

11 google google-search-console robots.txt

3

¿Google Preview obedece a Robots.txt?

Porque seguro que se ve así. Para mis sitios, no permitimos el directorio de imágenes y las vistas previas son imágenes que faltan, lo que hace que el sitio se vea inestable. ¿Es este el caso y hay una manera de permitir que solo el bot de vista previa acceda …

11 google robots.txt

3

¿Puede un índice de mapa de sitio contener otros índices de mapa de sitio?

Tengo un sitio web bilingüe con un índice de mapa del sitio para cada idioma que enlaza con varios mapas de sitio diferentes (uno para videos, uno para contenido estático y otro para artículos). Me gustaría presentar otro mapa del sitio que vincule los índices del mapa del sitio, para …

11 google sitemap robots.txt

1

¿Cómo funciona "Noindex:" en robots.txt?

Me encontré con este artículo en mis noticias de SEO hoy. Parece implicar que puede usar Noindex:directivas además de las Disallow:directivas estándar en robots.txt . Disallow: /page-one.html Noindex: /page-two.html Parece que evitaría que los motores de búsqueda rastreen la página uno y que no indexen la página dos. ¿Esta directiva …

10 web-crawlers robots.txt googlebot noindex

2

Solo permita que los robots de Google y Bing rastreen un sitio

Estoy usando el siguiente archivo robots.txt para un sitio: El objetivo es permitir que googlebot y bingbot accedan al sitio excepto la página /bedven/bedrijf/*y bloqueen el rastreo de todos los demás bots. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 …

10 web-crawlers robots.txt

1

Combina agentes de usuario en robots.txt

¿Pueden los agentes de usuario aparecer juntos, seguidos de sus reglas comunes como en un robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

10 web-crawlers robots.txt user-agent

3

¿Cómo puedo usar robots.txt para no permitir solo el subdominio?

Mi base de código se comparte entre varios entornos (en vivo, puesta en escena, dev) y subdominios ( staging.example, dev.example, etc.) y sólo dos se debe permitir que se rastree (es decir. www.example, Y example). Normalmente modificaría /robots.txty agregaría Disallow: /, pero debido a la base de código compartido no …

10 domains subdomain robots.txt multi-subdomains

6

¿Cómo (des) permitir correctamente el bot archive.org? ¿Cambiaron las cosas, si es así cuándo?

Tengo un sitio web que en su mayoría no quiero que los motores de búsqueda indexen, pero sí quiero conservarlo para la eternidad en archive.org. Entonces mi robots.txtcomienzo con esto: User-agent: * Disallow: / Hoy, de acuerdo con archive.org, debo agregar lo siguiente en mi robots.txtpara permitir sus bots: User-agent: …

10 web-crawlers robots.txt internet-archive

10

Necesito evitar que los bots maten a mi servidor web

Tengo problemas EXTREMOS de bot en algunos de mis sitios web dentro de mi cuenta de hosting. Los bots utilizan más del 98% de mis recursos de CPU y el 99% de mi ancho de banda para toda mi cuenta de hosting. Estos bots están generando más de 1 GB …

9 php htaccess robots.txt

1

¿Debo bloquear las páginas de archivos de Wordpress de los motores de búsqueda?

Uso WordPress y /sample-post/URL para mis publicaciones y /yyyy/mm/para los archivos. Google ha indexado el sitio por completo. Dado que los archivos actualmente muestran publicaciones completas, he pensado que no debería permitir que Google indexe las páginas del archivo porque contienen las publicaciones completas y será contenido duplicado. Por lo …

9 seo wordpress robots.txt duplicate-content google-index

4

Los robots denegados por dominio todavía figuran en los resultados de búsqueda

Entonces, en todos nuestros sitios que no están orientados a la búsqueda, hemos aplicado un archivo robots.txt (por ¿Cómo excluir un sitio web de los resultados de búsqueda de Google en tiempo real? O cualquier otra pregunta similar). Sin embargo, si los términos de búsqueda son lo suficientemente específicos, el …

9 seo robots.txt

3

Cuando mueve un sitio a través de una redirección 301, ¿debe configurar un archivo robots.txt que no permita que los robots rastreen la dirección anterior?

Un sitio en el que estoy trabajando movió un subdominio a otro subdominio a través de una redirección 301. Sin embargo, cuando se verifica el archivo robots.txt del antiguo subdominio, tiene un archivo robots.txt que no permite que los rastreadores web de los motores de búsqueda lo rastreen. ¿Es este …

8 seo redirects robots.txt

5

¿Deberíamos modificar nuestro archivo robots.txt de Joomla después del anuncio de Google sobre el rastreo de CSS y JavaScript?

He encontrado un anuncio de Google: http://googlewebmastercentral.blogspot.in/2014/10/updating-our-technical-webmaster.html Afirma: Para una representación e indexación óptimas, nuestra nueva directriz especifica que debe permitir que Googlebot acceda a JavaScript, CSS y archivos de imagen que usan sus páginas. Esto le proporciona una representación e indexación óptimas para su sitio. No permitir el rastreo …

8 seo google-search-console robots.txt joomla

4

Robots.txt vs Sitemap - Quién gana en un conflicto

Si bloqueo el directorio / foo en robots.txt, pero mi mapa del sitio xml contiene URL con / foo, ¿Google y otros motores de búsqueda recogerán las URL del mapa del sitio? En otras palabras, ¿el mapa del sitio triunfa sobre robots.txt? Creo que sí, pero no estoy seguro.

8 robots.txt xml-sitemap

2

¿Cuál es la forma correcta de manejar Permitir y No permitir en robots.txt?

Ejecuto un rastreador web bastante grande. Nos esforzamos mucho para operar el rastreador dentro de los estándares aceptados de la comunidad, y eso incluye respetar el archivo robots.txt. Recibimos muy pocas quejas sobre el rastreador, pero cuando lo hacemos, la mayoría son sobre nuestro manejo de robots.txt. Muy a menudo, …

8 robots.txt

Preguntas etiquetadas con robots.txt