Las Herramientas para webmasters de Google me dicen que los robots están bloqueando el acceso al mapa del sitio

Este es mi robots.txt :

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Sitemap: http://www.example.org/sitemap.xml.gz

Pero las Herramientas para webmasters de Google me dicen que los robots están bloqueando el acceso al mapa del sitio:

Encontramos un error al intentar acceder a su Sitemap. Asegúrese de que su Sitemap siga nuestras pautas y se pueda acceder a él en la ubicación que proporcionó y luego vuelva a enviar: URL restringida por robots.txt .

Leí que las Herramientas para webmasters de Google almacenan en caché el archivo robots.txt , pero el archivo se actualizó hace más de 36 horas.

Actualizar:

Golpear el mapa del sitio TEST no hace que Google busque un nuevo mapa del sitio. Solo SUBMIT sitemap pudo hacer eso. (Por cierto, no veo cuál es el punto en el 'mapa del sitio de prueba' a menos que pegue su mapa del sitio actual allí; no obtiene una copia nueva del mapa del sitio de la dirección que le pide ingresar antes de la prueba, pero eso es una pregunta para otro día)

Después de enviar (en lugar de probar) un nuevo mapa del sitio, la situación cambió. Ahora aparece "URL bloqueada por robots.txt . El mapa del sitio contiene URL que están bloqueadas por robots.txt ". para 44 URL. Hay exactamente 44 URL en el mapa del sitio. Este significa que Google está utilizando el nuevo mapa del sitio pero todavía va por la regla de los robots de edad (que mantienen todo fuera de los límites) Ninguna de las 44 direcciones URL están en /wp-admin/o /wp-includes/(que es una especie de imposible de todos modos, ya robots.txt se basa en volar por el mismo complemento que crea el mapa del sitio).

Actualización 2:

La situación empeora: en la página de resultados de la Búsqueda de Google, la descripción de la página de inicio dice: "Una descripción de este resultado no está disponible debido al archivo robots.txt de este sitio. Obtenga más información". Todas las demás páginas tienen descripciones detalladas. No hay robots.txt O robots indexación de metabloqueo de la página de inicio.

Estoy atascado.

google-search-console robots.txt web-crawlers

— Gaia
fuente

En Herramientas para webmasters de Google> Salud> URL bloqueadas, puede probar de inmediato si su archivo robots.txt bloqueará la URL de su mapa del sitio (o cualquier otra URL que desee probar). No parece que su archivo robots.txt actual bloquee su mapa del sitio, pero usted dice que esto se ha actualizado. ¿Una versión anterior de su archivo robots.txt bloqueó esto?

— MrWhite

Sí, la versión anterior bloqueó. Supongo que Google no ha actualizado su caché ...

— Gaia

Tengo exactamente el mismo problema. Mi caché de robots.txt es del 23 de abril de este año, hoy es el 25 de abril y el caché aún es antiguo. No tengo tiempo para esperar, necesito googleboot para indexar mi sitio ahora (es un sitio de negocios) pero parece que no puedo hacer nada, solo esperar sin saber cuánto tiempo. ¡Es muy frustrante!

Respuestas:

Parece que Google probablemente aún no haya actualizado su caché de su archivo robots.txt. Su archivo actual robots.txt (arriba) no parece que deba bloquear la URL de su mapa del sitio.

Supongo que Google no ha actualizado su caché.

No hay necesidad de adivinar. En Herramientas para webmasters de Google (GWT) en "Salud"> "URL bloqueadas", puede ver cuándo se descargó el archivo robots.txt por última vez y si fue exitoso. También le informará cuántas URL ha bloqueado el archivo robots.txt.

Referencia de robots.txt en las Herramientas para webmasters de Google

Como mencioné en mis comentarios, GWT tiene una herramienta de verificación de robots.txt ("Salud"> "URL bloqueadas"). Por lo tanto, puede probar inmediatamente los cambios en su robots.txt (sin cambiar su archivo real). Especifique el archivo robots.txt en el área de texto superior y las URL que desea probar en el área de texto inferior y le dirá si se bloquearían o no.

Almacenamiento en caché de robots.txt

Una solicitud de robots.txt generalmente se almacena en caché por hasta un día, pero puede almacenarse en caché por más tiempo en situaciones en las que no es posible actualizar la versión en caché (por ejemplo, debido a tiempos de espera o errores 5xx). La respuesta en caché puede ser compartida por diferentes rastreadores. Google puede aumentar o disminuir la vida útil de la caché en función de los encabezados HTTP Cache-Control de máxima edad.

Fuente: Google Developers - Especificaciones de Robots.txt

— Señor White
fuente

¿Podría ser ese el caso 24 horas después?

— Gaia

¿Cuál es la fecha de "Descargado" según se informa en las Herramientas para webmasters de Google? Eso te dirá si sigue siendo el caso . Como se muestra en la captura de pantalla anterior (de uno de mis sitios), el archivo robots.txt se descargó por última vez el "3 de septiembre de 2012" (hace 3 días). Pero en mi caso no hay necesidad de descargar el archivo nuevamente ya que nada ha cambiado (el encabezado Última modificación debería ser el mismo). La frecuencia con la que Google recupera su archivo robots.txt dependerá de los encabezados de Caducidad y Última modificación que establezca su servidor.

— MrWhite

Descargado hace 22 horas, y el encabezado caduca dice +24 hrs. ¡Intentaré nuevamente en un par de horas, debería resolverse!

— Gaia

Eso no lo hizo. Google está utilizando el nuevo mapa del sitio, pero aún sigue la antigua regla de robots.txt (que mantuvo todo fuera de los límites)

— Gaia

"Eso no lo hizo": ¿Google aún no ha actualizado su caché de su archivo robots.txt? ¿Aunque diga que cambió el archivo hace más de 36 horas y se informó que se descargó hace 22 horas? ¿Qué ves cuando haces clic en el enlace a tu archivo robots.txt?

— MrWhite

Tuve el mismo problema con mi sitio porque durante la instalación de WP seleccioné no rastrear con el motor de búsqueda o la misma opción.

Para resolver este problema:

vaya a Herramientas para webmasters rastrea eliminar URL y envíe su www.example.com/robots.txtcon esta opción -> eliminar de cach para cambiar el contenido o ...
Espera un minuto
reenvíe su URL del mapa del sitio
terminar

— Mohammad
fuente