Realmente hay 2 problemas aquí:
- ¿El
robots.txt
en su sitio Disallow (bloque) Wayback de rastreo de su sitio.
- Wayback rastreará su sitio.
Para el punto 1:
como han dicho otros, la entrada correcta para robots.txt es:
User-agent: ia_archiver
Disallow:
Tenga en cuenta que puede llevar un tiempo (quizás un buen tiempo) para que Wayback note cualquier cambio que haya realizado en robots.txt.
Para verificar si robots.txt
en su sitio le permitirá a Wayback rastrear su sitio:
- Vaya a esta URL: https://archive.org/web/
- En el cuadro en la parte SUPERIOR de la página, ingrese la URL de una página en su sitio y haga clic en el
"Browse History"
botón.
- O, en el cuadro debajo de "Guardar página ahora" (actualmente cerca de la parte inferior a la derecha), ingrese la URL de una página en su sitio y haga clic en el
"Save Page"
botón.
En este punto, debería ver 1 de 3 cosas:
- Verá un mensaje de error que indica que Wayback no puede acceder a las páginas de ese sitio debido a "robots.txt".
- Verá el "calendario" de los puntos históricos guardados para la página en su sitio. En este caso, sabe que Wayback NO tiene bloqueado el rastreo de su sitio.
- O verá un mensaje que indica que Wayback no tiene un archivo de esa página y una oferta para hacer clic en un enlace para agregar la página a Wayback. También en este caso, sabe que Wayback NO tiene bloqueado el rastreo de su sitio.
Ahora, para el punto 2:
¿ Wayback rastreará su sitio?
El hecho de que Permitir Wayback para rastrear su sitio, no significa que ellos (siempre) se arrastrará su sitio.
De acuerdo con las preguntas frecuentes de Wayback (énfasis agregado):
Gran parte de nuestros datos web archivados provienen de nuestros propios rastreos o de los rastreos de Alexa Internet. Ninguna organización tiene un "¡rastrea mi sitio ahora!" proceso de envío Los rastreos de Internet Archive tienden a encontrar sitios que están bien vinculados desde otros sitios . La mejor manera de asegurarse de que encontremos su sitio web es asegurarse de que esté incluido en los directorios en línea y que los sitios similares / relacionados lo vinculen a usted.
Alexa Internet utiliza sus propios métodos para descubrir sitios para rastrear. Puede ser útil instalar la barra de herramientas gratuita de Alexa y visitar el sitio que desea rastrear para asegurarse de que lo sepan.
Independientemente de quién rastree el sitio, debe asegurarse de que las reglas de 'robots.txt' de su sitio y las directivas de robots META en la página no le digan a los rastreadores que eviten su sitio.
Actualización: 09-mayo-2017
Otros han dejado comentarios / respuestas que indican que Archive.org ya no respeta el archivo robots.txt. Quizás este sea un "trabajo en progreso" y eventualmente será el caso, pero aún no he visto este nuevo comportamiento.
El caso para esto parece provenir de este artículo: Robots.txt: ROBOTS.TXT ES UNA NOTA DE SUICIDIO por archiveteam.org
. Si bien esa página tiene poco o nada bueno que decir sobre "Robots.txt", no menciona en ninguna parte que Archive.org ya no respete robots.txt.
También cabe destacar: ese artículo está alojado archiveteam.org
, lo que definitivamente no es así archive.org
, y no estoy seguro de que haya alguna relación (oficial) entre archive.org
y archiveteam.org
.
De hecho, esta página sobre el Equipo de archivo parece declarar una distinción entre y (énfasis agregado):archive.org
archive.org
archiveteam.org
Formado en 2009, el Equipo de Archivo (que no debe confundirse con el Equipo Archive-It de archive.org ) es un colectivo archivista deshonesto dedicado a guardar copias de sitios web que mueren rápidamente o se eliminan por el bien de la historia y el patrimonio digital. ...
En cualquier caso, decidí probar esto, y descubrí que, al menos en este momento, Archive.org STILL honra robots.txt:
- Encontré un artículo al azar en eBay: Artículo #: 131795294232
- Haga clic para ver los artículos vendidos:
- Se abre la página "Artículos vendidos": http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 Copie el enlace al portapapeles.
- Vaya a web.archive.org y pegue el enlace de eBay.
- Verá que
archive.org
indica que "la página no se puede mostrar debido a robots.txt".
Entonces, en este momento, no estoy convencido, pero me encantaría que me demuestren que está equivocado ... sería genial si fuera cierto.