¿Cómo (des) permitir correctamente el bot archive.org? ¿Cambiaron las cosas, si es así cuándo?

10

Tengo un sitio web que en su mayoría no quiero que los motores de búsqueda indexen, pero sí quiero conservarlo para la eternidad en archive.org. Entonces mi robots.txtcomienzo con esto:

User-agent: *
Disallow: /

Hoy, de acuerdo con archive.org, debo agregar lo siguiente en mi robots.txtpara permitir sus bots:

User-agent: ia_archiver
Disallow:

Pero, ya había hecho lo que me indicaron hace un par de años, al menos, agregué lo siguiente:

User-agent: archive.org_bot
Disallow:

Luego, hay otra fuente que afirma que debe agregar los dos Disallows anteriores , más otro:

User-agent: ia_archiver-web.archive.org 
Disallow:

Tenga en cuenta que debe colocar Disallow: /si no desea que el bot archive su sitio.

¿Ha habido un cambio con el bot IA? ¿Si es así cuando?

¿Cuál es la forma recomendada? ¿Debo permitir los tres por ahora y esperar que IA no cambie su nombre de bot nuevamente en el futuro?

web-crawlers robots.txt internet-archive

— kqw
fuente

Solo conocía ia_archiver. Los otros son una sorpresa para mí. ¿Tienes enlaces para esto? La razón por la que pregunto es que archive.org visita mi sitio de todos modos y tuve que bloquearlos por dirección IP. También menciona que usted ¿Es desea permitir archive.org, pero luego hablar de bloquearlo. Solo quiero ser más claro en esto y los enlaces pueden ayudarnos a todos. ¡Gracias por adelantado!

— closetnoc

Se actualizó la pregunta. Espero que sea más claro ahora. La versión pequeña: no quiero bots de motores de búsqueda en este sitio, sí quiero bots archive.org. Pero tal vez debería revertir la pregunta, ya que eso es lo que la mayoría de la gente está buscando.

— kqw

En realidad, si no usa ninguno de estos, está permitiendo archive.org siempre que no esté bloqueando con una declaración general.

— closetnoc

El uso de solo "ia_archiver" también debería bloquear "ia_archiver-web.archive.org", por lo que la última parece ser innecesaria (siempre que este bot siga el estándar).

— MrWhite

¿Ves el bot ia-archiver (o archive.org_bot) en tus registros de acceso?

— MrWhite

9

Actualización : como @KevinFegan señala en los comentarios, su documentación cambió. La siguiente parte describe cómo Internet Archive lo manejó en el pasado (al menos en 2014).

Preguntas frecuentes ¿Cómo puedo excluir las páginas de mi sitio de Wayback Machine? se refiere a Eliminar documentos de la máquina Wayback , a los documentos que se llama su bot ia_archiver.

Por lo tanto, este registro debería permitir que su bot rastree todo su sitio:

User-agent: ia_archiver
Disallow:

— unor
fuente

El orden de los grupos no debería importar. El agente de usuario más específico (es decir, el más largo) que coincide es el que gana. El *grupo solo coincide cuando ningún otro grupo ha coincidido.

— MrWhite

@ w3d: Tienes razón, eliminé esta parte. Gracias por la información :)

— hasta el

1

Aparentemente, esto ha cambiado con el tiempo. No puedo encontrar "ia_archiver" en la página de preguntas frecuentes que proporcionó, y en esta página del blog Archive.org del 25 de abril de 2017, Mark Graham dice: El agente de usuario "ia_archiver" es utilizado por Alexa Internet, no por Internet Archive.

— Kevin Fegan

@KevinFegan: ¡Gracias por tu aviso! Actualicé mi respuesta para vincular a las versiones archivadas de la documentación que contenía el nombre.

— hasta el

¡Me gusta cómo a propósito complican las cosas para que puedan escapar!

— Ultralisk

5

Realmente hay 2 problemas aquí:

¿El robots.txten su sitio Disallow (bloque) Wayback de rastreo de su sitio.
Wayback rastreará su sitio.

Para el punto 1:
como han dicho otros, la entrada correcta para robots.txt es:

User-agent: ia_archiver
Disallow:

Tenga en cuenta que puede llevar un tiempo (quizás un buen tiempo) para que Wayback note cualquier cambio que haya realizado en robots.txt.

Para verificar si robots.txten su sitio le permitirá a Wayback rastrear su sitio:

Vaya a esta URL: https://archive.org/web/
En el cuadro en la parte SUPERIOR de la página, ingrese la URL de una página en su sitio y haga clic en el "Browse History"botón.
O, en el cuadro debajo de "Guardar página ahora" (actualmente cerca de la parte inferior a la derecha), ingrese la URL de una página en su sitio y haga clic en el "Save Page"botón.

En este punto, debería ver 1 de 3 cosas:

Verá un mensaje de error que indica que Wayback no puede acceder a las páginas de ese sitio debido a "robots.txt".
Verá el "calendario" de los puntos históricos guardados para la página en su sitio. En este caso, sabe que Wayback NO tiene bloqueado el rastreo de su sitio.
O verá un mensaje que indica que Wayback no tiene un archivo de esa página y una oferta para hacer clic en un enlace para agregar la página a Wayback. También en este caso, sabe que Wayback NO tiene bloqueado el rastreo de su sitio.

Ahora, para el punto 2:

¿ Wayback rastreará su sitio?

El hecho de que Permitir Wayback para rastrear su sitio, no significa que ellos (siempre) se arrastrará su sitio.

De acuerdo con las preguntas frecuentes de Wayback (énfasis agregado):

¿Cómo puedo incluir mi sitio en la máquina Wayback?

Gran parte de nuestros datos web archivados provienen de nuestros propios rastreos o de los rastreos de Alexa Internet. Ninguna organización tiene un "¡rastrea mi sitio ahora!" proceso de envío Los rastreos de Internet Archive tienden a encontrar sitios que están bien vinculados desde otros sitios . La mejor manera de asegurarse de que encontremos su sitio web es asegurarse de que esté incluido en los directorios en línea y que los sitios similares / relacionados lo vinculen a usted.

Alexa Internet utiliza sus propios métodos para descubrir sitios para rastrear. Puede ser útil instalar la barra de herramientas gratuita de Alexa y visitar el sitio que desea rastrear para asegurarse de que lo sepan.

Independientemente de quién rastree el sitio, debe asegurarse de que las reglas de 'robots.txt' de su sitio y las directivas de robots META en la página no le digan a los rastreadores que eviten su sitio.

Actualización: 09-mayo-2017

Otros han dejado comentarios / respuestas que indican que Archive.org ya no respeta el archivo robots.txt. Quizás este sea un "trabajo en progreso" y eventualmente será el caso, pero aún no he visto este nuevo comportamiento.

El caso para esto parece provenir de este artículo: Robots.txt: ROBOTS.TXT ES UNA NOTA DE SUICIDIO por archiveteam.org. Si bien esa página tiene poco o nada bueno que decir sobre "Robots.txt", no menciona en ninguna parte que Archive.org ya no respete robots.txt.

También cabe destacar: ese artículo está alojado archiveteam.org, lo que definitivamente no es así archive.org, y no estoy seguro de que haya alguna relación (oficial) entre archive.orgy archiveteam.org.

De hecho, esta página sobre el Equipo de archivo parece declarar una distinción entre y (énfasis agregado):archive.org archive.orgarchiveteam.org

Formado en 2009, el Equipo de Archivo (que no debe confundirse con el Equipo Archive-It de archive.org ) es un colectivo archivista deshonesto dedicado a guardar copias de sitios web que mueren rápidamente o se eliminan por el bien de la historia y el patrimonio digital. ...

En cualquier caso, decidí probar esto, y descubrí que, al menos en este momento, Archive.org STILL honra robots.txt:

Encontré un artículo al azar en eBay: Artículo #: 131795294232
Haga clic para ver los artículos vendidos:

Se abre la página "Artículos vendidos": http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 Copie el enlace al portapapeles.
Vaya a web.archive.org y pegue el enlace de eBay.
Verá que archive.orgindica que "la página no se puede mostrar debido a robots.txt".

Entonces, en este momento, no estoy convencido, pero me encantaría que me demuestren que está equivocado ... sería genial si fuera cierto.

— Kevin Fegan
fuente

Bloquear archive.org con robots.txt ya no funcionará:

— wortwart

@wortwart - Eso sería genial si fuera así (ver la actualización que agregué a mi respuesta). ¿Tienes enlaces a información sobre esto?

— Kevin Fegan

Claro: blog.archive.org/2017/04/17/… "Hace unos meses dejamos de referirnos a archivos robots.txt en sitios web militares y del gobierno de los EE. UU. (...) Ahora estamos tratando de hacer esto de manera más amplia. "

— wortwart

4

Actualización 2017

Archive bot ahora no se preocupa por tu robots.txt.

Si realmente desea bloquearlo, envíeles un correo electrónico de acuerdo con esta página , o bloquee su dirección IP a través de htaccess.

— Goyllo
fuente

2

Ver la actualización de mayo de 2017 y mi respuesta: ¿Cómo (des) permiten adecuadamente el bot archive.org ...? . El bot Archive todavía se preocupa por el archivo robots.txt, a excepción de los sitios web del gobierno. Observe que el artículo que mencionó era de www.archiveteam.org, que no está relacionado con Archive.org. --->

— Kevin Fegan

---> Si bien esa página tiene poco o nada bueno que decir sobre "Robots.txt", no menciona en ninguna parte que Archive.org ya no respete el archivo robots.txt. El artículo relevante de Archive.org es: Robots.txt destinado a motores de búsqueda no funciona bien para archivos web . "Hace unos meses dejamos de referirnos a los archivos robots.txt en los sitios web militares y del gobierno de los EE. UU. (...) Ahora estamos buscando hacer esto de manera más amplia".

— Kevin Fegan

Si. Ahora el Archivo ignora totalmente las solicitudes de eliminación.

— Ultralisk

3

La entrada de rechazo de robots.txt ia_archiver (con la "/") debe estar bien para la necesidad que describa (para "preservar por la eternidad", pero aún no públicamente).

Acabo de hacer una prueba rápida, comentando la entrada ia_archiver Disallow para un sitio que lo tuvo durante al menos los últimos 10 años. Luego busqué el sitio en archive.org/web, ¡y apareció algunas capturas que había recopilado en 2007, 2008, 2009, 2011, 2012, 2013, 2014, 2015, 2016 y 2017! Esto significa que Archive.org nunca honró estrictamente lo que otros pensaban que era una declaración de "no archivar" durante estos años, simplemente no estaba exponiendo las copias archivadas.

— Miguel
fuente

2

"ia_archiver" ahora es (ab) usado por Alexa, algunas fuentes dicen: 1 , 2 .
Archive.org now (2018) ya no respeta el "robots.txt". 3 No solo para páginas mil / gov, sino para todas las páginas. Con experiencia en mi propio sitio web privado, que tiene y tenía un archivo robots.txt ia-excluyente desde 2012; y ahora de repente descubrí que ha sido rastreada y salvada por ellos todos los años y ahora toda la historia es visible. Es un sentimiento de ser traicionado. > :-(

— Carl
fuente

1

Probé el robots.txtmétodo y no funcionó. Entonces contacté al sitio web en su correo electrónico info@archive.org:

Hola,

¿Puede eliminar mi sitio web personal dimitarnestorov.com de su archivo?

¡Gracias!

Dimitar

Y obtuve la siguiente respuesta:

Hola,

Internet Archive puede excluir sitios web de Wayback Machine (web.archive.org), pero primero le solicitamos respetuosamente que nos ayude a verificar que usted es el propietario del sitio o el autor del contenido de dimitarnestorov.com haciendo lo siguiente:

(Nota: algunas de estas opciones pueden referirse al contenido ubicado en capturas anteriores de Wayback Machine y / o documentación que pueda haber relacionado con el período de tiempo especificado).

publique su solicitud en la versión actual del sitio (y envíenos un enlace).

envíe su solicitud desde el contacto de correo electrónico principal que figura en el sitio y muéstrenos dónde puede ubicarse (si hay alguno presente).

envíe una solicitud desde el correo electrónico del registrante (si se puede ver públicamente en una búsqueda de WHOIS, puede vincularnos) o el correo electrónico del webmaster que figura en el sitio.

indíquenos dónde aparece su información personal (nombre, punto de contacto, imagen propia) en el sitio de una manera que lo identifique como propietario del sitio o autor del contenido que desea excluir; en este caso, le pedimos para verificar su identidad a través de un escaneo de una identificación con foto válida (se puede eliminar información confidencial como la fecha de nacimiento, la dirección o el número de teléfono).

reenviarnos la comunicación de una empresa de alojamiento o registrador dirigida a usted como propietario del dominio.

(Nota: la simple mención del nombre / nombre de usuario de alguien y / o un hipervínculo / redireccionamiento entre sitios / páginas / cuentas en sí mismo generalmente no es suficiente para excluir los archivos).

Si ninguna de estas opciones está disponible para usted, infórmenos en una respuesta a este correo electrónico.

Le agradeceríamos que nos ayudara a preservar la mayor cantidad de archivos posible. Por lo tanto, infórmenos si solo hay URL o directorios específicos que le preocupan para que podamos dejar el resto de los archivos disponibles.

Como sabrán, Internet Archive es una biblioteca digital sin fines de lucro, que busca mantener a través de Wayback Machine un registro histórico de Internet de libre acceso. Internet Archive no explota el material en los archivos con fines comerciales.

El equipo de Internet Archive

Creé wayback-removal-request.htmlcon el siguiente contenido (ni siquiera HTML válido):

<p>Hello,</p>

<p>Can you remove my website from the Wayback Machine?</p>

<p>Thanks!</p>
<p>Dimitar</p>

Lo cargué y respondí a su correo electrónico con la URL desde la cual estaba disponible la página web y luego recibí la siguiente respuesta:

Hola,

El sitio / URL al que se hace referencia en su correo electrónico a continuación ahora se ha enviado para su exclusión de Wayback Machine en http://www.archive.org (con respecto a todas las capturas anteriores):

dimitarnestorov.com

Espere hasta un día para que las partes automatizadas del proceso sigan su curso y para que los cambios surtan efecto.

El equipo de Internet Archive

Cuando revisé un par de horas más tarde, mi sitio web fue eliminado.

— Dimitar Nestorov
fuente