8

Me gustaría negar el archive.isacceso a mi sitio web. (No quiero que este sitio web almacene el mío en caché sin mi consentimiento).

¿Sabes si es posible?

web-crawlers noarchive

— alguien2332
fuente

6

Bueno. Este es nuevo (al menos para mí) y bastante interesante hasta ahora. No voy a entrar en la maleza en esto.

Cuando escribí esto, estaba trabajando en dormir poco o nada. Eché de menos algunas cosas que @unor ha señalado amablemente y, por lo tanto, debo moderar mi respuesta y dar crédito donde se debe. Gracias @unor!

Archive.is está registrado en Denis Petrov, que utiliza una cuenta de Google webhost en la dirección IP 104.196.7.222 [AS15169 GOOGLE - Google Inc.] de acuerdo con las Herramientas de dominio, aunque lo tengo en 46.17.100.191 [AS57043 HOSTKEY-AS HOSTKEY BV]. Es probable que la compañía anfitriona haya cambiado recientemente.

Archive.today también es propiedad de Denis Petrov y es similar a Archive.is si no es idéntico. A los efectos de esta respuesta, abordaré Archive.is y puede suponer que se aplica a Archive.today. Archive.today existe en otra dirección IP 78.108.190.21 [AS62160 GM-AS Sí Networks Unlimited Ltd]. Por favor, comprenda que Denis Petrov posee 70 dominios. Sin profundizar, es posible que haya más sitios de los que preocuparse. Proporcionaré un código de bloqueo para las tres direcciones IP.

Archive.is está dirigido por el usuario. Se supone que está archivando su propia página. Aparte de este escenario, Archive.is puede considerarse como un sitio de spam de contenido rascador.

Archive.is está caminando por una línea peligrosa. Está utilizando el contenido de otros sitios a través del raspado de una sola página. En última instancia, el potencial de búsqueda del contenido original está al menos diluido y potencialmente usurpado por completo. Peor aún, el sitio original no se cita como el creador del contenido. Archive.is usa una etiqueta canónica, pero está en su propio sitio / página.

Ejemplo: <link rel="canonical" href="http://archive.is/Eo267"/>

Esto, junto con la falta de controles sobre quién está enviando un sitio y si tienen derecho al sitio, la falta de información clara de eliminación y el mecanismo de contacto algo confuso y potencialmente débil, Archive.is tiene el potencial real. problema.

Puede encontrar más información sobre la dirección IP aquí: https://www.robtex.com/#!dns=archive.is

Cómo bloquear por dirección IP 78.108.190.21.

Usando Cisco Firewall.

access-list block-78-108-190-21-32 deny ip 78.108.190.21 0.0.0.0 any
permit ip any any

** Nota: Puede reemplazar el [nombre de acl proporcionado] con el nombre de ACL de su elección.

Usando Nginx.

Edite nginx.conf e inserte include blockips.conf; si no existe Edite blockips.conf y agregue lo siguiente:

deny 78.108.190.21/32;

Usando Linux IPTables Firewall. ** Nota: Usar con precaución.

/sbin/iptables -A INPUT -s 78.108.190.21/32 -j DROP

Uso del servidor web Microsoft IIS

<rule name="abort ip address block 78.108.190.21/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^78\.108\.190\.21$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

Usando Apache .htaccess.

RewriteCond %{REMOTE_ADDR} ^78\.108\.190\.21$ [NC]
RewriteRule .* - [F,L]

Cómo bloquear por dirección IP 46.17.100.191.

Usando Cisco Firewall.

access-list block-46-17-100-191-32 deny ip 46.17.100.191 0.0.0.0 any
permit ip any any

** Nota: Puede reemplazar el [nombre de acl proporcionado] con el nombre de ACL de su elección.

Usando Nginx.

Edite nginx.conf e inserte include blockips.conf; si no existe Edite blockips.conf y agregue lo siguiente:

deny 46.17.100.191/32;

Usando Linux IPTables Firewall. ** Nota: Usar con precaución.

/sbin/iptables -A INPUT -s 46.17.100.191/32 -j DROP

Uso del servidor web Microsoft IIS

<rule name="abort ip address block 46.17.100.191/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^46\.17\.100\.191$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

Usando Apache .htaccess.

RewriteCond %{REMOTE_ADDR} ^46\.17\.100\.191$ [NC]
RewriteRule .* - [F,L]

Cómo bloquear por dirección IP 104.196.7.222.

Usando Cisco Firewall.

access-list block-104-196-7-222-32 deny ip 104.196.7.222 0.0.0.0 any
permit ip any any

** Nota: Puede reemplazar el [nombre de acl proporcionado] con el nombre de ACL de su elección.

Usando Nginx.

Edite nginx.conf e inserte include blockips.conf; si no existe Edite blockips.conf y agregue lo siguiente:

deny 104.196.7.222/32;

Usando Linux IPTables Firewall. ** Nota: Usar con precaución.

/sbin/iptables -A INPUT -s 104.196.7.222/32 -j DROP

Uso del servidor web Microsoft IIS

<rule name="abort ip address block 104.196.7.222/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^104\.196\.7\.222$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

Usando Apache .htaccess.

RewriteCond %{REMOTE_ADDR} ^104\.196\.7\.222$ [NC]
RewriteRule .* - [F,L]

Es posible que deba bloquear más de una dirección IP de cualquier conjunto de código. Eso no está claro.

— closetnoc
fuente

¡Muy informativo! Estoy 100% de acuerdo con usted, pero me temo que este sitio web utiliza más direcciones IP. Se da cuenta de esto cuando archiva una página que proporciona la IP del visitante (como wtfismyip.com/). Hasta ahora he encontrado: 2a01: 4f8: 190: 5388 :: 2: 2, 2a01: 4f8: 190: 6388 :: 2: 2, 2a01: 4f8: 190: 638c :: 2: 2, 46.17.100.191, 78.46 .174.144, 78.108.190.21, 104.196.7.222

— alguien2332

Otro: 2a01: 4f8: 190: 6396 :: 2: 2. Me gustaría bloquear todas las direcciones IPv6 que comienzan con "2a01: 4f8: 190:". ¿Sabes cómo podría hacer eso? ¡Gracias!

— someone2332

Cuando me enfrenté a este problema hace un año, le envié a Denis un aviso de eliminación de derechos de autor a webmaster-at-archive-dot-is y me sorprendió gratamente ver que todo el contenido ofensivo fuera eliminado al día siguiente. Solo iba a publicar esto como otra respuesta, pero revisé su sitio y vi que mi contenido está respaldado Ahora tengo pruebas sólidas de conocimiento, infracción intencional de derechos de autor. Ah bueno, IPTables es entonces. Estuvo con OVH el año pasado y han sido muy útiles con problemas pasados, aunque no estoy seguro de dónde está alojado en este momento.

— Tom Brossman

Además, vea estas preguntas y respuestas relacionadas de Superuser en enero pasado: superuser.com/a/868368 (tenga en cuenta las diferentes direcciones IP utilizadas en ese momento, por lo que esto requerirá monitorear y actualizar constantemente su lista de bloqueo para que siga siendo efectiva ...).

— Tom Brossman

1

"Archive.org, que es un sitio similar, ha sido demandado muchas veces y perdido" ¿A qué casos se refiere? Google archive.org loses copyright lawsuitno pareció mostrar artículos relevantes sobre fallos.

— Damian Yerrick

3

`robots.txt`

Archive.is no utiliza un bot que rastree las páginas de forma autónoma (por ejemplo, siguiendo hipervínculos), por lo robots.txtque no se aplica, porque siempre es un usuario el que le da el comando de archivar una página determinada.

Por la misma razón, servicios como Feedfetcher de Google ( ¿Por qué Feedfetcher no obedece mi archivo robots.txt? ) Y el Validador de W3C ( detalles ) no obedecen robots.txt.

Consulte las preguntas frecuentes de archive.is: ¿Por qué archive.is no obedece a robots.txt?

`meta`- `robots`/`X-Robots-Tag`

No estoy seguro si archive.is debería (idealmente) honrar el valor noindexo noarchiveen meta- robots/ X-Robots-Tag, o si estas tecnologías también se aplican solo a bots autónomos. Pero como archive.is no lo documenta, no parecen admitirlo actualmente.

(FWIW, cada página archivada parece tener un <meta name="robots" content="index,noarchive"/>.)

`User-Agent`

archive.is no documenta que User-Agentse use un determinado (probablemente no se identifiquen para obtener las páginas como si fueran vistas por un navegador habitual), por lo que no puede usarlo para bloquear su acceso en el nivel del servidor .

Bloqueando sus direcciones IP

Por lo tanto, ya que ni robots.txtni meta- robots/ X-Robots-Tagtrabajo aquí, y no se puede bloquear ellos a través de su User-Agent, usted tendría que bloquear accesos desde archive.is IPs. Vea la respuesta de closetnoc sobre el bloqueo de IP , pero tenga en cuenta que esto podría bloquear más de lo previsto, y es posible que nunca capture todas sus IP (y / o se mantenga actualizado).

Nota al margen: función de informe

Cada versión archivada se vincula a un formulario en el que puede informar sobre posibles abusos (anexar /abuse), por ejemplo, con los motivos "Problema SEO" o "Copyright". Pero no sé si o cómo manejan estos casos.

— unor
fuente

Estaba trabajando en dormir poco o nada y me perdí por completo algunas cosas que usted señala con razón. Como resultado, atenué mi respuesta. Duh! Me dejé llevar un poco como a veces puedo hacer. ;-) Ooopppsss !! Todavía es un poco exagerado. Agradezco tu respuesta aquí. Desearía poder votar para que esta sea la mejor respuesta. Aconsejo a las personas que voten por esta respuesta con el mouse si están de acuerdo con mi opinión.

— closetnoc

1

Para bloquear las desagradables prácticas de robo de archive.is (ignorando el archivo robots.txt, anulando el enlace canónico, agente de usuario falso, no hay forma de realizar una eliminación en todo el sitio), quiero agregar lo siguiente a las soluciones anteriores.

Encuentra sus direcciones IP

Para encontrar sus direcciones IP, envíeles una url que esté bajo su control para que pueda monitorear los registros de su servidor web para ver quién accedió a esa url. La url ni siquiera tiene que existir, siempre que el servidor web reciba la solicitud. (Por lo tanto, es mejor usar una página / url vacía no existente). Por ejemplo, use una url como: http://example.com/fuck-you-archive.is

Luego revise sus registros para ver quién accedió a la URL. Puede usar grep para verificarlo:

grep "fuck-you-archive.is" web-server-log.txt

Una vez que tenga la dirección IP, puede bloquearla utilizando las soluciones de las otras respuestas. Y luego repita el proceso nuevamente para encontrar otras direcciones IP que usan. Debe especificar una URL diferente, para que vuelvan a realizar una solicitud HTTP, por ejemplo, simplemente cambie http://example.com/fuck-you-archive.is a http://example.com/fuck-you- archive.is?2 etc.

En caso de que no desee exponer su sitio web cuando intente encontrar sus direcciones IP, puede utilizar este práctico sitio web de solicitud HTTP: https://requestb.in Los pasos a seguir son: crear un RequestBin> envíe el "BinURL" a Archive.is con "? SomeRandomNumber" adjunto a BinURL> use el "? inspeccionar" de RequestBin para monitorear la solicitud entrante de Archive.is y ver su dirección IP en el "Cf-Connecting-Ip "Encabezado HTTP. (Asegúrese de no enviar la url "? Inspeccionar" a Archive.is). Luego repita para buscar otras direcciones IP cambiando "? SomeRandomNumber" a otro número.

Bloquear sus direcciones ip

Tenga en cuenta que con las tablas IP puede bloquear usando

/sbin/iptables -A INPUT -s 78.108.190.21 -j DROP

pero a menudo la cadena 'ENTRADA' se establece en una política 'DROP' con aceptación del tráfico HTTP. En ese caso, es posible que necesite usar una operación de anteponer (insertar) en lugar de la operación de agregar, de lo contrario no está bloqueado en absoluto:

/sbin/iptables -I INPUT -s 78.108.190.21 -j DROP

Sin embargo, tienen muchas direcciones IP, por lo que puede ser más fácil bloquear rangos completos de IP. Puede hacerlo convenientemente con IPTables (sin la necesidad de especificar máscaras de subred) usando:

iptables -I INPUT -m iprange --src-range 46.166.139.110-46.166.139.180 -j DROP

Este rango (46.166.139.110-46.166.139.180) es en gran parte propiedad de ellos, porque he visto múltiples direcciones entre 46.166.139.110 y 46.166.139.173.

Enviar una queja de abuso a su proveedor de alojamiento web

Actualmente están utilizando NFOrce como servidor web. Consulte https://www.nforce.com/abuse para saber cómo presentar una queja sobre Archive.is. Mencione: 1) la url de su página web que archive.is ha robado, 2) mencione la url en archive.is que contiene el contenido robado, y 3) mencione las direcciones IP que usaron.

También es posible que desee quejarse en Cloudflare, su CDN, que almacena en caché sus páginas e imágenes robadas por razones de rendimiento. https://www.cloudflare.com/abuse/

— Devabc
fuente

1

Como podemos ver, archive.is está utilizando DNS anycasting.

Si usa diferentes servidores de nombres (por ejemplo, de https://www.lifewire.com/free-and-public-dns-servers-2626062 ) actualmente (2018-09-10) obtiene diferentes direcciones IP para "archive.is" ( dig @NAMESERVER archive.is A)

104.27.170.40
104.27.171.40
154.59.112.68
185.219.42.148
46.105.75.102
46.17.42.43
46.182.19.43
46.45.185.30
80.211.3.180
81.7.17.119
91.121.82.32
91.219.236.183
94.16.117.236

Utilicé abuse-contacts.abusix.org ( https://www.abusix.com/contactdb ) para obtener los contactos de abuso para estas direcciones IP:

abuse@as42926.net
abuse@cloudflare.com
abuse@cogentco.com
abuse@isppro.de
abuse@nbiserv.de
abuse@netcup.de
abuse@ovh.net
abuse@serverastra.com
abuse@staff.aruba.it
abuseto@adminvps.ru
noc@baxet.ru

Como informó Cloudflare, archive.is está abusando de sus "servicios" al usar un registro A de DNS que no tiene funcionalidad.

— Schubi Duah
fuente

0

También considere ponerse en contacto con los registradores en www.isnic.is, el registro de dominio de Islandia. isnic en isnic dot is

Islandia tiene derecho de autor y el Registro lo reconoce. El Registro existe desde fines de la década de 1980 y no está bajo ICANN.

— respetar los derechos de autor
fuente

Denegar el acceso a Archive.is

Cómo bloquear por dirección IP 78.108.190.21.

Cómo bloquear por dirección IP 46.17.100.191.

Cómo bloquear por dirección IP 104.196.7.222.

robots.txt

meta- robots/X-Robots-Tag

User-Agent

Bloqueando sus direcciones IP

Nota al margen: función de informe

Encuentra sus direcciones IP

Bloquear sus direcciones ip

Enviar una queja de abuso a su proveedor de alojamiento web

`robots.txt`

`meta`- `robots`/`X-Robots-Tag`

`User-Agent`