¿Por qué Google descarga binarios de mi sitio web y usa ancho de banda?

Desde mediados de agosto de 2014, varios servidores de Google han descargado todos los archivos binarios (muy) grandes en mi sitio web, aproximadamente una vez por semana. Todas las IP se muestran como propiedad de Google, y se ven así: google-proxy-66-249-88-199.google.com. Estas son solicitudes GET, y están afectando en gran medida el tráfico de mi servidor.

Antes de esto, no veía ningún tráfico de estas IP de proxy de Google, por lo que parece ser algo relativamente nuevo. Veo todo tipo de tráfico de otras direcciones IP de Google, todas ellas solicitudes de googlebot y HEAD únicamente.

No me preocuparía esto, excepto que Google descarga todos estos archivos aproximadamente cada semana. El ancho de banda utilizado está empezando a ser excesivo.

He especulado que dado que muchos de estos archivos son ejecutables de Windows, quizás Google los esté descargando para realizar análisis de malware. Incluso si eso es cierto, ¿realmente tiene que suceder cada semana?

Tráfico de ejemplo de IP de proxy de Google en noviembre hasta ahora:

google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB

Actualización n. ° 1: Olvidé mencionar que los archivos en cuestión ya están en el archivo robots.txt del sitio. Para demandar, la configuración de robots.txt funciona correctamente, también utilicé el probador de robots.txt en las Herramientas para webmasters de Google, que muestra que los archivos están definitivamente bloqueados para todos los bots de Google, con una excepción: Adsbot-Google. No estoy seguro de qué se trata tampoco. Y busqué en Google algunos de los archivos, y NO aparecen en los resultados de búsqueda.

Actualización n. ° 2: Ejemplo: entre las 5:12 am y las 5:18 am PST del 17 de noviembre, aproximadamente media docena de IP (todos los proxy de Google) hicieron GET en todos los archivos binarios en cuestión, 27 en total. El 4 de noviembre entre las 2:09 p.m. y las 2:15 p.m. PST, esas mismas IP hicieron básicamente lo mismo.

Actualización n. ° 3: en este punto parece claro que, aunque se trata de IP de Google válidas, forman parte del servicio de proxy de Google y no del sistema de rastreo web de Google. Debido a que estas son direcciones proxy, no hay forma de determinar dónde se originan realmente las solicitudes GET, o si provienen de un lugar o de muchos. Basado en la naturaleza esporádica de los GET, no parece que esté ocurriendo algo nefasto; es probable que alguien decida descargar todos los archivos binarios mientras usa el servicio proxy de Google. Desafortunadamente, ese servicio parece estar completamente indocumentado, lo que no ayuda. Desde el punto de vista del administrador del sitio, los servidores proxy son bastante molestos. No quiero bloquearlos, porque tienen usos legítimos. Pero también pueden ser mal utilizados.

google proxy bandwidth

— boot13
fuente

Buena pregunta. ¡Lo voté! Seguramente querrás bloquearlos usando robots.txt. Por qué Google está descargando ejecutables está más allá de mí. Su teoría parece buena, pero de alguna manera, debido a la frecuencia, no estoy seguro. Parece bastante extraño. Estas parecen ser direcciones IP válidas de Googlebot, aunque no tengo google-proxy-66-102-6-104.google.com en mi lista.

— closetnoc

Olvidé mencionar que los archivos en cuestión ya están en el archivo robots.txt del sitio. Vea la Actualización # 1 arriba.

— boot13

Me confundiste. Tengo un contratista esperado en cualquier momento, así que tendré que pensar en esto. Google ha estado haciendo cosas divertidas con sus nombres de dominio y asignaciones de direcciones IP y ha habido cierta superposición con varios servicios de Google, incluido el alojamiento y otros donde los bots de personas pueden aparecer en el espacio de direcciones IP de Google, sin embargo, no los he visto usando la dirección IP de Googlebot espacio. Deseo que Google asigne un espacio libre para los diversos procesos de búsqueda con poca o ninguna superposición para que los sistemas de seguridad puedan confiar adecuadamente en estas direcciones IP.

— closetnoc

Investigué un poco sobre esta pregunta y encontré algunas cosas interesantes, como:

1. ¿Es un rastreador falso? -> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c

Conclusión del usuario:

Estos 'rastreadores' no son rastreadores, sino que forman parte de la vista previa del sitio web en vivo utilizada en el motor de búsqueda de Google.

He intentado esto, para mostrar uno de mis sitios web en la vista previa y sí, ahí está, recibí un mensaje de IP bloqueado.

Si desea que los usuarios puedan ver una vista previa de su sitio web, debe aceptar estos 'rastreadores'.

Como otros dijeron: "el dominio raíz de esa URL es google.com y eso no se puede suplantar fácilmente".

Conclusión: puede confiar en estos robots o rastreadores y se utiliza para mostrar una vista previa en la búsqueda de Google.

Sabemos que la vista previa en vivo no está descargando sus archivos, así que pasemos a la pregunta 2.

2. ¿Forma parte de los servicios de Google? -> ¿Es este proxy de Google un rastreador falso: google-proxy-66-249-81-131.google.com?

Conclusión:

Creo que algunas personas están utilizando los servicios de Google (como Google translate, Google mobile, etc.) para acceder a sitios web (bloqueados) (en escuelas, etc.) pero también para ataques de DOS y actividades similares.

Mi suposición sobre esto es la misma que la anterior. Alguien está intentando usar un servicio de Google para acceder a sus archivos, como un traductor.

Si, como usted dice, los archivos ya están siendo bloqueados por el archivo robots.txt, esto solo puede ser una solicitud manual.

EDITAR: Para abordar el OP OP ampliamente:

¿Pueden los rastreadores ignorar el archivo robots.txt? Si. Aquí hay una lista que no creo que Google haga, lo que significa que pueden ser otros bots que usan proxies de Google.

¿Puede ser un mal bot? Sí, y para eso recomiendo:

Prohibición de acceso:

 RewriteCond %{REMOTE_HOST} ^209.133.111..* [OR]
 RewriteCond %{HTTP_USER_AGENT} Spider [OR]
 RewriteCond %{HTTP_USER_AGENT} Slurp
 RewriteRule ^.*$ X.html [L]

Este código puede prohibir las IP o los agentes de usuario.

O use una trampa de araña, presentada aquí

Mantengo mi opinión de que esta es una solicitud manual.

— nunorbatista
fuente

También vi esas respuestas, pero no parecían abordar mi problema específico. Puede que tengas razón en que Google Proxy está siendo mal utilizado de alguna manera, en cuyo caso lo más probable es que lo bloquee por completo, lo cual es un poco lamentable. Entiendo que robots.txt es que el software del rastreador puede elegir ignorarlo. Se supone que los robots amigos lo honran, y la mayoría lo hacen, pero los representantes son (supongo) diferentes.

— boot13

@ boot13 Sin embargo, ten cuidado. Estas son direcciones IP válidas de Googlebot. Entonces, si lo bloquea, bloquéelo solo para estos archivos. Suponiendo que usa Apache, debería poder hacerlo con .htaccess. Pero eso puede causar otros problemas, así que asegúrese de prestar atención a las Herramientas para webmasters de Google para los mensajes.

— closetnoc

@ boot13 He actualizado mi respuesta. ¿Puede verificar si los accesos se realizan en el mismo día / hora o son aleatorios?

— nunorbatista

@nunorbatista: parecen al azar. He actualizado mi pregunta algunas veces.

— boot13

@nunorbatista: vea la Actualización # 3 arriba. No es Googlebot ni ningún otro rastreador, es el servicio proxy de Google. No está relacionado con la vista previa del sitio en vivo de Google. Parece que una o más personas acaban de descargar los archivos binarios a través de Google Proxy, tal vez para evitar un bloqueo o restricción local. Es poco probable que la sugerencia de la trampa de araña ayude, ya que el tráfico aparentemente no es un bot. Me gustaría bloquear el acceso de IP Proxy de Google a la carpeta que contiene los archivos binarios; Intentaré usar el código htaccess, pero, por supuesto, el descargador siempre podría cambiar a otro proxy, por lo que puede no tener sentido.

— boot13