tráfico ilegítimo del agente de usuario Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729)

Este es un evento que cambia rápidamente y que aún no tiene respuesta.

No publique sus hallazgos o suposiciones como respuestas; reserve el campo de respuesta para cuando realmente tenga una respuesta.

Si tiene algo nuevo que agregar, edítelo directamente en la pregunta.

Desde principios de año, recibo mucho tráfico con el agente de usuario:

Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).

Mis registros de acceso muestran 40% - 60% de ese agente de usuario. Eso es extraño porque el agente de usuario establece un navegador Firefox 3.0.10 (¿alguien está usando ese navegador en 2012? Definitivamente no 40% -60% de los visitantes en un sitio web normal).

Además, los registros muestran que este agente de usuario solo solicitó el documento HTML y ningún activo referenciado como imágenes, css, archivos js.

Verifiqué las IP de esas solicitudes (con esa UA). Viene de todo el mundo. Reconocí que esas IP a veces tienen un agente de usuario móvil.

Así que mi sospecha es una aplicación móvil que está haciendo muchas "solicitudes de araña". Sería bueno saber la causa raíz del tráfico de ese agente de usuario.

¿Alguien puede identificar la causa raíz?

En las últimas dos semanas, reconocimos que el tráfico de esa UA disminuyó y otro tráfico aumentó. Parece que el robot / rastreador ahora está utilizando un UA más común y, por lo tanto, es más difícil de bloquear. Vi a alguien más decir eso en una respuesta a esta pregunta, pero se eliminó cuando serverfault decidió reorganizar esta pregunta.

VIEJAS respuestas como referencia

Actualización de Dee

Ejecuto mi propio sitio web con bastante tráfico y estoy viendo exactamente lo mismo en nuestros registros de Apache durante el último mes más o menos (no he tenido la oportunidad de volver más atrás). El 40% de todas las solicitudes es el porcentaje que estoy viendo, lo cual es una locura, obviamente.

Y también noté que las solicitudes siempre parecen decir que el navegador solicitante no admite la compresión gzip, lo que da como resultado que todas las solicitudes de la página web se envíen sin comprimir y nuestro uso de ancho de banda se dispare.

Pero hasta ahora no he podido determinar qué está sucediendo realmente; todo lo que sospecho hasta ahora es que puede ser algún tipo de servidor proxy o similar para un dispositivo móvil que envía una cadena de agente de uso falsa.

EDITADO PARA AGREGAR: Acabo de investigar un poco más y parece que podría ser un software antivirus: http://www.webmasterworld.com/search_engine_spiders/4428772.htm

Actualización de jamur21

Sí, hemos notado un tráfico similar en varios sitios.

Todavía estamos buscando la causa raíz, pero algunos de nuestros hallazgos incluyen:

Si es una araña, está haciendo un trabajo bastante pobre. Parece martillar solo una o dos URL por dominio durante un tiempo (tal vez un par de horas), hasta que pasa a otra URL. Sin embargo, el contenido siempre es relativamente "actual", lo que da crédito a que Google News sea un factor, como se indica en el enlace que Dee publicó en su respuesta (todos nuestros sitios son sitios de noticias).
Si bien las IP están distribuidas geográficamente, para nosotros la mayoría de ellas parecen ubicadas cerca del sitio de origen (la mayoría de nuestros sitios son medios locales de noticias, por lo que no reciben mucho tráfico nacional). Casi ninguna de las solicitudes proviene de fuera de los Estados Unidos. Nuevamente, esto da crédito a las URL que se extraen de Google News (supongo que las personas que han localizado Google News por código postal verán nuestro contenido).
La mayoría de las veces, las solicitudes se pueden descartar como ruido de fondo (aunque sea especialmente ruidoso), pero un par de veces al día aumentaremos y este UA solo representará ~ 100mbps de tráfico durante aproximadamente 15-30 minutos.
Desafortunadamente, aunque Google News parece ser un posible vector para descubrir estas URL, todo lo que hemos visto es circunstancial y todavía no tenemos ninguna pistola humeante para saber exactamente cómo o por qué estas URL están siendo martilladas.

Actualización de la Bahía de Bannow

Tenemos un gran sitio de noticias: nuestras noticias son recogidas por Google News varias veces a la semana. Hemos estado recibiendo tráfico de esta fuente desde finales de noviembre, y está creciendo semana a semana, tal vez 30 millones de imps en febrero.

La aparición en la portada de Google News US es un detonante para este tráfico: alrededor del 75 por ciento pretende ser de IP de EE. UU. Pero sea lo que sea, está haciendo grandes esfuerzos para oscurecerse. Y eso no es amigable.

Tampoco hemos encontrado una pistola humeante, pero un importante proveedor de seguridad accedió amablemente a investigar más en nuestro nombre.

Actualización de Artem Russakovskii

Simplemente sucedió lo mismo con un sitio de noticias (AndroidPolice.com) por primera vez. Aproximadamente 10 minutos de estas solicitudes aleatorias que aumentaron el QPS en más del 5000% de nuestro promedio (5000qps, que es el límite de NodeBalancer de Linode). La CPU comenzó a estar inactiva ya que las solicitudes estaban consumiendo E / S y red: era un verdadero DDOS.

Realmente me gustaría llegar al fondo de esto, pero por el momento parece completamente desconcertante.

Actualización de Mark

Solo agrego un +1. Estamos viendo el mismo comportamiento en nuestro sitio. No hay un montón de información nueva para agregar aquí, pero aquí está la forma general de nuestro tráfico:

El tráfico está altamente distribuido. El tráfico proviene de más de ~ 60k IP únicas.
La gran mayoría del tráfico llega a una sola URL, generalmente una URL reciente que aparece en Google News (aunque Google News no siempre parece ser el vector)
Todo este tráfico proviene del mismo agente de usuario Firefox / 3.0.10 como se señala en este hilo, aunque hemos visto algunos agentes móviles extraños aquí y allá.
Todo el tráfico procedente de este agente no contiene datos de referencia.
La explosión ocurre una o dos veces por semana durante 30-60 minutos y luego desaparece.

Actualización de Don Irlanda

La última publicación fue el 13 de abril, pero el tráfico ciertamente no ha terminado. La parte más extraña de esto puede ser el hecho de que cualquier autor de malware que valga la pena seguramente podría (seguramente) usaría una cadena de agente de usuario de un navegador moderno, haciendo que la defensa del agente de bloque-usuario no tenga valor. Este hecho hace que parezca que la fuente es un agregador de noticias 'inofensivo' o alguna otra aplicación. Hasta ahora, sin embargo, tampoco he podido llegar a ninguna conclusión real y espero que alguien con información lo publique aquí.

Estamos viendo el mismo patrón, con una historia recogida por Google News seguida de picos de tráfico muy altos que solicitan la historia (pero no archivos accesorios como imágenes). El tráfico de respuesta saliente provoca picos que pueden saturar la red (o lo hicieron, hasta que comenzamos a responder con solo un error 503). Estos ataques (¿qué más podemos llamarlos?) Duran aproximadamente 30 minutos en promedio, pero las historias muy populares pueden tener mucho tráfico durante una hora o más (estoy hablando del tráfico de Firefox 3.0.10, por supuesto, el tráfico normal también sigue siendo alto por un momento).

En un período de una hora (para un solo servidor en un grupo de carga equilibrada) vimos 200,000 solicitudes de las cuales 97,000 fueron las solicitudes de firefox 3.0.10, casi el 50% de todas las solicitudes. Y cuando considera que normalmente una página genera 10 o más solicitudes para el archivo principal y los archivos accesorios, los 97,000 telares son mucho más grandes. Observo que de las 97,000 había 51,000 direcciones IP únicas. Y estoy hablando de una sola hora (en realidad fue más cerca de 45 minutos). Lo que sea que esté causando esto está bastante extendido.

Actualización del usuario 119708

Tenemos el mismo problema en un enorme sitio web francés de noticias de alta tecnología.

Cada vez que se publica una noticia y se puede ver en Google News, el tráfico aumenta considerablemente en las noticias con aproximadamente 50 a 100 visitas por IP y el agente de usuario "Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10 ) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729) ".

Todas las direcciones IP parecen estar ubicadas en Francia o en países franceses y no tienen un árbitro. Parece ser un bot, pero ¿por qué una sola dirección remota tiene que volver 50 o 100 veces en las mismas noticias durante unos minutos? ¿Podrían ser computadoras infectadas? ¿Por qué aparece el fenómeno cuando las noticias son visibles en Google News? ¿Es Google responsable de este extraño tráfico?

Si alguien en este tema ha encontrado la explicación, ¡creo que ayudaría a muchos sitios web medianos o grandes a controlar su tráfico!

EDITAR: http://2bits.com/botnet/botnet-hammering-web-site-causing-outages.html Si se trata de computadoras infectadas, es muy preocupante dada la cantidad de direcciones involucradas. Implementaremos este script para Apache para bloquear todo el tráfico:

# Referer is empty
RewriteCond %{HTTP_REFERER} ^$

# User agent is bogus old browser
RewriteCond %{HTTP_USER_AGENT} "Gecko/2009042316 Firefox/3.0.10"

# Forbid the request
RewriteRule ^(.*)$ - [F,L]

Actualización de Ernesto

Sitio de noticias generales en español medio, notó un alto tráfico en algunas noticias irrelevantes desde hace unos días.

Quienquiera que sea, carga el HTML completo, ya que lo notamos debido al recuento de "vistas de página" que incrementamos a través de actualizaciones de la base de datos una vez que se carga la página.

Solo notamos una o dos URL dirigidas cada día.

Muchas solicitudes (7000-12000) a través de la misma URL en pocos segundos, distribuidas durante el día desde diferentes IP. Próximos días otras URL dirigidas.

Sin árbitro.

Los artículos seleccionados aparecieron en Google Noticias, pero no podemos asegurar que estén relacionados.

Google Analytics no lo reconoce como tráfico legítimo. Tenemos artículos con más de 8000 visitas y GA solo informa aproximadamente 25 (supongo que javascript no se ha interpretado).

Actualización de Old Pro

Agregando algunos puntos de datos para usted.

Bots vs. Browsers no considera que este UA sea un bot (todavía).

En el sitio con mayor tráfico para el que tengo registros, el uso de mayo de 2012 hasta la fecha muestra este UA como menos del 1% del tráfico. Una parte importante de las solicitudes de AU parece legítima (cargando todos los recursos esperados, por ejemplo). Esto es básicamente lo mismo que para febrero de 2012.

La página principal de este sitio rara vez se actualiza y todo el contenido dinámico está bloqueado por robots.txt.

Esto es probable de Genieo. Han actualizado su aplicación para utilizar un nuevo agente de usuario: Mozilla / 5.0 + (compatible; + Genieo / 1.0 + http://www.genieo.com/webfilter.html ). Golpea con el mismo patrón que el agente de usuario original, pero ahora parecen identificarse. Si observa la URL en su agente de usuario, incluso reconocen que pueden haber generado o pueden estar generando demasiado tráfico a ciertos sitios web. - dflaw

Actualización de Mike Fagan

Hemos estado luchando contra lo que asumimos que eran ataques DDOS durante semanas. Acabamos de empezar a ver a Genieo como agente de uso para estos ataques. Anteriormente vimos "Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729)" y un montón de solicitudes de " Mozilla / 5.0 (Windows NT 6.1; rv: 11.0) Gecko / 20100101 Firefox / 11.0 ". Más de 10k IP diferentes, más de 1 millón de solicitudes por día a solo 3 o 4 páginas donde la misma IP solicitaba páginas más de 100 veces y no extraía activos o anuncios adicionales. Mi hallazgo es que ninguna de estas IP en realidad fue a ninguna otra página de nuestro sitio.

Me puse en contacto con Genieo y esta es su respuesta:

"Gracias por contactarnos.

La versión anterior de Genieo podría haber causado las cargas de tráfico que usted describe. Nos disculpamos por cualquier inconveniente que esto pueda haber causado. Lanzamos y actualizamos ayer esa dirección, la carga de datos de nuestra aplicación debería desaparecer en las próximas 24 horas. Creíamos que estábamos prestando un buen servicio a su sitio al presentarlo a los nuevos usuarios. No evaluamos adecuadamente que, dado que nuestra base de instalación está creciendo, puede haber inducido una sobrecarga en algunos sitios.

Genieo es un periódico personal o un lector RSS inteligente. Es un lector de RSS del lado del cliente con filtrado inteligente de personalización semántica. La aplicación Genieo sigue los datos RSS de los sitios favoritos de los usuarios que "leen" los artículos mediante análisis semántico y los filtran con respecto a las áreas de interés de los usuarios. Si el artículo coincide con los intereses del usuario, la aplicación muestra el título y el fragmento del artículo en la página de inicio del usuario. Al hacer clic en el título, accederá al sitio del artículo: su sitio. El agente Genieo es autónomo (por razones de privacidad); se ejecuta en la máquina de los usuarios finales, es por eso que ve que el agente accede a su sitio desde muchas IP diferentes.

La mayoría de los datos de Genieo provienen de los canales RSS normales del usuario, pero Genieo también agrega contenido de nuevos sitios de noticias que los usuarios no registraron previamente (por casualidad y diversidad). Los algoritmos Genieo buscan artículos "populares", los principales éxitos de Twitter, los más vistos de YouTube y las noticias destacadas de Google y comprueban si coinciden con los intereses del usuario

No sabíamos que esto estaba causando problemas de carga en algunos sitios. Una vez que se nos comunicó esto, actualizamos a los usuarios actuales con una nueva versión que evita picos de carga.

Atentamente,

-Dotan

PD: en el pasado utilizamos "Mozilla / 5.0 (Windows NT 6.1; rv: 11.0) Gecko / 20100101 Firefox / 11.0" (debido a un error técnico), pero todos los usuarios actuales de Genieo deberían usar los agentes de usuario de Genieo (para las ultimas semanas)"

— Mark Henderson
fuente

¿Podría agregar a la pregunta algunas de las direcciones IP que aparecen en los registros?

— ricmarques

No estoy seguro de si es el software antivirus AVG, porque AVG solucionó el problema. Además, sigo pensando que existe una buena posibilidad de que alguna aplicación móvil esté causando ese tráfico, alguna aplicación de agregación de noticias (algo así como skygrid.com) , pero no es skygrid porque usan un UA adecuado.

— user114293

Aquí algunos ejemplos de IP: 196.202.255.1 59.164.38.248 67.4.252.169 24.224.194.26 67.4.39.99 49.123.100.148

— usuario114293

Sí, hemos notado un tráfico similar en varios sitios. Todavía estamos buscando la causa raíz, pero algunos de nuestros hallazgos incluyen: - Si es una araña, está haciendo un trabajo bastante pobre. Parece martillar solo una o dos URL por dominio durante un tiempo (tal vez un par de horas), hasta que pasa a otra URL. Sin embargo, el contenido siempre es relativamente "actual", lo que da crédito a que Google News sea un factor, como se indica en el enlace que Dee publicó en su respuesta (todos nuestros sitios son sitios de noticias). - Si bien las IP están distribuidas geográficamente, para nosotros la mayoría de ellas parecen ubicadas cerca del sitio de origen (la mayoría

— jamur2

Tenemos un gran sitio de noticias: Google News recoge nuestras historias varias veces a la semana. Hemos estado recibiendo tráfico de esta fuente desde finales de noviembre, y está creciendo semana a semana, tal vez 30 millones de imps en febrero. La aparición en la portada de Google News US es un detonante para este tráfico: alrededor del 75 por ciento pretende ser de IP de EE. UU. Pero sea lo que sea, está haciendo grandes esfuerzos para oscurecerse. Y eso no es amigable. Tampoco hemos encontrado una pistola humeante, pero un importante proveedor de seguridad accedió amablemente a investigar más en nuestro nombre.

— Bannow Bay

Creo que el usuario dflaw lo encontró. Es el software de Genieo. Hicimos algunas pruebas y los contactamos. Todos los resultados se publican aquí .

— usuario114293
fuente