Googlebot envía miles de solicitudes a nuestro localizador de mapas y utiliza la cuota de API

Tenemos una página de localización de tiendas en el sitio de nuestros clientes. El usuario final ingresa su código postal y un radio de búsqueda y mostramos los resultados en un mapa de Google.

Recientemente comenzamos a notar que el sitio estaba alcanzando el límite de búsqueda de mapas gratis (aproximadamente 25,000 por 24 horas) sin un aumento notable en el tráfico general. Encendí algunos registros adicionales para tratar de encontrar cuál era el problema.

Resulta que Googlebot está empujando a través de miles de búsquedas en este mapa. Esta es una pequeña muestra:

2017-07-09 23: 56: 22,719 [7] INFORMACIÓN ShopLanding - [Hilo 41] Google Maps: buscado G23 recibió OK de 66.249.66.221
2017-07-09 23: 56: 35,469 [7] INFORMACIÓN ShopLanding - [Hilo 10] Google Maps: CA6 buscado recibió OK de 66.249.66.221
2017-07-09 23: 57: 24,563 [7] INFORMACIÓN ShopLanding - [Hilo 48] Google Maps: buscado BN14 recibió OK de 66.249.66.223
2017-07-09 23: 58: 00,970 [7] INFORMACIÓN ShopLanding - [Hilo 42] Google Maps: buscado CB4 recibido OK de 66.249.66.221
2017-07-09 23: 58: 13,064 [7] INFORMACIÓN ShopLanding - [Tema 54] Google Maps: buscado DY9 recibió OK de 66.249.66.221
2017-07-09 23: 59: 18,722 [7] INFORMACIÓN ShopLanding - [Hilo 59] Google Maps: buscado TS3 recibido OK de 66.249.66.223
2017-07-09 23: 59: 53,223 [7] INFORMACIÓN ShopLanding - [Hilo 49] Google Maps: buscado S45 recibió OK de 66.249.66.221

¿Hay alguna manera de evitar que Google envíe tantas solicitudes? Esto está comiendo una proporción significativa de la asignación gratuita. Las búsquedas legítimas parecen tener menos de 200 por día.

EDITAR

El sitio está construido en C # ASP.NET. La búsqueda de la tienda está utilizando POST, la URL no cambia al enviar. Puedo publicar una muestra de registros de IIS mañana por la mañana para confirmar este comportamiento.

web-crawlers google-maps

— Burgi
fuente

¿Los elementos que Googlebot está buscando tienen algún significado? "G23" y "CA6" no significan nada para mí. Googlebot no suele enviar datos aleatorios a los formularios. Por lo general, solo rastrea opciones desplegables, datos precompletados o enlaces de consulta. ¿Están esos valores en el sitio en algún lugar como una lista? Además, ¿cómo se ven sus URL para estas solicitudes?

— Stephen Ostermiller

@StephenOstermiller son códigos postales parciales del Reino Unido, específicamente el identificador del distrito. Estas deberían ser POSTsolicitudes para AJAX, aunque comprobaré los registros de IIS.

— Burgi

Aparte: ¿Qué es "búsqueda gratuita en el mapa"?

— MrWhite

@SamWeaver, la IP se resuelve como Google bot y la entrada de registro de IIS correspondiente tiene el Googlebot UserAgent. Es cierto que ambos pueden ser falsificados.

— Burgi

¿Su localizador de tiendas utiliza una cadena de consulta (solicitud GET)? ¿Cuál es la estructura de URL aproximada de la página del localizador de tiendas? ¿Cambia (cadena de consulta) con la búsqueda de usuarios? Si puede explicar el lado funcional / tecnológico un poco más en detalle, entonces puede responderse de una manera más efectiva.

— TopQnA

Para evitar que googlebot busque a través de googlemaps, coloque un archivo llamado robots.txten la raíz de su dominio. por ejemplo, https://www.wikipedia.org/robots.txt

Muestra de robots.txt:

User-agent: Googlebot
Disallow: /search-store/

Donde / search-store / es la página que envía la solicitud a google maps.

Si resulta ser algo más que Googlebot, puede intentar deshabilitar todo el rastreo a esta página con:

User-agent: *
Disallow: /search-store/

Tenga en cuenta que no dejará de comportarse mal los scripts que ignoran robots.txt.

— satibel
fuente

¡Tenga en cuenta que, de todos modos, no quiere que Google y otros motores de búsqueda distribuyan estas páginas!

— Ari Davidow

No estoy seguro de si el bloqueo de toda la tienda de búsqueda es la opción correcta, es posible que necesitemos comprender la cadena de consulta, etc. Es decir, deje que Google lea pero no envíe demasiadas solicitudes. Bloquear todo el almacén de búsqueda debería ser la última opción.

— TopQnA

La búsqueda de limitación de velocidad podría ser otra opción, digamos que después de 25 búsquedas, debe enfriarse durante una hora entre cada búsqueda. Pararía a los bots y a las personas nefastas, pero no a los usuarios habituales.

— satibel

Si la página es solo para buscar la ubicación de una tienda, dudo que sea útil tenerla indexada en primer lugar. Dependería de la estructura del sitio. Además, robots.txt es más fácil / rápido (por lo tanto, más barato) para implementar como una solución rápida que tomarse algunas horas para calificar el límite. @TopQnA

— satibel

Bueno, la ubicación de la tienda es muy importante para el usuario y la mayoría de las personas busca una tienda con referencia a la ubicación en Google y si el localizador de la tienda puede generar un mapa con información útil con una URL única para cada tienda, sería mucho más útil para el usuario. Y es por eso que el bloqueo debería ser la última opción.

— TopQnA