Gran pregunta, y muchos webmasters podrían estar interesados ya que la araña Baidu es notoriamente agresiva y puede eliminar recursos de los servidores ...
Como se indica en las noticias de Búsqueda web de Baidu, la araña Baidu no admite la configuración de notificación de retraso de rastreo , y en su lugar requiere que se registre y verifique su sitio con su plataforma Baidu Webmaster Tools, como se indica aquí en su sitio. Esta parece ser la única opción para controlar la frecuencia de rastreo directamente con Baidu.
El problema es que otros robots de spam utilizan los agentes de usuario de Baidu (enumerados aquí en el número 2) para explorar su sitio, como se indica en sus Preguntas frecuentes aquí en el número 4. Por lo tanto, solicitar una tasa de rastreo más lenta con Baidu puede no resolver todo.
Por lo tanto, si decide usar las Herramientas para webmasters de Baidu, sería aconsejable comparar también sus agentes de usuario con las IP que se sabe que están asociadas a ellos mediante el uso de un recurso como la Base de datos Bots vs Browsers , o mediante una búsqueda inversa de DNS
Las únicas otras opciones son bloquear todos los agentes de usuario de Baidu y, por lo tanto, sacrificar el tráfico potencial de Baidu, o intentar limitar las solicitudes excesivas utilizando algo como mod_qos para Apache, que afirma administrar:
- El número máximo de solicitudes simultáneas a una ubicación / recurso (URL) o host virtual.
- Limitación del ancho de banda, como el número máximo permitido de solicitudes por segundo a una URL o el máximo / mínimo de kbytes descargados por segundo.
- Limita el número de eventos de solicitud por segundo (condiciones de solicitud especiales).
- También puede "detectar" personas muy importantes (VIP) que pueden acceder al servidor web sin o con menos restricciones.
- Línea de solicitud genérica y filtro de encabezado para denegar operaciones no autorizadas. Limitación y filtrado de datos del cuerpo de la solicitud (requiere mod_parp).
- Limitaciones en el nivel de conexión TCP, por ejemplo, el número máximo de conexiones permitidas desde una única dirección de origen IP o control dinámico de mantenimiento de vida.
- Prefiere las direcciones IP conocidas cuando el servidor se queda sin conexiones TCP libres.
No he encontrado experiencias reportadas con Baidu Webmaster Tools, que es lenta de cargar y tiene problemas de traducción (tampoco hay versión en inglés). Eso podría ser útil, pero basado en opiniones, por supuesto.