Si bien intentar bloquear bots puede ayudar a liberar recursos y limpiar sus registros, es importante tener en cuenta que robots.txt e incluso usar la metaetiqueta en las páginas noindex en realidad no detiene a los bots que visitan su sitio. Todavía pueden rastrear su sitio ocasionalmente para ver si se ha eliminado la denegación de los robots. Muchos bots ni siquiera usan un agente de usuario y usarán un agente de usuario estándar. Los bots a los que me refiero son típicamente robots de recolección SEO que escanean los vínculos de retroceso y no los generales que encuentras en los motores de búsqueda.
En lugar de bloquear los bots, solo debe tener en cuenta estos bots cuando cuente sus visitantes, después de un tiempo de monitorear activamente su sitio, establecerá una cifra aproximada de los bots. La mayoría de las personas se preocupan por visitas únicas y esto excluye a los bots ya que están regresando constantemente. En la actualidad, hay muchos servidores, alojamiento compartido que pueden manejar estos bots, por lo que, aparte de las páginas que no desea indexar, no veo ninguna razón por la que bloquear estos tipos de bots. Por supuesto, también tiene bots dañinos, pero estos ciertamente no usarán el agente de usuario;).
Personalmente, creo que bloquear robots es una pérdida de tiempo, ya que no utilizan tantos recursos en absoluto, los robots SEO pueden ayudar, ya que enumeran su sitio en las páginas PR0, lo que, por supuesto, aumenta su PageRank y está automatizado para que no sea castigado por ellos.
Problema de registros
Debe usar un visor de registro adecuado que le permita filtrar ciertas solicitudes, esto lo hace más fácil al revisar sus registros. Los buenos espectadores pueden filtrar muchas cosas, como las visitas normales, los 404 y demás.