Tengo un sitio que, por razones regulatorias, no puede indexarse o buscarse automáticamente. Esto significa que debemos mantener alejados a todos los robots y evitar que recorran el sitio.
Obviamente hemos tenido un archivo robots.txt que no permite nada desde el principio. Sin embargo, observar el archivo robots.txt es algo que solo los robots con buen comportamiento hacen. Recientemente hemos tenido algunos problemas con robots que no se comportan bien. He configurado Apache para prohibir algunos agentes de usuario, pero es bastante fácil evitarlo .
Entonces, la pregunta es, ¿hay alguna forma de configurar Apache (tal vez instalando algún módulo?) Para detectar un comportamiento similar al robot y responder? ¿Alguna otra idea?
Por el momento, todo lo que puedo hacer es prohibir las direcciones IP basadas en la inspección manual de los registros y eso simplemente no es una estrategia viable a largo plazo.