Dentro del ámbito de los bots normales, todo depende de lo que aprecies y solo tú puedes decidir eso. Por supuesto, hay Google, Bing / MSN / Yahoo !, Baidu y Yandex. Estos son los principales motores de búsqueda. También hay varios sitios de SEO y backlinks. Bien o mal, permito que algunos de los grandes tengan acceso a mi sitio, pero en general, son sitios inútiles. Bloqueo archive.org no solo en robots.txt, sino también por nombre de dominio y dirección IP. ¡Esto se debe a que ignoran robots.txt a lo grande! Esto es algo por lo que necesita tener una idea. No se deje engañar por los nombres de los agentes. A menudo son forjados por personas malas. Hoy en día, recibo miles de solicitudes de páginas de fuentes que dicen ser Baidu, pero no lo son. Conozca estas arañas por nombres de dominio y bloques de direcciones IP y aprenda a lidiar con ellas en ese nivel. Los buenos obedecen robots.txt.
Pero debo advertirte, hay una TONELADA de bots sigilosos, bots corruptos, raspadores, etc., que querrás buscar tu análisis de registro con frecuencia y bloquear. Este 5uck5! Pero tiene que hacerse. La mayor amenaza de ellos en estos días son los enlaces de baja calidad a su sitio. Mi código de seguridad anti-bot actualizado que implementé este año ha eliminado 7700 enlaces de baja calidad automáticamente. Por supuesto, mi código todavía necesita trabajo, pero entiendes el punto. Los robots malos aún roban el potencial del sitio.
No pasará mucho tiempo antes de que te acostumbres.