Estoy usando el siguiente archivo robots.txt para un sitio: El objetivo es permitir que googlebot y bingbot accedan al sitio excepto la página /bedven/bedrijf/*
y bloqueen el rastreo de todos los demás bots.
User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: *
Disallow: /
¿La última regla User-agent: * Disallow: /
no permite que todos los robots rastreen todas las páginas del sitio?
robots.txt
todos modos
robots.txt
, o al menos la Disallow: /
regla. Si su sitio web personal se está hundiendo porque un programador de bots nunca consideró que el servidor podría ser una Raspberry Pi en el extremo incorrecto de una conexión de 256 kbit, una exclusión general como esta es útil.