Solo permita que los robots de Google y Bing rastreen un sitio

Estoy usando el siguiente archivo robots.txt para un sitio: El objetivo es permitir que googlebot y bingbot accedan al sitio excepto la página /bedven/bedrijf/*y bloqueen el rastreo de todos los demás bots.

User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: *
Disallow: /

¿La última regla User-agent: * Disallow: /no permite que todos los robots rastreen todas las páginas del sitio?

web-crawlers robots.txt

— Konsole
fuente

Toda esta tarea me concierne. Hay otros motores de búsqueda, y cualquiera que los use no verá su sitio. theeword.co.uk/info/search_engine_market dice que el 4.99% de Internet no está en sus motores de búsqueda. Esa es mucha gente. Un mejor método sería monitorear su tráfico y ver si algún bot realmente causa problemas, luego bloquearlos específicamente.

— GKFX

De robots.txttodos modos

— Nick T

Los robots realmente malos no se preocupan por robots.txt

— Osvaldo

@NickT, en el mundo real, no faltan los robots que se comportan mal robots.txt, o al menos la Disallow: /regla. Si su sitio web personal se está hundiendo porque un programador de bots nunca consideró que el servidor podría ser una Raspberry Pi en el extremo incorrecto de una conexión de 256 kbit, una exclusión general como esta es útil.

— Marque el

@Console ¿

— o0 '.

Respuestas:

El último registro (iniciado por User-agent: *) será seguido por todos los bots educados que no se identifiquen como "googlebot", "google", "bingbot" o "bing".
Y sí, significa que no se les permite gatear nada.

Es posible que desee omitir el *en /bedven/bedrijf/*.
En la especificación original de robots.txt, *no tiene un significado especial, es solo un personaje como cualquier otro. Por lo tanto, solo permitiría el rastreo de páginas que literalmente tienen el carácter *en su URL.
Si bien Google no sigue la especificación de robots.txt en ese sentido, debido a que se usa *como comodín para "cualquier secuencia de caracteres", no es necesario para ellos en este caso: /bedven/bedrijf/*y /bedven/bedrijf/significaría exactamente lo mismo: bloquear todas las URL cuya ruta comienza con /bedven/bedrijf/.

Y finalmente, podría reducir su robots.txt a dos registros, porque un registro puede tener varias User-agentlíneas :

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /

— unor
fuente

Tenga en cuenta que Google ignora la directiva de retraso de rastreo en robots.txt. En su lugar, debe configurarlo en las Herramientas para webmasters de Google.

— DisgruntledGoat

-2

Los bots, especialmente los malos, pueden ignorar el archivo robots.txt. Entonces, no importa lo que esté escrito allí, algunos robots pueden rastrear su sitio.

— Atis Luguzs
fuente