¿Cómo configurar robots.txt para permitir todo?


116

Mi robots.txten las Herramientas para webmasters de Google muestra los siguientes valores:

User-agent: *
Allow: /

Qué significa eso? No tengo suficiente conocimiento al respecto, así que busco tu ayuda. Quiero permitir que todos los robots rastreen mi sitio web, ¿es esta la configuración correcta?


Permitir no es entendido por todos los rastreadores web, use desautorizar: (es decir, sin URL después de:) en su lugar. Es más seguro (ver: youtu.be/G29Zt-UH_Ko )
Jérôme Verstrynge

Respuestas:


153

Ese archivo permitirá el acceso de todos los rastreadores

User-agent: *
Allow: /

Esto básicamente permite que todos los agentes de usuario (el *) accedan a todas las partes del sitio (el /).


11
Correcto, a menos que necesite negar la parte de permiso. No hay "permitir", así que haga eso: "User-agent: * Disallow:" como se muestra aquí: robotstxt.org/robotstxt.html
vsdev

Hay una parte permitida. Consulte los documentos oficiales de Google developers.google.com/search/reference/robots_txt#allow
Hasan Sefa Ozalp

60

Si desea permitir que cada bot rastree todo, esta es la mejor manera de especificarlo en su robots.txt:

User-agent: *
Disallow:

Tenga en cuenta que el Disallowcampo tiene un valor vacío, lo que significa de acuerdo con la especificación :

Cualquier valor vacío indica que se pueden recuperar todas las URL.


Tu forma (con en Allow: /lugar de Disallow:) también funciona, pero Allowno es parte de la especificación original de robots.txt , por lo que no es compatible con todos los bots (aunque muchos de los más populares lo admiten, como el robot de Google ). Dicho esto, los campos no reconocidos deben ignorarse, y para los bots que no reconocen Allow, el resultado sería el mismo en este caso de todos modos: si no se prohíbe rastrear nada (con Disallow), se permite rastrear todo.
Sin embargo, formalmente (según la especificación original) es un registro no válido, porque Disallowse requiere al menos un campo:

Al menos un campo Disallow debe estar presente en un registro.


17

Entiendo que esta es una pregunta bastante antigua y tiene algunas respuestas bastante buenas. Pero, aquí están mis dos centavos en aras de la integridad.

Según la documentación oficial , hay cuatro formas en las que puede permitir el acceso completo para que los robots accedan a su sitio.

Limpiar:

Especifique un comparador global con un segmento no permitido como lo menciona @unor. Entonces tu se /robots.txtve así.

User-agent: *
Disallow:

El truco:

Cree un /robots.txtarchivo sin contenido. Que permitirá por defecto todo para todo tipo de Bots.

No me importa la manera:

No cree un /robots.txtarchivo completo. Lo que debería producir exactamente los mismos resultados que los dos anteriores.

El feo:

De la documentación de robots para metaetiquetas , puede usar la siguiente metaetiqueta en todas las páginas de su sitio para informar Botsque estas páginas no deben indexarse.

<META NAME="ROBOTS" CONTENT="NOINDEX">

Para que esto se aplique a todo su sitio, deberá agregar esta metaetiqueta para todas sus páginas. Y esta etiqueta debe colocarse estrictamente debajo de su HEADetiqueta de la página. Más sobre esta metaetiqueta aquí .


Sin embargo, sin robots.txt y Wordpress es una mala combinación, porque WordPress genera un robots.txt virtual. A menos que esté satisfecho con el que genera WordPress.
Jesper

8

Significa que permite que cada ( *) agente de usuario / rastreador acceda a la raíz ( /) de su sitio. Estas bien.


5
no hay un campo "Permitir", según robotstxt.org/robotstxt.html, así que tendría cuidado de usarlo. Wikipedia menciona "Algunos rastreadores importantes admiten una directiva Allow que puede contrarrestar una directiva
Disallow
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.