¿Cómo funciona "Noindex:" en robots.txt?

Me encontré con este artículo en mis noticias de SEO hoy. Parece implicar que puede usar Noindex:directivas además de las Disallow:directivas estándar en robots.txt .

Disallow: /page-one.html
Noindex: /page-two.html

Parece que evitaría que los motores de búsqueda rastreen la página uno y que no indexen la página dos.

¿Esta directiva robots.txt es compatible con Google y otros motores de búsqueda? ¿Funciona? ¿Está documentado?

— Stephen Ostermiller
fuente

No sé ... pero esto podría ser muy útil para algunos. Además, me gustaría ver el mapa del sitio ampliado para ser más comunicativo. Entre los robots y los mapas del sitio, esta debería ser una oportunidad de oro para comunicarse con los motores de búsqueda y otros sobre un sitio. También estoy a favor de una oportunidad basada en texto para informar a los motores de búsqueda sobre el sitio de una manera diferente, aparte de estar disponible en la búsqueda, como la página acerca de, como si tuviera la oportunidad de hablar directamente con un revisor del sitio de Google. Podría salvar algunos dolores de corazón y malentendidos. Una oportunidad para decir Ooopppsss, me burlé. Lo siento.

— closetnoc

Tengo la impresión de que disallowGoogle deja de descubrir enlaces en las páginas principales y secundarias, si es que existen. Si bien noindexsimplemente detiene la página que se enumera, no detiene el descubrimiento mientras que no lo hace.

— Simon Hayter

@SimonHayter Sé que así es como nofollowfuncionan las metaetiquetas. Sería bueno saber si ese también es el caso de robots.txt .

— Stephen Ostermiller

Hola @StephenOstermiller no solo metaetiquetas, también es lo mismo <a rel="no-follow">. No veo ninguna razón por la que se trataría de manera diferente. Obviamente, esto no es oficial e incluso John Muller me recomienda que no lo use en el archivo robots.txt, pero aparte de su tweet, no he logrado encontrar mucha información al respecto.

— Simon Hayter

Vale la pena señalar que Google ya no marca la Noindexdirectiva dentro de los robots.txtarchivos como un error.

— Aran

Google solía admitir de forma no oficial una Noindexdirectiva en robots.txt, sin embargo, en 2019, anunciaron que la directiva ya no funcionará.

Esto es lo que dice John Mueller deNoindex: Google en robots.txt :

Solíamos admitir la directiva sin índice en robots.txt como una característica experimental. Pero es algo en lo que no confiaría. Y no creo que otros motores de búsqueda estén usando eso en absoluto.

Antes de que Google anunciara la suspensión de la función, deepcrawl.com hizo algunas pruebas de la función y descubrió que:

Antes de 2019, todavía funcionaba con Google
Impidió que las URL aparecieran en el índice de búsqueda
Las URL que no se han indexado en robots.txt se marcaron como tales en Google Search Console

Dado que Google suspendió la función, ya no debería usarse.

En su lugar, use metaetiquetas de robots que estén bien soportadas y documentadas para evitar la indexación:

<meta name="robots" content="noindex" />

— Stephen Ostermiller
fuente