¿Por qué los resultados de búsqueda de Google incluyen páginas no permitidas en robots.txt?

18

Tengo algunas páginas en mi sitio que quiero mantener alejados de los motores de búsqueda, así que no las permití en mi robots.txtarchivo de esta manera:

User-Agent: *
Disallow: /email

Sin embargo, recientemente me di cuenta de que Google todavía a veces devuelve enlaces a esas páginas en sus resultados de búsqueda. ¿Por qué sucede esto y cómo puedo detenerlo?

Antecedentes:

Hace varios años, hice un sitio web simple para un club en el que estaba involucrado un pariente mío. Querían tener enlaces de correo electrónico en sus páginas, así que, para tratar de evitar que esas direcciones de correo electrónico terminen en demasiados listas de spam, en lugar de usar mailto:enlaces directos , hice que esos enlaces apuntaran a un script simple de redirector / capturador de direcciones que se ejecuta en mi propio sitio. Este script devolvería una redirección 301 a la mailto:URL real o, si detectaba un patrón de acceso sospechoso, una página que contenía muchas direcciones de correo electrónico falsas aleatorias y enlaces a más de esas páginas. Para mantener los bots de búsqueda legítimos lejos de la trampa, configuré la robots.txtregla que se muestra arriba, rechazando todo el espacio de los enlaces de redireccionador legítimos y las páginas de trampa.

Sin embargo, recientemente, una de las personas en el club buscó en Google su propio nombre y se sorprendió bastante cuando uno de los resultados en la primera página fue un enlace al guión del redirector, con un título que consistía en su dirección de correo electrónico seguida por mi nombre Por supuesto, inmediatamente me enviaron un correo electrónico y querían saber cómo sacar su dirección del índice de Google. También me sorprendió bastante, ya que no tenía idea de que Google indexaría tales URL en absoluto, aparentemente en violación de mi robots.txtregla.

Me las arreglé para enviar una solicitud de eliminación a Google, y parece haber funcionado, pero me gustaría saber por qué y cómo Google está eludiendo mi robots.txtestilo y cómo asegurarme de que ninguna de las páginas rechazadas se muestre en su Resultados de la búsqueda.

PD. De hecho, descubrí una posible explicación y solución, que publicaré a continuación, mientras preparo esta pregunta, pero pensé en preguntarla de todos modos en caso de que alguien más pudiera tener el mismo problema. Por favor, siéntase libre de publicar sus propias respuestas. También me interesaría saber si otros motores de búsqueda también hacen esto, y si las mismas soluciones funcionan para ellos también.

google-search robots.txt

— Ilmari Karonen
fuente

1

"y cómo Google está eludiendo mi robots.txt" Supongo que ya lo sabes (o cómo demonios podrías haber creado un sitio en primer lugar), pero en caso de que algún tonto desafortunado pasee ... El robots.txtarchivo es como un pequeño cartel de "Prohibido el paso" al lado del camino de entrada de alguien. No es mágico, y (a menos que un visitante lo busque explícitamente) pueden deambular por su propiedad sin verse afectados por su existencia. Hay equivalentes en Internet de proyectores y cercas de alambre de púas, pero si eso es lo que quieres, robots.txt¿no?

— Parthian Shot

25

Parece que Google incluye deliberadamente las URL no permitidas en robots.txtsu índice si hay enlaces a esas URL desde otras páginas que han rastreado. Para citar sus páginas de ayuda de Herramientas para webmasters de Google :

"Si bien Google no rastreará ni indexará el contenido de las páginas bloqueadas por robots.txt, aún podemos indexar las URL si las encontramos en otras páginas de la web. Como resultado, la URL de la página y, potencialmente, otras La información disponible públicamente, como el texto de anclaje en los enlaces al sitio, o el título del Open Directory Project (www.dmoz.org), puede aparecer en los resultados de búsqueda de Google ".

Aparentemente, Google interpreta una Disallowdirectiva robots.txtcomo una prohibición contra el rastreo de la página, no contra la indexación . Supongo que técnicamente es una interpretación válida, incluso si me suena a reglas legales.

En este artículo de la entrevista , Matt Cutts de Google brinda un poco más de antecedentes y proporciona una explicación razonable de por qué hacen esto:

"En los primeros días, muchos sitios web muy populares no querían rastrearse en absoluto. Por ejemplo, eBay y el New York Times no permitían ningún motor de búsqueda, o al menos Google no rastreaba ninguna página. La Biblioteca del Congreso tenía varias secciones que decían que no está permitido rastrear con un motor de búsqueda. Entonces, cuando alguien vino a Google y escribió en eBay, y no hemos rastreado eBay, y no pudimos devolver eBay, nosotros parecía un poco subóptimo. Por lo tanto, el compromiso con el que decidimos llegar era que no lo rastrearíamos desde robots.txt, pero podríamos devolver esa referencia de URL que vimos ".

La solución recomendada en ambas páginas es agregar una noindexmetaetiqueta a las páginas que no desea indexar. (El X-Robots-Tagencabezado HTTP también debería funcionar para páginas que no sean HTML. Sin embargo, no estoy seguro de si funciona en redirecciones). Paradójicamente, esto significa que debe permitir que Googlebot rastree esas páginas (ya sea eliminándolas por robots.txtcompleto o agregando un conjunto de reglas separado y más permisivo para Googlebot), ya que de lo contrario no puede ver la metaetiqueta en primer lugar.

Edité mi script de redirección / trampa de araña para enviar tanto la metaetiqueta como el X-Robots-Tagencabezado con el valor noindex,nofollowy permití que Googlebot rastree la URL del script en mi robots.txt. Veremos si funciona una vez que Google vuelva a indexar mi sitio.

— Ilmari Karonen
fuente

5

Es cierto que si bien esto debería evitar que Google (y los buenos bots) rastreen estas páginas y lean su contenido, aún pueden mostrar un enlace de solo URL en los SERP si están vinculados, de la forma:

Enlace solo URL en SERPs de Google

Como puede ver, no hay título o descripción, es literalmente solo la URL. Naturalmente, este tipo de resultados generalmente se omiten de los SERP, a menos que los busque explícitamente.

Y como mencionas en tu respuesta, si no quieres que la URL aparezca en absoluto en los SERPs, entonces debes permitir robots, pero incluir una metaetiqueta noindex.

— Señor White
fuente