Tengo algunas páginas en mi sitio que quiero mantener alejados de los motores de búsqueda, así que no las permití en mi robots.txt
archivo de esta manera:
User-Agent: *
Disallow: /email
Sin embargo, recientemente me di cuenta de que Google todavía a veces devuelve enlaces a esas páginas en sus resultados de búsqueda. ¿Por qué sucede esto y cómo puedo detenerlo?
Antecedentes:
Hace varios años, hice un sitio web simple para un club en el que estaba involucrado un pariente mío. Querían tener enlaces de correo electrónico en sus páginas, así que, para tratar de evitar que esas direcciones de correo electrónico terminen en demasiados listas de spam, en lugar de usar mailto:
enlaces directos , hice que esos enlaces apuntaran a un script simple de redirector / capturador de direcciones que se ejecuta en mi propio sitio. Este script devolvería una redirección 301 a la mailto:
URL real o, si detectaba un patrón de acceso sospechoso, una página que contenía muchas direcciones de correo electrónico falsas aleatorias y enlaces a más de esas páginas. Para mantener los bots de búsqueda legítimos lejos de la trampa, configuré la robots.txt
regla que se muestra arriba, rechazando todo el espacio de los enlaces de redireccionador legítimos y las páginas de trampa.
Sin embargo, recientemente, una de las personas en el club buscó en Google su propio nombre y se sorprendió bastante cuando uno de los resultados en la primera página fue un enlace al guión del redirector, con un título que consistía en su dirección de correo electrónico seguida por mi nombre Por supuesto, inmediatamente me enviaron un correo electrónico y querían saber cómo sacar su dirección del índice de Google. También me sorprendió bastante, ya que no tenía idea de que Google indexaría tales URL en absoluto, aparentemente en violación de mi robots.txt
regla.
Me las arreglé para enviar una solicitud de eliminación a Google, y parece haber funcionado, pero me gustaría saber por qué y cómo Google está eludiendo mi robots.txt
estilo y cómo asegurarme de que ninguna de las páginas rechazadas se muestre en su Resultados de la búsqueda.
PD. De hecho, descubrí una posible explicación y solución, que publicaré a continuación, mientras preparo esta pregunta, pero pensé en preguntarla de todos modos en caso de que alguien más pudiera tener el mismo problema. Por favor, siéntase libre de publicar sus propias respuestas. También me interesaría saber si otros motores de búsqueda también hacen esto, y si las mismas soluciones funcionan para ellos también.
robots.txt
archivo es como un pequeño cartel de "Prohibido el paso" al lado del camino de entrada de alguien. No es mágico, y (a menos que un visitante lo busque explícitamente) pueden deambular por su propiedad sin verse afectados por su existencia. Hay equivalentes en Internet de proyectores y cercas de alambre de púas, pero si eso es lo que quieres,robots.txt
¿no?