Además de obedecer robots.txt, obedezca nofollow
y noindex
en <meta>
elementos y enlaces:
Hay muchos que creen que robots.txt no es la forma correcta de bloquear la indexación y, debido a ese punto de vista, han dado instrucciones a muchos propietarios de sitios para que confíen en la <meta name="robots" content="noindex">
etiqueta para decirle a los rastreadores web que no indexen una página.
Si está tratando de hacer un gráfico de conexiones entre sitios web (algo similar a PageRank),
(y <meta name="robots" content="nofollow">
) se supone que indica que el sitio de origen no confía en el sitio de destino lo suficiente como para darle un respaldo adecuado. Entonces, si bien puede indexar el sitio de destino, no debe almacenar la relación entre los dos sitios.
El SEO es más un arte que una ciencia real, y lo practican muchas personas que saben lo que están haciendo, y muchas personas que leen los resúmenes ejecutivos de las personas que saben lo que están haciendo. Te encontrarás con problemas en los que te bloquearán los sitios por hacer cosas que otros sitios encontraron perfectamente aceptables debido a alguna regla que alguien escuchó o leyó en una publicación de blog en SEOmoz que puede o no interpretarse correctamente.
Debido a ese elemento humano, a menos que sea Google, Microsoft o Yahoo !, se presume que es malicioso a menos que se demuestre lo contrario. Debe tener especial cuidado para actuar como si no fuera una amenaza para el propietario de un sitio web, y actuar de acuerdo con cómo desea que actúe un rastreador potencialmente malicioso (pero con suerte benigno):
- deje de rastrear un sitio una vez que detecte que está siendo bloqueado: 403 / 401s en páginas que sabe que funcionan, aceleración, tiempos de espera, etc.
- evite rastreos exhaustivos en períodos de tiempo relativamente cortos: rastree una parte del sitio y regrese más tarde (unos días más tarde) para rastrear otra parte. No haga solicitudes paralelas.
- evite rastrear áreas potencialmente sensibles: URL con
/admin/
ellas, por ejemplo.
Incluso entonces, será una batalla cuesta arriba, a menos que recurra a técnicas de sombrero negro como la suplantación de identidad o enmascarar deliberadamente sus patrones de rastreo: muchos propietarios de sitios, por las mismas razones anteriores, bloquearán un rastreador desconocido a la vista en lugar de tomar la posibilidad de que haya alguien que no intente "hackear su sitio". Prepárate para muchas fallas.
Una cosa que podría hacer para combatir la imagen negativa que tendrá un rastreador desconocido es dejar en claro en su cadena de agente de usuario quién es usted:
Aarobot Crawler 0.9 created by John Doe. See http://example.com/aarobot.html for more information.
Donde http://example.com/aarobot.html
explica lo que está tratando de lograr y por qué no es una amenaza. Esa página debería tener algunas cosas:
- Información sobre cómo contactarlo directamente
- Información sobre lo que recopila el rastreador y por qué lo está recopilando
- Información sobre cómo darse de baja y eliminar los datos recopilados
Esa última es clave: una buena opción de exclusión es como una garantía de devolución de dinero ™ y obtiene una buena cantidad de buena voluntad. Debería ser humano: un simple paso (ya sea una dirección de correo electrónico o, idealmente, un formulario) y completo (no debería haber ninguna "trampa": la exclusión voluntaria significa que deja de rastrear sin excepción).