Entonces, en todos nuestros sitios que no están orientados a la búsqueda, hemos aplicado un archivo robots.txt (por ¿Cómo excluir un sitio web de los resultados de búsqueda de Google en tiempo real? O cualquier otra pregunta similar).
Sin embargo, si los términos de búsqueda son lo suficientemente específicos, el dominio en sí se puede encontrar a través de los resultados. Un ejemplo de esto se puede encontrar aquí . Como puede ver en el enlace, se puede encontrar el dominio en sí (el contenido no está en caché, pero el dominio está en la lista). Además, realizar una búsqueda con site:hyundaidigitalmarketing.com
3 resultados. La comprobación de los vínculos de retroceso también proporciona algunos, pero obviamente no puedo evitarlos (los vínculos están permitidos en contexto) o controlar cómo se manejan (no puedo decirle al host que agregue nofollow, noindex).
Ahora, sé que este es un caso extremo grave, sin embargo, los clientes de mis empresas están haciendo exactamente esto. De hecho, nuestros dominios son bastante buenos, por lo que incluso las búsquedas aparentemente arbitrarias están arrojando resultados relevantes. Ahora, tengo que escribir un informe sobre cómo / por qué sucede esto.
Entonces, recurro a la maravillosa red de Stack Exchange para ayudarme a comprender lo que me falta o entender lo que está sucediendo. Los enlaces a artículos de la industria son extremadamente útiles, pero cualquier cosa que puedas dar es obviamente genial. Tengo la intención de ofrecer recompensas lo mejor que pueda para que esto sea una respuesta a la que recurrir en el futuro.
Editar: he abierto una recompensa por esta pregunta con la esperanza de obtener más respuestas al respecto. También proporcioné los resultados de mi propia investigación a continuación.