Para evitar que su archivo PDF (o cualquier archivo que no sea HTML) aparezca en la lista de resultados de búsqueda, la única forma es usar el X-Robots-Tag
encabezado de respuesta HTTP , por ejemplo:
X-Robots-Tag: noindex
Puede hacerlo agregando el siguiente fragmento al archivo raíz del sitio .htaccess o al archivo httpd.conf:
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>
Tenga en cuenta que para que funcione lo anterior, debe poder modificar los encabezados HTTP del archivo en cuestión. Por lo tanto, es posible que no pueda hacer esto, por ejemplo, en las páginas de GitHub .
También tenga en cuenta que robots.txt no no evitar que su página de estar registrados en los resultados de búsqueda.
Lo que hace es evitar que el bot rastree su página, pero si un tercero vincula a su archivo PDF desde su sitio web, su página seguirá apareciendo en la lista.
Si evita que el bot rastree su página usando robots.txt , no tendrá la oportunidad de ver la X-Robots-Tag: noindex
etiqueta de respuesta. Por lo tanto, nunca rechace una página en robots.txt si utiliza el X-Robots-Tag
encabezado. Se puede encontrar más información en Google Developers: Robots Meta Tag .