Si su objetivo es que estas páginas no sean vistas por el público, es mejor poner una contraseña en este conjunto de páginas. Y / o tener alguna configuración que solo permita direcciones específicas en la lista blanca que puedan acceder al sitio (esto se puede hacer a nivel del servidor, probablemente a través de su host o administrador del servidor).
Si su objetivo es que estas páginas existan, simplemente no indexadas por Google u otros motores de búsqueda, como han mencionado otros, tiene algunas opciones, pero creo que es importante distinguir entre las dos funciones principales de Búsqueda de Google en este sentido: rastreo e indexación.
Rastreo versus indexación
Google rastrea su sitio, Google indexa su sitio. Los rastreadores encuentran páginas de su sitio, la indexación organiza las páginas de su sitio. Más información sobre esto un poco aquí .
Esta distinción es importante cuando se intenta bloquear o eliminar páginas del "Índice" de Google. Muchas personas prefieren simplemente bloquear a través de robots.txt, que es una directiva que le dice a Google qué (o qué no) rastrear. A menudo se supone que si Google no rastrea su sitio, es poco probable que lo indexe. Sin embargo, es extremadamente común ver páginas bloqueadas por robots.txt, indexadas en Google.
Directivas para Google y motores de búsqueda
Este tipo de "directivas" son meras recomendaciones a Google sobre qué parte de su sitio rastrear e indexar. No están obligados a seguirlos. Esto es importante saberlo. He visto a muchos desarrolladores a lo largo de los años pensar que pueden bloquear el sitio a través de robots.txt, y de repente el sitio está siendo indexado en Google unas semanas más tarde. Si alguien más enlaza con el sitio, o si uno de los rastreadores de Google de alguna manera lo controla, aún puede indexarse .
Recientemente, con el tablero actualizado de GSC (Google Search Console), tienen este informe llamado "Informe de cobertura de índice". Aquí hay nuevos datos disponibles para los webmasters que antes no estaban disponibles directamente, detalles específicos sobre cómo Google maneja un determinado conjunto de páginas. He visto y oído hablar de muchos sitios web que reciben "Advertencias", etiquetadas como "Indexadas, pero bloqueadas por Robots.txt".
La última documentación de Google menciona que si desea que las páginas salgan del índice, agregue etiquetas noindex nofollow.
Herramienta Eliminar URL
Solo para construir sobre lo que otros han mencionado sobre "Eliminar la herramienta de URL" ...
Si las páginas ya están indexadas y es urgente sacarlas, la "Herramienta para eliminar URLs" de Google le permitirá bloquear "temporalmente" las páginas de los resultados de búsqueda. La solicitud dura 90 días, pero la he usado para que las páginas se eliminen más rápido de Google que usar noindex, nofollow, algo así como una capa adicional.
Usando la herramienta "Eliminar URL", Google aún rastreará la página y posiblemente la almacenará en caché, pero mientras usa esta función, puede agregar las etiquetas noindex nofollow, para que las vea, y para cuando los 90 días sean arriba, es de esperar que ya no indexes tu página.
IMPORTANTE: el uso de las etiquetas robots.txt y noindex nofollow son señales algo conflictivas para Google.
La razón es que si le dice a google que no rastree una página, y luego no tiene nindex nofollow en esa página, es posible que no rastree para ver la etiqueta ninol nofollow. Luego puede indexarse a través de algún otro método (ya sea un enlace o no). Los detalles sobre por qué sucede esto son bastante vagos, pero lo he visto suceder.
En resumen, en mi opinión, la mejor manera de evitar que se indexen URL específicas es agregar una etiqueta noindex nofollow a esas páginas. Con eso, asegúrese de que no está bloqueando esas URL también con robots.txt, ya que eso podría evitar que Google vea correctamente esas etiquetas. Puede aprovechar la herramienta Eliminar URL de Google para ocultarlas temporalmente de los resultados de búsqueda mientras Google procesa su noindex nofollow.