Recientemente tuve un hack que agregó varios miles de páginas falsas a mi sitio.
Envié un mapa del sitio corregido a Google Search Console (anteriormente llamado Herramientas para webmasters) y cambié todos los enlaces a 410, pero Google todavía tenía la mayoría de ellos indexados.
Utilicé las herramientas de WebMaster: extensión de Chrome de eliminación masiva de URL para enviar automáticamente las URL para su eliminación. Básicamente es un script que toma una lista de las URL y luego las envía por usted, una a la vez. Tardará horas en enviarlos todos, pero al menos no tendrá que hacerlo usted mismo. Aquí hay un artículo sobre cómo usarlo .
Puede obtener una lista de las URL que Google está indexando descargando los datos directamente desde la Consola de búsqueda. Vaya a Estado> Cobertura de índice, seleccione los resultados válidos y luego desplácese hacia abajo. Verá que Google ha indexado una tonelada de URL que no están en su mapa del sitio. Puede descargar los primeros 1000 resultados. Aparentemente, hay una forma indirecta de obtenerlos a todos, no solo a los primeros mil, sino que involucra llamadas API de Excel. Esperé unos días entre cada mil, ya que lentamente cayeron del índice.
Otra ruta es hacer que un complemento WP cree un mapa del sitio, luego filtre los PDF o lo que sea que esté apuntando. Probablemente tendrá que hacer un poco de copia / pegar / borrar manual aquí. Solo para estar seguro, me desplacé lentamente por mi lista de aproximadamente 2.700 URL de spam y eliminé las URL legítimas. Solo tomó unos 20 minutos.
Si no está tratando de bombardear algo permanentemente, como el correo no deseado, y en su lugar está tratando de ofuscar recursos premium, debe usar otros métodos para evitar indexar esos recursos, como un archivo de robots. Pero si resulta que Google no escuchó o dejó caer la pelota, al menos ahora puede solucionar el problema y eliminarlos del índice en solo unos días.
En mi circunstancia particular, me pregunto por qué Google no tiene un botón de máquina del tiempo, o deshacer o restablecer. La idea es que puedo decirle a Google que el sitio fue pirateado hace unos días, pero lo hemos reparado, por lo tanto, deshacer los últimos x días de rastreo e indexación. Pero eso sería demasiado fácil.