(Además de la respuesta de @ John.)
¿Hay alguna forma de decirle a Google que no indexe ese sitio?
Es curioso que, si bien parecen haber clonado todo (incluidos los mapas de sitio XML * 1 ), no han clonado el archivo robots.txt. De hecho, el archivo robots.txt en ese sitio bloquea activamente el rastreo de todo. Por lo tanto, no parece haber nada que hacer a este respecto. Hacer una búsqueda en el sitio en ese dominio devuelve solo el dominio simple y un aviso que indica que está bloqueado por robots.txt.
(¿Tienes curiosidad por saber cuál sería su intención al hacer esto? ¿Podrías suponer que cometieron un error con robots.txt, y tal vez sea así, pero esto me parece más una excepción deliberada?)
Además, aunque sus mapas de sitio XML están clonados, no están actualizando las URL en ellos (como lo están haciendo en las páginas principales del sitio), por lo que todavía están apuntando hacia su sitio.
* 1 Con respecto a los mapas de sitio XML. En su sitio, "sitemap.xml" es en realidad una redirección a "sitemap_index.xml" y el sitio clonado realmente ha clonado la redirección ... ¡que redirige a su sitio! (Seguramente un error de su parte). "Sitemap_index.xml" es solo un índice, que enlaza con otros 4 mapas de sitio. Si alguno de estos mapas de sitio reales se solicita directamente en el sitio clonado, se clonará correctamente y se actualizarán las URL. Sin embargo, habría dicho que es poco probable que estos mapas de sitio se encuentren en el sitio clonado debido a la redirección inicial de "sitemap.xml". (?) Aunque si enviaran "sitemap_index.xml" directamente, eso obviamente evitaría la redirección.