Me gustaría rastrear enlaces en www.website.com/XYZ y solo descargar los enlaces que están en www.website.com/ABC.
Estoy usando el siguiente comando wget para obtener los archivos que quiero:
wget -I ABC -r -e robots=off --wait 0.25 http://www.website.com/XYZ
Esto funciona perfectamente cuando uso wget 1.13.4. Pero el problema es que tengo que usar este comando en un servidor que tiene wget 1.11 y cuando uso el mismo comando, termina descargando dominios adicionales como:
www.website.de
www.website.it
...
¿Cómo puedo evitar este problema? Traté de usar
--exclude domains=www.website.de,www.website.it
sin embargo, siguió descargando esos dominios.
También tenga en cuenta que no puedo usar --no-parent
ya que los archivos que quiero están en el nivel superior (quiero archivos en website.com/ABC rastreando enlaces en website.com/XYZ).
¿Alguna pista?
wget
no debe cruzar hosts de forma predeterminada, y necesita la opción -H
/ --span-hosts
para cruzar hosts al hacer un wget recursivo. "www.website.com" es un host completamente diferente de "www.website.de".
-H
siempre se ha requerido que se repita fuera del host original. Ciervas -D www.website.com
ayuda?