Estoy tratando de reflejar un blog, por ejemplo www.example.com
, con wget
.
Uso wget con las siguientes opciones (las variables de shell se sustituyen correctamente):
wget -m -p -H -k -E -np \
-w 1 \
--random-wait \
--restrict-file-names=windows \
-P $folder \
-Q${quota}m \
-t 3 \
--referer=$url \
-U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
-e robots=off \
-D $domains
-- $url
El blog contiene imágenes que residen en otros dominios.
Aunque he especificado la -p
opción (descargar activos de página vinculados), estas imágenes no se descargan a menos que especifique cada dominio explícitamente en la -D
opción.
Si omito la -D
opción, wget seguirá cada enlace externo www.example.com
y descargará todo el Internet.
¿Es posible wget
simplemente seguir cada enlace debajo www.example.com
y descargar los activos requeridos de cada página, ya sea que residan en el mismo dominio o no sin que tenga que especificar cada dominio explícitamente?
-D $domains
como el -H
. Sin -H
él, debe permanecer dentro de su dominio pero aún recuperar los activos de la página directa, incluso cuando están en un dominio diferente.
wget -N -E -H -k -K -p
primero, y se me ocurrió una secuencia de comandos para recuperar las imágenes vinculadas que faltan.