Descargar recursivamente con wget

32

Tengo un problema con el siguiente comando wget:

wget -nd -r -l 10 http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

Debe descargar de forma recursiva todos los documentos vinculados en la web original, pero solo descarga dos archivos ( index.htmly robots.txt).

¿Cómo puedo lograr la descarga recursiva de esta web?

wget

— xralf
fuente

40

wgetde manera predeterminada respeta el estándar robots.txt para las páginas de rastreo, al igual que los motores de búsqueda, y para archive.org, no permite todo el subdirectorio / web /. Para anular, use -e robots=off,

wget -nd -r -l 10 -e robots=off http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

— Ulrich Schwarz
fuente

Gracias. ¿Hay alguna opción para almacenar cada enlace solo una vez? Tal vez debería disminuir 10a un número menor, pero es difícil de adivinar. Ahora hay un archivo introduction.html, introduction.html.1, introduction.html.2y yo en vez terminado el proceso.

— xralf

Y los enlaces se dirigen a la web. ¿Es la --mirroropción para que los enlaces dirijan al sistema de archivos?

— xralf

1

@xralf: bueno, está utilizando -nd, por lo que index.htmlse colocan diferentes correos electrónicos en el mismo directorio, y sin ellos -k, no podrá reescribir los enlaces.

— Ulrich Schwarz

12

$ wget --random-wait -r -p -e robots=off -U Mozilla \
    http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

Descarga recursivamente el contenido de la url.

--random-wait - wait between 0.5 to 1.5 seconds between requests.
-r - turn on recursive retrieving.
-e robots=off - ignore robots.txt.
-U Mozilla - set the "User-Agent" header to "Mozilla". Though a better choice is a real User-Agent like "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729)".

Algunas otras opciones útiles son:

--limit-rate=20k - limits download speed to 20kbps.
-o logfile.txt - log the downloads.
-l 0 - remove recursion depth (which is 5 by default).
--wait=1h - be sneaky, download one file every hour.

— Nikhil Mulley
fuente

-l 0 - remove recursion depth (which is 5 by default)+1

— Dani