Descargar recursivamente con wget


32

Tengo un problema con el siguiente comando wget:

wget -nd -r -l 10 http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

Debe descargar de forma recursiva todos los documentos vinculados en la web original, pero solo descarga dos archivos ( index.htmly robots.txt).

¿Cómo puedo lograr la descarga recursiva de esta web?

Respuestas:


40

wgetde manera predeterminada respeta el estándar robots.txt para las páginas de rastreo, al igual que los motores de búsqueda, y para archive.org, no permite todo el subdirectorio / web /. Para anular, use -e robots=off,

wget -nd -r -l 10 -e robots=off http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

Gracias. ¿Hay alguna opción para almacenar cada enlace solo una vez? Tal vez debería disminuir 10a un número menor, pero es difícil de adivinar. Ahora hay un archivo introduction.html, introduction.html.1, introduction.html.2y yo en vez terminado el proceso.
xralf

Y los enlaces se dirigen a la web. ¿Es la --mirroropción para que los enlaces dirijan al sistema de archivos?
xralf

1
@xralf: bueno, está utilizando -nd, por lo que index.htmlse colocan diferentes correos electrónicos en el mismo directorio, y sin ellos -k, no podrá reescribir los enlaces.
Ulrich Schwarz

12
$ wget --random-wait -r -p -e robots=off -U Mozilla \
    http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

Descarga recursivamente el contenido de la url.

--random-wait - wait between 0.5 to 1.5 seconds between requests.
-r - turn on recursive retrieving.
-e robots=off - ignore robots.txt.
-U Mozilla - set the "User-Agent" header to "Mozilla". Though a better choice is a real User-Agent like "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729)".

Algunas otras opciones útiles son:

--limit-rate=20k - limits download speed to 20kbps.
-o logfile.txt - log the downloads.
-l 0 - remove recursion depth (which is 5 by default).
--wait=1h - be sneaky, download one file every hour.

-l 0 - remove recursion depth (which is 5 by default)+1
Dani
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.