Alternativas a wget

13

Tengo un sitio en un servidor que es básicamente un montón de páginas HTML, imágenes y sonidos.

He perdido mi contraseña en ese servidor y necesito tomar todo lo que está almacenado allí. Puedo ir página por página y guardar todo, pero el sitio tiene más de 100 páginas.

Estoy usando OSX. He intentado usar wgetpero creo que el servidor está bloqueando eso.

¿Hay alguna alternativa que pueda usar para obtener ese contenido?

wget

— Perro espacial
fuente

Si tiene acceso físico al servidor, inicie en modo de usuario único y recupere su contraseña. debuntu.org/…

— spuder

15

Si el servidor está bloqueando wget, lo más probable es que lo haga sobre la base del campo "User-agent:" del encabezado http, ya que esa es la única forma en que puede saberlo en primer lugar. También podría estar bloqueando su IP, en cuyo caso el uso de un software diferente no ayudará, o algún esquema que identifique la automatización en función de lo rápido que es un conjunto de solicitudes (ya que las personas reales no navegan 100 páginas en 3.2 segundos) . No he oído hablar de nadie haciendo eso, pero es posible.

Tampoco he oído hablar de una forma de ralentizar wget, pero hay una manera de burlar el campo de agente de usuario:

wget --user-agent=""

De acuerdo con la página del manual, soltará "User-agent:" por completo, ya que no es obligatorio. Si al servidor no le gusta eso, pruebe --user-agent="Mozilla/5.0"cuál debería ser lo suficientemente bueno.

Por supuesto, sería útil explicar mejor por qué "cree que el servidor está bloqueando eso". ¿Wget dice algo o simplemente se detiene?

— encerrada dorada
fuente

¡Oh si! Gracias. He echado de menos eso en la ayuda de wget. ¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡Está trabajando ahora!!!!!!!!!!!!!!!!!!!!!!!!

— SpaceDog

55

wgettiene una serie de opciones para esperar entre consultas, limitar la velocidad o la cantidad descargada. Consulte la infopágina para más detalles.

— Stéphane Chazelas

6

Usualmente lo uso httrackpara descargar / duplicar contenido web de un sitio.

$ httrack http://2011.example.com -K -w -O . -%v --robots=0 -c1 %e0

Después de que se ejecuta, queda una estructura de directorios que es local y explorable. Por ejemplo:

$ ls -l
total 304
-rw-r--r--  1 saml saml   4243 Aug 17 10:20 backblue.gif
-rw-r--r--  1 saml saml    828 Aug 17 10:20 fade.gif
drwx------  3 saml saml   4096 Aug 17 10:20 hts-cache
-rw-rw-r--  1 saml saml    233 Aug 17 10:20 hts-in_progress.lock
-rw-rw-r--  1 saml saml   1517 Aug 17 10:20 hts-log.txt
-rw-------  1 saml saml 271920 Aug 17 10:22 hts-nohup.out
-rw-r--r--  1 saml saml   5141 Aug 17 10:20 index.html
drwxr-xr-x 10 saml saml   4096 Aug 17 10:21 2011.example.com

A medida que se descarga, verá el siguiente tipo de salida:

Bytes saved:    21,89KiB           Links scanned:   12/45 (+4)
Time:   2s                         Files written:   4
Transfer rate:  2,65KiB/s (2,65KiB/s)  Files updated:   1
Active connections:     1          Errors:  7

Current job: parsing HTML file (57%)
 request -  2011.example.com/cgi-bin/hostnames.pl   0B /    8,00KiB

Puede tener antecedentes y / o abortarse y luego reanudarse. Esto es solo la punta del iceberg en términos de sus características. También hay una GUI para configurar una descarga y monitorearla a medida que avanza.

Existe una amplia documentación en el httracksitio web y en Google.

— slm
fuente