¿Cómo puedo descargar un sitio web completo?


351

¿Cómo puedo descargar todas las páginas de un sitio web?

Cualquier plataforma está bien.



@tnorthcutt, yo también estoy sorprendido. Si no recuerdo muy mal, mi respuesta Wget solía ser la aceptada, y esto parecía una cosa resuelta. Sin embargo, no me quejo: de repente, la atención renovada me dio más que el valor de la recompensa de la recompensa. : P
Jonik

intentaste IDM? superuser.com/questions/14403/… mi publicación está enterrada. ¿Qué encontraste perdido en IDM?
Lazer

55
@joe: Podría ayudar si proporcionara detalles sobre cuáles son las características que faltan ...
Ilari Kajaste

browse-offline.com puede descargar el árbol completo del sitio web para que pueda ... navegar fuera de línea
Menelaos Vergis

Respuestas:


334

HTTRACK funciona como un campeón para copiar el contenido de un sitio completo. Esta herramienta puede incluso tomar las piezas necesarias para hacer que un sitio web con contenido de código activo funcione sin conexión. Estoy sorprendido por las cosas que puede replicar sin conexión.

Este programa hará todo lo que necesite de él.

¡Feliz cacería!


77
He estado usando esto durante años, muy recomendable.
Umber Ferrule

44
¿Copiaría esto el código ASP real que se ejecuta en el servidor?
Taptronic

8
@Optimal Solutions: No, eso no es posible. Necesitaría acceso a los servidores o al código fuente para eso.
Sasha Chedygov

2
Después de probar httrack y wget para sitios con autorización, tengo que inclinarme a favor de wget. No se pudo hacer que httrack funcione en esos casos.
Leo

1
¿Cuál es la opción de autenticación?
vincent mathew

272

Wget es una herramienta clásica de línea de comandos para este tipo de tarea. Viene con la mayoría de los sistemas Unix / Linux, y también puede obtenerlo para Windows . En una Mac, Homebrew es la forma más fácil de instalarlo ( brew install wget).

Harías algo como:

wget -r --no-parent http://site.com/songs/

Para obtener más detalles, consulte el Manual de Wget y sus ejemplos , o por ejemplo, estos:


12
No hay mejor respuesta que esta: wget puede hacer cualquier cosa: 3
Phoshi

66
+1 por incluir el --no-parent. definitivamente use --mirror en lugar de -r. y es posible que desee incluir -L / - en relación con no seguir enlaces a otros servidores.
quack quijote

2
Como también pedí httrack.com, ¿esta herramienta de línea cmd obtendría el código ASP o solo obtendría la representación del HTML? Tengo que intentar esto. Esto podría ser un poco preocupante para los desarrolladores si lo hace ...
Taptronic

66
@optimal, la salida HTML, por supuesto, obtendría el código solo si el servidor estuviera mal configurado mal
Jonik

2
desafortunadamente no funciona para mí: hay un problema con los enlaces a archivos css, no se cambian a relativos, es decir, puede ver algo como esto en los archivos: <link rel = "stylesheet" type = "text / css" href = "/ static / css / reset.css" media = "screen" /> que no funciona bien localmente, a menos que haya un waz para engañar a firefox para que piense que cierto directorio es una raíz.
Gorn

148

Use wget:

wget -m -p -E -k www.example.com

Las opciones explicadas:

-m, --mirror            Turns on recursion and time-stamping, sets infinite 
                          recursion depth, and keeps FTP directory listings.
-p, --page-requisites   Get all images, etc. needed to display HTML page.
-E, --adjust-extension  Save HTML/CSS files with .html/.css extensions.
-k, --convert-links     Make links in downloaded HTML point to local files.

8
+1 por proporcionar las explicaciones de las opciones sugeridas. (Aunque no creo que --mirrorse explique por sí mismo. Aquí viene de la página del manual: " Esta opción activa la recursión y el sellado de tiempo, establece una profundidad de recursión infinita y mantiene listados de directorios FTP. Actualmente es equivalente a -r -N - l inf --no-remove-listing ")
Ilari Kajaste el

2
Si no desea descargar todo en una carpeta con el nombre del dominio que desea duplicar, cree su propia carpeta y use la opción -nH (que omite la parte del host).
Rafael Bugajewski

2
¿Qué pasa si se requiere la autenticación?
Val

44
Intenté usar tu wget --mirror -p --html-extension --convert-links www.example.comy acabo de descargar el índice. Creo que necesitas -rdescargar todo el sitio.
Eric Brotto

44
Para aquellos preocupados por matar un sitio debido al tráfico / demasiadas solicitudes, use el -w seconds(para esperar un número de segundos entre las solicitudes, o el --limit-rate=amount, para especificar el ancho de banda máximo para usar durante la descarga
vlad-ardelean


8

Internet Download Manager tiene una utilidad Site Grabber con muchas opciones, que le permite descargar completamente cualquier sitio web que desee, de la manera que lo desee.

  1. Puede establecer el límite en el tamaño de las páginas / archivos para descargar

  2. Puede establecer el número de sucursales para visitar

  3. Puede cambiar la forma en que se comportan los scripts / ventanas emergentes / duplicados

  4. Puede especificar un dominio, solo bajo ese dominio se descargarán todas las páginas / archivos que cumplan con la configuración requerida

  5. Los enlaces se pueden convertir en enlaces sin conexión para navegar

  6. Tiene plantillas que le permiten elegir la configuración anterior para usted

ingrese la descripción de la imagen aquí

Sin embargo, el software no es gratuito; vea si se adapta a sus necesidades, use la versión de evaluación.



5

Abordaré el almacenamiento en línea que usan los navegadores ...

Por lo general, la mayoría de los navegadores utilizan una memoria caché de navegación para mantener los archivos que descarga de un sitio web durante un tiempo para que no tenga que descargar imágenes estáticas y contenido una y otra vez. Esto puede acelerar un poco las cosas en algunas circunstancias. En términos generales, la mayoría de las memorias caché del navegador están limitadas a un tamaño fijo y cuando alcanza ese límite, eliminará los archivos más antiguos de la memoria caché.

Los ISP tienden a tener servidores de almacenamiento en caché que mantienen copias de sitios web de acceso común como ESPN y CNN. Esto les ahorra la molestia de visitar estos sitios cada vez que alguien en su red va allí. Esto puede suponer un ahorro significativo en la cantidad de solicitudes duplicadas a sitios externos para el ISP.




4

No he hecho esto en muchos años, pero todavía hay algunas utilidades por ahí. Es posible que desee probar Web Snake . Creo que lo usé hace años. Recordé el nombre de inmediato cuando leí tu pregunta.

Estoy de acuerdo con Stecy. Por favor no martillee su sitio. Muy mal.


3

Prueba el navegador BackStreet .

Es un navegador sin conexión potente y gratuito. Un programa de descarga y visualización de sitios web de alta velocidad y subprocesos múltiples. Al realizar múltiples solicitudes simultáneas del servidor, BackStreet Browser puede descargar rápidamente todo el sitio web o parte de un sitio incluyendo HTML, gráficos, Applets Java, sonido y otros archivos definibles por el usuario, y guarda todos los archivos en su disco duro, ya sea en su formato nativo, o como un archivo ZIP comprimido y ver sin conexión.

ingrese la descripción de la imagen aquí


3

Teleport Pro es otra solución gratuita que copiará todos y cada uno de los archivos de cualquier destino (también tiene una versión paga que le permitirá extraer más páginas de contenido).


3

DownThemAll es un complemento de Firefox que descargará todo el contenido (archivos de audio o video, por ejemplo) para una página web en particular con un solo clic. Esto no descarga todo el sitio, pero esto puede ser algo que la pregunta estaba buscando.


Solo es capaz de descargar enlaces (HTML) y medios (imágenes).
Ain

3

Para Linux y OS X: escribí grab-site para archivar sitios web completos en archivos WARC . Estos archivos WARC se pueden examinar o extraer. grab-site le permite controlar qué URL omitir utilizando expresiones regulares, y estas se pueden cambiar cuando se está ejecutando el rastreo. También viene con un amplio conjunto de valores predeterminados para ignorar las URL basura.

Hay un panel web para monitorear los rastreos, así como opciones adicionales para omitir el contenido de video o las respuestas de más de un tamaño determinado.



0

El venerable FreeDownloadManager.org también tiene esta característica.

Free Download Manager lo tiene de dos formas en dos formas: Site Explorer y Site Spider :

Site Explorer
Site Explorer le permite ver la estructura de carpetas de un sitio web y descargar fácilmente los archivos o carpetas necesarios.
HTML Spider
Puede descargar páginas web completas o incluso sitios web completos con HTML Spider. La herramienta se puede ajustar para descargar archivos solo con extensiones especificadas.

Creo que Site Explorer es útil para ver qué carpetas incluir / excluir antes de intentar intentar descargar todo el sitio, especialmente cuando hay un foro completo oculto en el sitio que no desea descargar, por ejemplo.



-3

Firefox puede hacerlo de forma nativa (al menos FF 42 puede). Solo usa "Guardar página"

ingrese la descripción de la imagen aquí


66
¡Incorrecto! La pregunta pregunta cómo guardar un sitio web completo. Firefox no puede hacer eso.

2
Su método solo funciona si es un sitio de una página, pero si el sitio tiene 699 páginas. Sería muy agotador ...
Quidam

-4

Creo que Google Chrome puede hacer esto en dispositivos de escritorio, solo vaya al menú del navegador y haga clic en Guardar página web.

También tenga en cuenta que los servicios como el bolsillo en realidad pueden no guardar el sitio web y, por lo tanto, son susceptibles a la pudrición de enlaces.

Por último, tenga en cuenta que copiar los contenidos de un sitio web puede infringir los derechos de autor, si corresponde.


3
Una página web en su navegador es solo una de muchas de un sitio web .
Arjan

@Arjan, supongo que eso hace que mi opción requiera mucho trabajo Creo que es más común que las personas solo quieran guardar una página, por lo que esta respuesta puede ser mejor para aquellas personas que vienen aquí para eso.
jiggunjer
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.