¿Cómo puedo descargar todas las páginas de un sitio web?
Cualquier plataforma está bien.
¿Cómo puedo descargar todas las páginas de un sitio web?
Cualquier plataforma está bien.
Respuestas:
HTTRACK funciona como un campeón para copiar el contenido de un sitio completo. Esta herramienta puede incluso tomar las piezas necesarias para hacer que un sitio web con contenido de código activo funcione sin conexión. Estoy sorprendido por las cosas que puede replicar sin conexión.
Este programa hará todo lo que necesite de él.
¡Feliz cacería!
Wget es una herramienta clásica de línea de comandos para este tipo de tarea. Viene con la mayoría de los sistemas Unix / Linux, y también puede obtenerlo para Windows . En una Mac, Homebrew es la forma más fácil de instalarlo ( brew install wget
).
Harías algo como:
wget -r --no-parent http://site.com/songs/
Para obtener más detalles, consulte el Manual de Wget y sus ejemplos , o por ejemplo, estos:
Use wget:
wget -m -p -E -k www.example.com
Las opciones explicadas:
-m, --mirror Turns on recursion and time-stamping, sets infinite
recursion depth, and keeps FTP directory listings.
-p, --page-requisites Get all images, etc. needed to display HTML page.
-E, --adjust-extension Save HTML/CSS files with .html/.css extensions.
-k, --convert-links Make links in downloaded HTML point to local files.
--mirror
se explique por sí mismo. Aquí viene de la página del manual: " Esta opción activa la recursión y el sellado de tiempo, establece una profundidad de recursión infinita y mantiene listados de directorios FTP. Actualmente es equivalente a -r -N - l inf --no-remove-listing ")
wget --mirror -p --html-extension --convert-links www.example.com
y acabo de descargar el índice. Creo que necesitas -r
descargar todo el sitio.
-w seconds
(para esperar un número de segundos entre las solicitudes, o el --limit-rate=amount
, para especificar el ancho de banda máximo para usar durante la descarga
Deberías echar un vistazo a ScrapBook , una extensión de Firefox. Tiene un modo de captura en profundidad .
Internet Download Manager tiene una utilidad Site Grabber con muchas opciones, que le permite descargar completamente cualquier sitio web que desee, de la manera que lo desee.
Puede establecer el límite en el tamaño de las páginas / archivos para descargar
Puede establecer el número de sucursales para visitar
Puede cambiar la forma en que se comportan los scripts / ventanas emergentes / duplicados
Puede especificar un dominio, solo bajo ese dominio se descargarán todas las páginas / archivos que cumplan con la configuración requerida
Los enlaces se pueden convertir en enlaces sin conexión para navegar
Tiene plantillas que le permiten elegir la configuración anterior para usted
Sin embargo, el software no es gratuito; vea si se adapta a sus necesidades, use la versión de evaluación.
Abordaré el almacenamiento en línea que usan los navegadores ...
Por lo general, la mayoría de los navegadores utilizan una memoria caché de navegación para mantener los archivos que descarga de un sitio web durante un tiempo para que no tenga que descargar imágenes estáticas y contenido una y otra vez. Esto puede acelerar un poco las cosas en algunas circunstancias. En términos generales, la mayoría de las memorias caché del navegador están limitadas a un tamaño fijo y cuando alcanza ese límite, eliminará los archivos más antiguos de la memoria caché.
Los ISP tienden a tener servidores de almacenamiento en caché que mantienen copias de sitios web de acceso común como ESPN y CNN. Esto les ahorra la molestia de visitar estos sitios cada vez que alguien en su red va allí. Esto puede suponer un ahorro significativo en la cantidad de solicitudes duplicadas a sitios externos para el ISP.
Me gusta Offline Explorer .
Es un shareware, pero es muy bueno y fácil de usar.
No he hecho esto en muchos años, pero todavía hay algunas utilidades por ahí. Es posible que desee probar Web Snake . Creo que lo usé hace años. Recordé el nombre de inmediato cuando leí tu pregunta.
Estoy de acuerdo con Stecy. Por favor no martillee su sitio. Muy mal.
Prueba el navegador BackStreet .
Es un navegador sin conexión potente y gratuito. Un programa de descarga y visualización de sitios web de alta velocidad y subprocesos múltiples. Al realizar múltiples solicitudes simultáneas del servidor, BackStreet Browser puede descargar rápidamente todo el sitio web o parte de un sitio incluyendo HTML, gráficos, Applets Java, sonido y otros archivos definibles por el usuario, y guarda todos los archivos en su disco duro, ya sea en su formato nativo, o como un archivo ZIP comprimido y ver sin conexión.
Teleport Pro es otra solución gratuita que copiará todos y cada uno de los archivos de cualquier destino (también tiene una versión paga que le permitirá extraer más páginas de contenido).
DownThemAll es un complemento de Firefox que descargará todo el contenido (archivos de audio o video, por ejemplo) para una página web en particular con un solo clic. Esto no descarga todo el sitio, pero esto puede ser algo que la pregunta estaba buscando.
Para Linux y OS X: escribí grab-site para archivar sitios web completos en archivos WARC . Estos archivos WARC se pueden examinar o extraer. grab-site le permite controlar qué URL omitir utilizando expresiones regulares, y estas se pueden cambiar cuando se está ejecutando el rastreo. También viene con un amplio conjunto de valores predeterminados para ignorar las URL basura.
Hay un panel web para monitorear los rastreos, así como opciones adicionales para omitir el contenido de video o las respuestas de más de un tamaño determinado.
Si bien wget ya se mencionó, este recurso y la línea de comando eran tan fluidos que pensé que merecía mención:
wget -P /path/to/destination/directory/ -mpck --user-agent="" -e robots=off --wait 1 -E https://www.example.com/
El venerable FreeDownloadManager.org también tiene esta característica.
Free Download Manager lo tiene de dos formas en dos formas: Site Explorer y Site Spider :
Site Explorer
Site Explorer le permite ver la estructura de carpetas de un sitio web y descargar fácilmente los archivos o carpetas necesarios.
HTML Spider
Puede descargar páginas web completas o incluso sitios web completos con HTML Spider. La herramienta se puede ajustar para descargar archivos solo con extensiones especificadas.
Creo que Site Explorer es útil para ver qué carpetas incluir / excluir antes de intentar intentar descargar todo el sitio, especialmente cuando hay un foro completo oculto en el sitio que no desea descargar, por ejemplo.
Descarga HTTracker, descargará sitios web muy fáciles de seguir.
enlace de descarga: http://www.httrack.com/page/2/
video que puede ayudarlo: https://www.youtube.com/watch?v=7IHIGf6lcL4
Creo que Google Chrome puede hacer esto en dispositivos de escritorio, solo vaya al menú del navegador y haga clic en Guardar página web.
También tenga en cuenta que los servicios como el bolsillo en realidad pueden no guardar el sitio web y, por lo tanto, son susceptibles a la pudrición de enlaces.
Por último, tenga en cuenta que copiar los contenidos de un sitio web puede infringir los derechos de autor, si corresponde.