¿Cómo descargar un sitio web de la máquina Wayback de archive.org?

84

Quiero obtener todos los archivos de un sitio web determinado en archive.org. Las razones pueden incluir:

el autor original no archivó su propio sitio web y ahora está fuera de línea, quiero hacer un caché público a partir de él
Soy el autor original de algún sitio web y perdí parte del contenido. Quiero recuperarlo
...

Cómo puedo hacer eso ?

Teniendo en cuenta que la máquina de retroceso archive.org es muy especial: los enlaces de las páginas web no apuntan al archivo en sí, sino a una página web que podría no estar allí. JavaScript se usa del lado del cliente para actualizar los enlaces, pero un truco como un wget recursivo no funcionará.

archiving web

— user36520
fuente

14

Me he encontrado con el mismo problema y he codificado una gema. Para instalar: gem install wayback_machine_downloader. Ejecute wayback_machine_downloader con la URL base del sitio web que desea recuperar como parámetro: wayback_machine_downloader http://example.comMás información: github.com/hartator/wayback_machine_downloader

— Hartator

3

Una ayuda paso a paso para usuarios de Windows (win8.1 64 bits para mí) nuevo en Ruby, esto es lo que hice para que funcione: 1) Instalé rubyinstaller.org/downloads y luego ejecuté el "rubyinstaller-2.2.3-x64 .exe "2) descargué el archivo zip github.com/hartator/wayback-machine-downloader/archive/… 3) descomprimí el zip en mi computadora 4) busqué en el menú de inicio de Windows" Iniciar símbolo del sistema con Ruby "(para ser continúa)

— Erb

3

5) siga las instrucciones de github.com/hartator/wayback_machine_downloader (e; .g: copie y pegue esta "instalación de gemas wayback_machine_downloader" en la solicitud. Presione enter e instalará el programa ... luego siga las pautas de "Uso"). 6) una vez capturado su sitio web, encontrará los archivos en C: \ Users \ YOURusername \ websites

— Erb

64

Intenté diferentes formas de descargar un sitio y finalmente encontré el descargador de máquinas de wayback, que fue mencionado por Hartator antes (así que todos los créditos van a él, por favor), pero simplemente no noté su comentario a la pregunta. Para ahorrarle tiempo, decidí agregar la gema wayback_machine_downloader como respuesta separada aquí.

El sitio en http://www.archiveteam.org/index.php?title=Restoring enumera estas formas de descargar desde archive.org:

Wayback Machine Downloader , pequeña herramienta en Ruby para descargar cualquier sitio web de Wayback Machine. Gratis y de código abierto. ¡Mi elección!
Warrick - El sitio principal parece inactivo.
Wayback Downloader , un servicio que descargará su sitio desde Wayback Machine e incluso agregará un complemento para Wordpress. No gratuito.

— Comic Sans
fuente

También escribió un "descargador wayback", en php, la descarga de los recursos, el ajuste de enlaces, etc.: gist.github.com/divinity76/85c01de416c541578342580997fa6acf

— hanshenrik

@ComicSans, en la página que ha vinculado, ¿qué es una captura de equipo de archivo ?

— Pacerier

1

Octubre de 2018, el Wayback Machine Downloader todavía funciona.

— Ese tipo brasileño el

@Pacerier significa (conjuntos de) archivos WARC producidos por Archive Team (y generalmente alimentados a la máquina de retroceso de Internet Archive), consulte archive.org/details/archiveteam

— Nemo

13

Esto se puede hacer usando un script de shell bash combinado conwget .

La idea es utilizar algunas de las funciones de URL de la máquina wayback:

http://web.archive.org/web/*/http://domain/*enumerará todas las páginas guardadas de forma http://domain/recursiva. Se puede utilizar para construir un índice de páginas para descargar y evitar heurísticas para detectar enlaces en páginas web. Para cada enlace, también está la fecha de la primera versión y la última versión.
http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/pageenumerará todas las versiones del http://domain/pageaño AAAA. Dentro de esa página, se pueden encontrar enlaces específicos a las versiones (con marca de tiempo exacta)
http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/pagedevolverá la página no modificada http://domain/pageen la marca de tiempo dada. Observe el token id_ .

Estos son los conceptos básicos para crear un script para descargar todo desde un dominio determinado.

— user36520
fuente

77

Realmente debería usar la API en su lugar archive.org/help/wayback_api.php Las páginas de ayuda de Wikipedia son para editores, no para el público en general. De modo que esa página se centra en la interfaz gráfica, que es reemplazada e inadecuada para esta tarea.

— Nemo

Probablemente sería más fácil decir simplemente tomar la URL (como http://web.archive.org/web/19981202230410/http://www.google.com/) y agregar id_al final de los "números de fecha". Entonces, obtendrías algo así http://web.archive.org/web/19981202230410id_/http://www.google.com/.

— haykam

1

Un script de Python también se puede encontrar aquí: gist.github.com/ingamedeo/…

— Amedeo Baragiola

4

Hay una herramienta diseñada específicamente para este propósito, Warrick: https://code.google.com/p/warrick/

Está basado en el protocolo Memento.

— Nemo
fuente

3

Hasta donde logré usar esto (en mayo de 2017), solo recupera lo que archive.is contiene e ignora lo que está en archive.org; También trata de obtener documentos e imágenes de los cachés de Google / Yahoo, pero falla por completo. Warrick ha sido clonado varias veces en GitHub desde que Google Code se cerró, tal vez hay algunas versiones mejores allí.

— Gwyneth Llewelyn

0

Puedes hacer esto fácilmente con wget.

wget -rc --accept-regex '.*ROOT.*' START

¿Dónde ROOTestá la URL raíz del sitio web y STARTes la URL inicial? Por ejemplo:

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

Tenga en cuenta que debe omitir el marco de ajuste del archivo web para STARTURL. En la mayoría de los navegadores, puede hacer clic derecho en la página y seleccionar "Mostrar solo este marco".

— jcoffland
fuente