¿Cómo descargar un sitio web de la máquina Wayback de archive.org?


84

Quiero obtener todos los archivos de un sitio web determinado en archive.org. Las razones pueden incluir:

  • el autor original no archivó su propio sitio web y ahora está fuera de línea, quiero hacer un caché público a partir de él
  • Soy el autor original de algún sitio web y perdí parte del contenido. Quiero recuperarlo
  • ...

Cómo puedo hacer eso ?

Teniendo en cuenta que la máquina de retroceso archive.org es muy especial: los enlaces de las páginas web no apuntan al archivo en sí, sino a una página web que podría no estar allí. JavaScript se usa del lado del cliente para actualizar los enlaces, pero un truco como un wget recursivo no funcionará.


14
Me he encontrado con el mismo problema y he codificado una gema. Para instalar: gem install wayback_machine_downloader. Ejecute wayback_machine_downloader con la URL base del sitio web que desea recuperar como parámetro: wayback_machine_downloader http://example.comMás información: github.com/hartator/wayback_machine_downloader
Hartator

3
Una ayuda paso a paso para usuarios de Windows (win8.1 64 bits para mí) nuevo en Ruby, esto es lo que hice para que funcione: 1) Instalé rubyinstaller.org/downloads y luego ejecuté el "rubyinstaller-2.2.3-x64 .exe "2) descargué el archivo zip github.com/hartator/wayback-machine-downloader/archive/… 3) descomprimí el zip en mi computadora 4) busqué en el menú de inicio de Windows" Iniciar símbolo del sistema con Ruby "(para ser continúa)
Erb

3
5) siga las instrucciones de github.com/hartator/wayback_machine_downloader (e; .g: copie y pegue esta "instalación de gemas wayback_machine_downloader" en la solicitud. Presione enter e instalará el programa ... luego siga las pautas de "Uso"). 6) una vez capturado su sitio web, encontrará los archivos en C: \ Users \ YOURusername \ websites
Erb

Respuestas:


64

Intenté diferentes formas de descargar un sitio y finalmente encontré el descargador de máquinas de wayback, que fue mencionado por Hartator antes (así que todos los créditos van a él, por favor), pero simplemente no noté su comentario a la pregunta. Para ahorrarle tiempo, decidí agregar la gema wayback_machine_downloader como respuesta separada aquí.

El sitio en http://www.archiveteam.org/index.php?title=Restoring enumera estas formas de descargar desde archive.org:

  • Wayback Machine Downloader , pequeña herramienta en Ruby para descargar cualquier sitio web de Wayback Machine. Gratis y de código abierto. ¡Mi elección!
  • Warrick - El sitio principal parece inactivo.
  • Wayback Downloader , un servicio que descargará su sitio desde Wayback Machine e incluso agregará un complemento para Wordpress. No gratuito.

También escribió un "descargador wayback", en php, la descarga de los recursos, el ajuste de enlaces, etc.: gist.github.com/divinity76/85c01de416c541578342580997fa6acf
hanshenrik

@ComicSans, en la página que ha vinculado, ¿qué es una captura de equipo de archivo ?
Pacerier

1
Octubre de 2018, el Wayback Machine Downloader todavía funciona.
Ese tipo brasileño el

@Pacerier significa (conjuntos de) archivos WARC producidos por Archive Team (y generalmente alimentados a la máquina de retroceso de Internet Archive), consulte archive.org/details/archiveteam
Nemo

13

Esto se puede hacer usando un script de shell bash combinado conwget .

La idea es utilizar algunas de las funciones de URL de la máquina wayback:

  • http://web.archive.org/web/*/http://domain/*enumerará todas las páginas guardadas de forma http://domain/recursiva. Se puede utilizar para construir un índice de páginas para descargar y evitar heurísticas para detectar enlaces en páginas web. Para cada enlace, también está la fecha de la primera versión y la última versión.
  • http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/pageenumerará todas las versiones del http://domain/pageaño AAAA. Dentro de esa página, se pueden encontrar enlaces específicos a las versiones (con marca de tiempo exacta)
  • http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/pagedevolverá la página no modificada http://domain/pageen la marca de tiempo dada. Observe el token id_ .

Estos son los conceptos básicos para crear un script para descargar todo desde un dominio determinado.


77
Realmente debería usar la API en su lugar archive.org/help/wayback_api.php Las páginas de ayuda de Wikipedia son para editores, no para el público en general. De modo que esa página se centra en la interfaz gráfica, que es reemplazada e inadecuada para esta tarea.
Nemo

Probablemente sería más fácil decir simplemente tomar la URL (como http://web.archive.org/web/19981202230410/http://www.google.com/) y agregar id_al final de los "números de fecha". Entonces, obtendrías algo así http://web.archive.org/web/19981202230410id_/http://www.google.com/.
haykam

1
Un script de Python también se puede encontrar aquí: gist.github.com/ingamedeo/…
Amedeo Baragiola

4

Hay una herramienta diseñada específicamente para este propósito, Warrick: https://code.google.com/p/warrick/

Está basado en el protocolo Memento.


3
Hasta donde logré usar esto (en mayo de 2017), solo recupera lo que archive.is contiene e ignora lo que está en archive.org; También trata de obtener documentos e imágenes de los cachés de Google / Yahoo, pero falla por completo. Warrick ha sido clonado varias veces en GitHub desde que Google Code se cerró, tal vez hay algunas versiones mejores allí.
Gwyneth Llewelyn

0

Puedes hacer esto fácilmente con wget.

wget -rc --accept-regex '.*ROOT.*' START

¿Dónde ROOTestá la URL raíz del sitio web y STARTes la URL inicial? Por ejemplo:

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

Tenga en cuenta que debe omitir el marco de ajuste del archivo web para STARTURL. En la mayoría de los navegadores, puede hacer clic derecho en la página y seleccionar "Mostrar solo este marco".

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.