Respuestas:
Según la información sobre el acceso del robot a nuestras páginas :
El acceso del robot a nuestro sitio debe dejarse como último recurso, cuando todo lo demás ha fallado. Además, recuerde que el sitio web del Proyecto Gutenberg tiene derechos de autor.
Sin embargo, hay esperanza :
Mejores alternativas
- Obtenga una versión sin conexión del sitio web del Proyecto Gutenberg.
- Obtenga todos los archivos de libros electrónicos del Proyecto Gutenberg.
- Obtenga los datos del catálogo del Proyecto Gutenberg.
Y:
[...] Puede obtener todos nuestros eBooks en archivos comprimidos señalando su robot en http://www.gutenberg.org/robot/harvest
[...] Desempaquetar los archivos zip producirá otros 70,000 archivos.
Este es un ejemplo de cómo obtener todos los archivos usando
wget
:wget -w 2 -m http://www.gutenberg.org/robot/harvest
[...] Si solo quieres algunos tipos de archivos, di:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt
[...] Si solo desea archivos en un idioma determinado, diga:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?langs[]=de
Entonces, yo pregunto:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en
--level=0
. Pero supongo que es mejor que permita abortar y reiniciar: intente --level 9999 --no-clobber
, lo que omitirá los archivos que ya tiene (suponiendo que todavía esté en la misma carpeta en el disco).
--input-file
en el manual .
-c
opción, pero aún así. Di offset=xxx
la URL para que se refleje pero aún se está descargando desde la primera página.
Puede descargar la colección completa de libros en inglés y otros idiomas de Gutenberg en un solo archivo ZIM, que está muy comprimido y luego se puede abrir con Kiwix tanto en el escritorio como en Android. Los libros en inglés son de 40 GB.
Si bien la respuesta seleccionada es correcta, potencialmente causará dos problemas:
wget
comando fallará, es verificaciones recursivas al descargar los archivos desde un espejo externo.La siguiente solución corrige estos problemas:
wget -H -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en \
--referer="http://www.google.com" \
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6" \
--header="Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5" \
--header="Accept-Language: en-us,en;q=0.5" \
--header="Accept-Encoding: gzip,deflate" \
--header="Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7" \
--header="Keep-Alive: 300"
Es posible que desee cambiar las cadenas de referencia y de agente de usuario para proporcionar un poco de aleatoriedad.
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso tiene un par de buenas opciones.
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso/pgdvd042010.iso es un archivo de 8GB que debería ser suficiente para sus necesidades.
Hay más información aquí:
https://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project#Downloading_Via_FTP , ofrece todas las opciones para descargar el archivo, incluidos FTP y BitTorrent.
Otra opción es la gran herramienta en http://pgiso.pglaf.org/ .
¿Por qué no utilizar todas sus habilidades y conocimientos de programación demasiado complicados y mostrados arriba para crear un botón simple que vincule todas esas acciones y diga "Descargar todos los libros actuales" con una pestaña de opción de idioma cuando hace clic en él.
Estoy seguro de que la mayoría de los usuarios que visitan el sitio son coleccionistas de libros electrónicos, y la descarga manual de ciertos libros sobre temas que les interesan está bien para 1 o 2 libros. Pero hacer una colección más grande manualmente es un lastre. Sin embargo, si lo necesitan para investigación o simplemente desean tener una enorme biblioteca digital de libros en su propia PC. La mayoría de las personas se apagan y se dispersan del sitio cuando se dan cuenta de que tienen que ser un asistente de computadora para hacer esto. Por lo tanto, un botón "Descargar todos los libros actuales" beneficiaría al proyecto y a sus usuarios, y ciertamente producirá aún más visitantes al sitio. De esa manera todos están felices.