En primer lugar, esto parece ser un problema único de OS X. ¡Puedo usar el comando anterior en Ubuntu 14.04 LTS y funciona de inmediato! Algunas sugerencias
.css
no parece que se descarguen archivos e imágenes, etc., al menos, hasta el nivel que dejé corriendo (bueno, tal vez se descargarían si el proceso se completara, por lo que podemos omitir este)
Cuando diga --domains wikispaces.com
, no descargará archivos CSS vinculados ubicados en otros dominios. Algunas de las hojas de estilo en ese sitio web están ubicadas http://c1.wikicdn.com
como sugiere la fuente de index.html
Algunos sitios web no le permiten acceder a sus archivos vinculados (imágenes de referencia) directamente utilizando su enlace (consulte esta página ). Solo puede verlos a través del sitio web. Sin embargo, ese no parece ser el caso aquí.
Wget no parece reconocer los comentarios al analizar el HTML. Veo lo siguiente cuando Wget se está ejecutando:
--2016-07-01 04:01:12-- http://chessprogramming.wikispaces.com/%3C%25-%20ws.context.user.imageUrlPrefix%20%25%3Elg.jpg
Reusing existing connection to chessprogramming.wikispaces.com:80.
HTTP request sent, awaiting response... 404 Not Found
2016-07-01 04:01:14 ERROR 404: Not Found.
Abrir el enlace en el navegador te lleva a una página de inicio de sesión. El nombre del archivo sugiere que ocurrió en algún lugar de los comentarios.
- Muchos sitios no permiten que se descarguen utilizando gestores de descargas, por lo tanto, comprueban qué cliente originó la solicitud HTTP (que incluye el navegador o cualquier cliente que utilizó para solicitar un archivo de su servidor).
Úselo -U somebrowser
para fingir al cliente y pretender ser un navegador. Por ejemplo, -U mozilla
se puede agregar para decirle al servidor que un Mozilla / Firefox está solicitando la página. Sin embargo, este no es el problema aquí, ya que puedo descargar el sitio sin este argumento.
- La tasa de descarga y solicitud es importante. Los servidores no quieren que su rendimiento se vea afectado por robots que solicitan datos de su sitio. Use
--limit-rate=
y --wait=
argumentos en Wget para limitar la velocidad de descarga y espere unos segundos entre generar solicitudes de obtención de archivos individuales.
p.ej
wget -r --wait=5 --limit-rate=100K <other arguments>
esperar 5 segundos entre las solicitudes de obtención y limitar la velocidad de descarga a 100 Kbps. Una vez más, este no es el problema aquí porque el servidor no me exigió limitar la velocidad de descarga para obtener el sitio web.
El caso más posible aquí es (1). Reemplace --domains wikispaces.com
con --domains *
e intente nuevamente. A ver donde llegamos. Debería poder recuperar los archivos CSS al menos.
NO se agrega extensión html
La extensión HTML se agrega cuando ejecuto el comando.
Los enlaces no se convierten
No creo que tenga toda la razón aquí, pero no espere que los enlaces funcionen de fábrica cuando duplica un sitio.
Cuando pasa un argumento a la solicitud de obtención HTTP (por ejemplo, http://chessprogramming.wikispaces.com/wiki/xmla?v=rss_2_0
tiene los argumentos v=rss_2_0
), la solicitud se trata con algún script que se ejecuta en el servidor, por ejemplo PHP. Los argumentos lo ayudarán a obtener la versión correcta de la secuencia de comandos dependiendo de los argumentos. Recuerde, cuando está duplicando un sitio, especialmente un Wiki, que se ejecuta en PHP, no puede reflejar exactamente un sitio a menos que obtenga los scripts PHP originales. Las páginas HTML devueltas por los scripts PHP son solo una cara de la página que puede esperar ver con ese script. El algoritmo correcto que genera la página se almacena en el servidor y solo se reflejará correctamente si obtiene el archivo PHP original, lo que no puede hacer con HTTP. Para eso necesita acceso FTP al servidor.
Espero que esto ayude.
wget -mkpr https://consoreddomain.com
y todo lo que obtengo es un directorio con una sola página index.html. Sería bueno si esto pudiera recibir una respuesta.