Si solicita contenido gzip'ed (usando la codificación accept: encabezado gzip, que es correcto), entiendo que wget no puede leer el contenido. Por lo tanto, terminará con un solo archivo comprimido en el disco, para la primera página que golpee, pero ningún otro contenido.
es decir, no puede usar wget para solicitar contenido comprimido y recurrir todo el sitio al mismo tiempo.
Creo que hay un parche que permite que wget admita esta función, pero no está en la versión de distribución predeterminada.
Si incluye el indicador -S, puede saber si el servidor web responde con el tipo de contenido correcto. Por ejemplo,
wget -S --header="accept-encoding: gzip" wordpress.com
--2011-06-17 16:06:46-- http://wordpress.com/
Resolving wordpress.com (wordpress.com)... 72.233.104.124, 74.200.247.60, 76.74.254.126
Connecting to wordpress.com (wordpress.com)|72.233.104.124|:80... connected.
HTTP request sent, awaiting response...
HTTP/1.1 200 OK
Server: nginx
Date: Fri, 17 Jun 2011 15:06:47 GMT
Content-Type: text/html; charset=UTF-8
Connection: close
Vary: Accept-Encoding
Last-Modified: Fri, 17 Jun 2011 15:04:57 +0000
Cache-Control: max-age=190, must-revalidate
Vary: Cookie
X-hacker: If you're reading this, you should visit automattic.com/jobs and apply to join the fun, mention this header.
X-Pingback: http://wordpress.com/xmlrpc.php
Link: <http://wp.me/1>; rel=shortlink
X-nananana: Batcache
Content-Encoding: gzip
Length: unspecified [text/html]
La codificación de contenido indica claramente gzip, sin embargo para linux.about.com (actualmente),
wget -S --header="accept-encoding: gzip" linux.about.com
--2011-06-17 16:12:55-- http://linux.about.com/
Resolving linux.about.com (linux.about.com)... 207.241.148.80
Connecting to linux.about.com (linux.about.com)|207.241.148.80|:80... connected.
HTTP request sent, awaiting response...
HTTP/1.1 200 OK
Date: Fri, 17 Jun 2011 15:12:56 GMT
Server: Apache
Set-Cookie: TMog=B6HFCs2H20kA1I4N; domain=.about.com; path=/; expires=Sat, 22-Sep-12 14:19:35 GMT
Set-Cookie: Mint=B6HFCs2H20kA1I4N; domain=.about.com; path=/
Set-Cookie: zBT=1; domain=.about.com; path=/
Vary: *
PRAGMA: no-cache
P3P: CP="IDC DSP COR DEVa TAIa OUR BUS UNI"
Cache-Control: max-age=-3600
Expires: Fri, 17 Jun 2011 14:12:56 GMT
Connection: close
Content-Type: text/html
Length: unspecified [text/html]
Está devolviendo texto / html.
Debido a que algunos navegadores antiguos aún tienen problemas con el contenido codificado con gzip, muchos sitios solo lo habilitan en función de la identificación del navegador. A menudo lo desactivan de manera predeterminada y solo lo activan cuando saben que el navegador puede admitirlo, y generalmente no incluyen wget en esa lista. Esto significa que es posible que wget nunca devuelva contenido de gzip, incluso si el sitio parece hacerlo para su navegador.