Esencialmente, quiero rastrear un sitio completo con Wget, pero lo necesito para NUNCA descargar otros activos (por ejemplo, imágenes, CSS, JS, etc.). Solo quiero los archivos HTML.
Las búsquedas de Google son completamente inútiles.
Aquí hay un comando que he probado:
wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com
Nuestro sitio es híbrido flat-PHP y CMS. Así, HTML "archivos" podría ser /path/to/page
, /path/to/page/
, /path/to/page.php
, o /path/to/page.html
.
Incluso lo he incluido, -R js,css
pero aún descarga los archivos, ENTONCES los rechaza (desperdicio inútil de ancho de banda, CPU y carga del servidor).
Length: 558 [text/css]
de los archivos que no quiero. Si pudiera detener la solicitud si el encabezado no regresa text/html
, estaría eufórico.