¿Cómo puedo hacer que wget descargue solo páginas, no imágenes css, etc.?


10

Quiero descargar un sitio web completo usando wget pero no quiero que wget descargue imágenes, videos, etc.

Lo intenté

wget -bqre robots=off -A.html example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

pero cuando hago eso no descarga archivos .php, solo descarga archivos .html estáticos.

¿Hay alguna solución a este problema con wget?

Respuestas:


6

Le ha dicho explícitamente a wget que solo acepte archivos que tienen .htmlcomo sufijo.

Suponiendo que las páginas php tienen .php, puede hacer esto:

wget -bqre robots=off -A.html,.php example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

Tenga en cuenta que esto descargará el html representado, no la fuente del php. Si la página es lo suficientemente dinámica, es posible que no obtenga el resultado renderizado que espera.

Sin embargo, sugeriría que otra herramienta como httrack puede hacer un mejor trabajo, depende exactamente de lo que necesita hacer.


3

-A toma una lista, entonces -A.html, .php debería ajustarse a la factura. También debe buscar en -R (también se necesita una lista de rechazos).


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.