¿Cómo se le indica a wget que rastree recursivamente un sitio web y solo descargue ciertos tipos de imágenes?
Intenté usar esto para rastrear un sitio y solo descargar imágenes JPEG:
wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html
Sin embargo, aunque page1.html contiene cientos de enlaces a subpáginas, que a su vez tienen enlaces directos a imágenes, wget informa cosas como "Eliminar subpage13.html ya que debe ser rechazado", y nunca descarga ninguna imagen, ya que ninguna está directamente vinculada a desde la página de inicio.
Supongo que esto se debe a que mi --acepto se está utilizando para dirigir el rastreo y filtrar contenido para descargar, mientras que quiero que se use solo para dirigir la descarga de contenido. ¿Cómo puedo hacer que wget rastree todos los enlaces, pero solo descargue archivos con ciertas extensiones como * .jpeg?
EDITAR: Además, algunas páginas son dinámicas y se generan a través de un script CGI (por ejemplo, img.cgi? Fo9s0f989wefw90e). Incluso si agrego cgi a mi lista de aceptación (por ejemplo, --accept = jpg, jpeg, html, cgi), estos siempre se rechazan. ¿Hay alguna forma de evitar esto?