Estoy buscando una herramienta FLOSS que descargue todas las páginas (y recursos integrados, por ejemplo, imágenes) vinculadas en un mapa del sitio XML (creado de acuerdo con http://www.sitemaps.org/ ).
La herramienta debe "rastrear" el mapa del sitio regularmente y buscar URL nuevas y eliminadas y cambios en el lastmod
elemento. Entonces, cada vez que se agrega / elimina / actualiza una página, la herramienta debe aplicar los cambios.
Algunos sitemaps enumeran submapas de sitio en sitemapindex
→ sitemap
. La herramienta debe entender esto y cargar todos los mapas de sitios secundarios vinculados y buscar las URL allí.
Sé que hay herramientas que me permiten extraer todas las URL del mapa del sitio, para poder alimentarlas con wget o herramientas similares (ver, por ejemplo: Extraer enlaces de un mapa del sitio (xml) ). Pero esto no ayudaría a hacerse notar sobre las actualizaciones de las páginas. El seguimiento de las páginas web en busca de actualizaciones no funciona, porque el contenido "secundario" en las páginas cambia diariamente, pero lastmod
solo se actualiza cuando cambia el contenido relevante.