Si esta es una pregunta de programación, le sugiero que escriba su propia expresión regular para analizar todo el contenido recuperado. Las etiquetas de destino son IMG y A para HTML estándar. Para JAVA,
final String openingTags = "(<a [^>]*href=['\"]?|<img[^> ]* src=['\"]?)";
esto, junto con las clases Pattern y Matcher, debería detectar el comienzo de las etiquetas. Agregue la etiqueta LINK si también desea CSS.
Sin embargo, no es tan fácil como podría haber pensado inicialmente. Muchas páginas web no están bien formadas. Extraer programáticamente todos los enlaces que el ser humano puede "reconocer" es realmente difícil si necesitas tener en cuenta todas las expresiones irregulares.
¡Buena suerte!