¿Cómo extraigo todos los enlaces externos de una página web y los guardo en un archivo?


11

¿Cómo extraigo todos los enlaces externos de una página web y los guardo en un archivo?

Si tiene alguna herramienta de línea de comandos, sería genial.

Respuestas:


18

Necesitarás 2 herramientas, lynx y awk , prueba esto:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

Si necesita líneas de numeración, use el comando nl , intente esto:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt

No creo que esto funcione para las URL relativas
Sridhar Sarnobat

8

Aquí hay una mejora en la respuesta de lelton: no necesita awk para nada porque Lynx tiene algunas opciones útiles.

lynx -listonly -nonumbers -dump http://www.google.com.br

si quieres números

lynx -listonly -dump http://www.google.com.br

0
  1. Use Beautiful Soup para recuperar las páginas web en cuestión.
  2. Use awk para encontrar todas las URL que no apuntan a su dominio

Recomendaría Beautiful Soup sobre las técnicas de raspado de pantalla.


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.