Web spider para Ubuntu


11

Estoy buscando una araña web para Ubuntu como esta Webripper - Calluna Software . Puede descargar un sitio completo como puede hacerlo con

wget -r -m example.com

pero la característica que estoy buscando es que puede ingresar un término de búsqueda como "Linux" y busca en la Web y los descarga. ¿Hay algún programa en Ubuntu como este?

Respuestas:


4

Puede usar las Alertas de Google para crear una especie de página de búsqueda entregada a un feed y luego usar un lector RSS o Thunderbird para leerlas.

Yo uso Thunderbird para RSS. No sé si hay lectores de RSS que puedan exportar el feed a html simple.



3

Puedes probar http ripper .

Aquí hay algunas características publicadas en el sitio web:

Free Software (GPL 3)
Generic (works with almost every website)
Runs on GNU/Linux and Windows
Nearly undetectable / blockable by servers
Built with python and pygtk

http://29a.ch/httpripper/screenshots/2.png Captura de pantalla

Mire un tutorial, del desarrollador del propio httpripper:

Enlace de descarga:

Funcionó para mí en Ubuntu 11.10 x64


-1

Hay módulos adecuados en el CPAN de Perl. Solo necesitas un poco de scripts de Perl.

En particular, eche un vistazo al módulo WWW: Mechanize en el módulo WWW: Mechanize .

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.