¿Por qué usaría Wget en lugar de un navegador? [cerrado]


15

¿En qué caso prefiero usar Wget en lugar de un navegador?

Escuché que Richard Stallman lo usa en lugar de un navegador por algunas razones de anonimato. ¿Y qué ve el servidor cuando obtiene sus archivos usando Wget?


3
Si todo lo que necesito es descargar, digamos, un archivo, ¿por qué desperdiciaría recursos abriendo un navegador completo para hacerlo? ¿Dónde escuchó que Stallman usa wgetpor "algunas razones de seguridad"?
edwinksl

3
Aquí hay al menos cuatro preguntas: 1. ¿Cuáles son las ventajas de wget frente a un navegador? 2. ¿Cómo se presenta wget a un servidor web? 3. ¿wget tiene algún beneficio de privacidad sobre un navegador web? 4. [Richard] Stallman usa wget, y si es así, es por anonimato.
Ben Aveling

44
De acuerdo con esto: Cómo hago mi página de computación , Stallman usa algo "muy parecido a wget": buscar páginas web por correo electrónico (pero usa navegadores gráficos para abrir las páginas recuperadas, si es necesario); él también navega por la Web a través de Tor, usando un navegador gráfico, por lo que buscar el correo electrónico no es la única forma.
unor

3
Por favor, publique la fuente de su audiencia
Anwar

3
«¿Y qué servidor piensa / ve cuando obtiene sus archivos usando Wget?» Piensa: «¡Oh, ese debe ser Stallman! Personalizaré el contenido para
meterme

Respuestas:


25

Por lo general, nunca lo usarías "en lugar de un navegador". Los navegadores procesan HTML, hacen que se pueda hacer clic en los enlaces (en lugar de tener que copiar la URL en otro comando wget manualmente), etc. Literalmente, no hay ventajas en usar wget como humano. Si le preocupa la privacidad, hay un millón de formas de limpiar un navegador (o podría usar un navegador menos funcional, como Lynx, si realmente quiere tener huesos desnudos sin destruir toda la apariencia de la interfaz de usuario humana).

Wget se usa principalmente cuando desea una forma rápida, barata, programable / línea de comandos para descargar archivos. Entonces, por ejemplo, puede poner wget en un script para descargar una página web que se actualiza con nuevos datos con frecuencia, que es algo para lo que realmente no se puede usar un navegador. Puede usar las diversas opciones de wget para rastrear y guardar automáticamente un sitio web, lo que la mayoría de los navegadores no pueden hacer, al menos no sin extensiones.

En resumen, los navegadores son aplicaciones para humanos que buscan en Internet, wget es una herramienta para máquinas y usuarios avanzados que mueven datos a través de HTTP. Muy similar en lo que hacen (extraer archivos de sitios web) pero completamente diferente en su uso.

Con respecto a qué servidores "ven" cuando obtiene cosas con wget: todos los clientes HTTP (navegadores, wget, curl, otras aplicaciones similares) transmiten lo que se llama un "Agente de usuario", que es solo una cadena que describe el navegador (o en estos días, describe qué características del navegador tiene). Esto se puede usar para mostrar contenido diferente según el navegador del usuario (es decir, Google intenta no anunciar Chrome a las personas que ya usan Chrome). Algunos tontos intentan bloquear travesuras de usuarios avanzados bloqueando la cadena de agente de usuario de wget, pero puedes simular una cadena de agente de usuario de Chrome para evitar eso. Más a menudo se usa simplemente para estadísticas para que sepa qué tan populares son los diferentes navegadores para que sepa cuáles probar con más detalle.

Si utiliza las funciones de rastreo de wget, el servidor verá muchas solicitudes rápidas en un orden alfabético. Es obvio que estás raspando su sitio. Se ve completamente diferente de la navegación de un usuario. Con un usuario humano haciendo solicitudes en un navegador, cada solicitud de página es seguida por todas las imágenes en esa página, y luego hay un retraso, y luego hay una solicitud de otra página aleatoria (o posiblemente una cadena de páginas con un propósito claro) .


16

Como otros han mencionado, wgettiene el beneficio de no estar incluido con complementos, cookies y caché, lo que lo hace potencialmente más estable y seguro. Pero los navegadores y en wgetrealidad tienen usos normales muy diferentes .

wgetes una utilidad de línea de comandos destinada a recuperar contenido, no a presentarlo. Se puede utilizar para recuperar y descargar cualquier cosa a través de FTP, HTTP y HTTPS, incluidos cualquier tipo de archivo (HTML, imágenes, binarios, etc.).

Para el servidor, la única diferencia que verá es diferente a user agentmenos que use su --user-agentargumento para especificar el de un navegador. Si lo hace, el servidor no verá ninguna diferencia.


5

1) descargas iniciadas por un script en lugar de un ser humano

2) descargar sitios completos (o fragmentos de sitios) en lugar de páginas separadas. (Wget puede seguir enlaces automáticamente).

Wget tiene algunas opciones de línea de comandos para controlar lo que el servidor ve y puede pensar, incluidos retrasos arbitrarios entre las solicitudes de descarga de páginas. Pero si el servidor del sitio tiene alguna política anti-bot, a menudo pierde una gran cantidad de tiempo y tráfico antes de obtener un resultado aceptable.


3) Descarga iniciada por un humano cuando no hay un navegador fácilmente accesible (por ejemplo, a través de ssh)
Dezza

4

Cuando se usa un navegador, todo lo que está dentro está activo, incluidos complementos no deseados e incluso malware, mientras que wget es un comando simple que descarga cosas y no hace absolutamente nada más.

El navegador no es necesariamente menos seguro, pero potencialmente lo es.

Los servidores "ven" una solicitud de descarga, como de costumbre.


4

El navegador puede registrar sus actividades en el historial y los archivos de caché.

wget no tiene retención de memoria.

Dicho esto, un navegador es más conveniente y no me importa si la NSA descubre que descargué la 4.7.2-040702-genericsemana pasada. Uso mi navegador para la banca en línea y PayPal, que es posiblemente más crucial que la mayoría de los archivos que puedo descargar con wget.


2

Como desarrollador que usa instalaciones remotas de Ubuntu, a menudo no tiene mucho sentido instalar la GUI del sistema operativo. En este entorno de 'línea de comandos', wget es una herramienta esencial para descargar archivos de la web.

Ni siquiera estoy seguro de qué navegadores, si los hay, se pueden ejecutar desde la terminal.


2
w3m es un gran navegador de terminal :) es.wikipedia.org/wiki/W3m
kalenpw

lynx es otro lynx.browser.org
rviertel
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.