¿En qué caso prefiero usar Wget en lugar de un navegador?
Escuché que Richard Stallman lo usa en lugar de un navegador por algunas razones de anonimato. ¿Y qué ve el servidor cuando obtiene sus archivos usando Wget?
¿En qué caso prefiero usar Wget en lugar de un navegador?
Escuché que Richard Stallman lo usa en lugar de un navegador por algunas razones de anonimato. ¿Y qué ve el servidor cuando obtiene sus archivos usando Wget?
Respuestas:
Por lo general, nunca lo usarías "en lugar de un navegador". Los navegadores procesan HTML, hacen que se pueda hacer clic en los enlaces (en lugar de tener que copiar la URL en otro comando wget manualmente), etc. Literalmente, no hay ventajas en usar wget como humano. Si le preocupa la privacidad, hay un millón de formas de limpiar un navegador (o podría usar un navegador menos funcional, como Lynx, si realmente quiere tener huesos desnudos sin destruir toda la apariencia de la interfaz de usuario humana).
Wget se usa principalmente cuando desea una forma rápida, barata, programable / línea de comandos para descargar archivos. Entonces, por ejemplo, puede poner wget en un script para descargar una página web que se actualiza con nuevos datos con frecuencia, que es algo para lo que realmente no se puede usar un navegador. Puede usar las diversas opciones de wget para rastrear y guardar automáticamente un sitio web, lo que la mayoría de los navegadores no pueden hacer, al menos no sin extensiones.
En resumen, los navegadores son aplicaciones para humanos que buscan en Internet, wget es una herramienta para máquinas y usuarios avanzados que mueven datos a través de HTTP. Muy similar en lo que hacen (extraer archivos de sitios web) pero completamente diferente en su uso.
Con respecto a qué servidores "ven" cuando obtiene cosas con wget: todos los clientes HTTP (navegadores, wget, curl, otras aplicaciones similares) transmiten lo que se llama un "Agente de usuario", que es solo una cadena que describe el navegador (o en estos días, describe qué características del navegador tiene). Esto se puede usar para mostrar contenido diferente según el navegador del usuario (es decir, Google intenta no anunciar Chrome a las personas que ya usan Chrome). Algunos tontos intentan bloquear travesuras de usuarios avanzados bloqueando la cadena de agente de usuario de wget, pero puedes simular una cadena de agente de usuario de Chrome para evitar eso. Más a menudo se usa simplemente para estadísticas para que sepa qué tan populares son los diferentes navegadores para que sepa cuáles probar con más detalle.
Si utiliza las funciones de rastreo de wget, el servidor verá muchas solicitudes rápidas en un orden alfabético. Es obvio que estás raspando su sitio. Se ve completamente diferente de la navegación de un usuario. Con un usuario humano haciendo solicitudes en un navegador, cada solicitud de página es seguida por todas las imágenes en esa página, y luego hay un retraso, y luego hay una solicitud de otra página aleatoria (o posiblemente una cadena de páginas con un propósito claro) .
Como otros han mencionado, wget
tiene el beneficio de no estar incluido con complementos, cookies y caché, lo que lo hace potencialmente más estable y seguro. Pero los navegadores y en wget
realidad tienen usos normales muy diferentes .
wget
es una utilidad de línea de comandos destinada a recuperar contenido, no a presentarlo. Se puede utilizar para recuperar y descargar cualquier cosa a través de FTP, HTTP y HTTPS, incluidos cualquier tipo de archivo (HTML, imágenes, binarios, etc.).
Para el servidor, la única diferencia que verá es diferente a user agent
menos que use su --user-agent
argumento para especificar el de un navegador. Si lo hace, el servidor no verá ninguna diferencia.
1) descargas iniciadas por un script en lugar de un ser humano
2) descargar sitios completos (o fragmentos de sitios) en lugar de páginas separadas. (Wget puede seguir enlaces automáticamente).
Wget tiene algunas opciones de línea de comandos para controlar lo que el servidor ve y puede pensar, incluidos retrasos arbitrarios entre las solicitudes de descarga de páginas. Pero si el servidor del sitio tiene alguna política anti-bot, a menudo pierde una gran cantidad de tiempo y tráfico antes de obtener un resultado aceptable.
Cuando se usa un navegador, todo lo que está dentro está activo, incluidos complementos no deseados e incluso malware, mientras que wget es un comando simple que descarga cosas y no hace absolutamente nada más.
El navegador no es necesariamente menos seguro, pero potencialmente lo es.
Los servidores "ven" una solicitud de descarga, como de costumbre.
El navegador puede registrar sus actividades en el historial y los archivos de caché.
wget no tiene retención de memoria.
Dicho esto, un navegador es más conveniente y no me importa si la NSA descubre que descargué la 4.7.2-040702-generic
semana pasada. Uso mi navegador para la banca en línea y PayPal, que es posiblemente más crucial que la mayoría de los archivos que puedo descargar con wget.
Como desarrollador que usa instalaciones remotas de Ubuntu, a menudo no tiene mucho sentido instalar la GUI del sistema operativo. En este entorno de 'línea de comandos', wget es una herramienta esencial para descargar archivos de la web.
Ni siquiera estoy seguro de qué navegadores, si los hay, se pueden ejecutar desde la terminal.
wget
por "algunas razones de seguridad"?