Si no tiene estas otras herramientas instaladas, solo wget, y la página no tiene formato, solo texto y enlaces, por ejemplo, código fuente o una lista de archivos, puede eliminar el HTML usando sed de esta manera:
wget -qO- http://address/of/page/you/want/to/view/ | sed -e 's/<[^>]*>//g'
Esto usa wget para volcar la fuente de la página en STDOUT y sed para quitar cualquier par <> y cualquier cosa entre ellos.
Luego puede redirigir la salida del comando sed al archivo que desea crear usando>:
wget -qO- http://.../ | sed -e 's/<[^>]*>//g' > downloaded_file.txt
NB: es posible que tenga espacios en blanco adicionales en el archivo que no desea (por ejemplo, las líneas tienen sangría en algunas columnas)
Puede ser más fácil usar su editor de texto para ordenar el archivo (o un formateador fuente mientras descarga el código fuente C).
Si necesita hacer lo mismo en cada línea del archivo, puede incluir un comando para hacerlo en el comando sed (aquí eliminando un espacio inicial):
wget -qO- http://.../ | sed -e 's/<[^>]*>//g;s/^ //g' > downloaded_stripped_file.txt
.c
. No es difícil, pero depende de la estructura de la página. Si proporciona un enlace, alguien lo ayudará con el código exacto. De lo contrariosed
operl
son tus amigos.