Guardar páginas web en Firefox como archivos de texto o RTF que conservan el formato y posicionamiento básicos


0

¿Es posible, dentro de Firefox, guardar páginas que contengan texto manteniendo el formato y el posicionamiento básicos , pero sin guardar ningún código ejecutable (JavaScript)?

No necesita ser perfecto, solo una aproximación cercana.

Necesito que se pueda buscar el texto, por lo que tomar una captura de pantalla no será suficiente.

Se prefieren las respuestas que se aplican a Windows.

Lo que probé:

  1. Copiar y pegar en el bloc de notas.
    Resultado: perdió todo el formato y posicionamiento del texto (como se esperaba).
  2. Copie y pegue en OpenOffice, LibreOffice y Wordpad.
    Resultado: no mantuvo una posición de texto suficiente. Específicamente, el texto justificado a izquierda y derecha se justificó a la izquierda.
  3. Guardar como archivo de texto desde Firefox.
    Resultado: igual que el n. ° 1.
  4. Guardar como archivo solo HTML desde Firefox.
    Resultado: igual que el n. ° 2.
  5. Guardar como archivo completo HTML desde Firefox.
    Resultado: por cualquier motivo, Firefox informa un error en muchas páginas, probablemente debido a cómo se sirven las páginas a través de HTTPS.

Mi solución actual es una PITA. Descargo el HTML de la página y cualquier CSS. Luego edito manualmente cada archivo HTML para señalar la copia local de los archivos CSS. Finalmente, elimino todas las referencias de JavaScript. Esto lleva una cantidad considerable de tiempo y esfuerzo, y da como resultado una dependencia de los archivos CSS, en lugar de un solo texto limpio o archivo RTF.

He considerado la extensión Mozilla Archive Format , pero creo que siempre guarda todo el JavaScript en el archivo. Prefiero un archivo de texto plano o RTF (texto enriquecido) sin dependencias y definitivamente sin JavaScript.


Creo que el proceso habitual es hacer trabajo manual. Lo siento. Supongo que no verá una respuesta muy satisfactoria. Sin embargo, ¿cómo elimina todas las referencias de JavaScript? Eso debería ser bastante automatizado. Por ejemplo, reemplace <SCRIPT con <SCRdisabled (y / SCRIPT) ... eso haría que el HTML sea técnicamente inválido, pero probablemente se renderice bien / aceptablemente.
TOOGAM

@TOOGAM Sí, hago ediciones por el estilo o simplemente editar todos <SCRIPT>y </SCRIPT>etiquetas. No me gusta tener que guardar todos los archivos CSS, así que a veces copio y pego los estilos CSS importantes en el HTML para aplicarlos directamente. Es bastante lento. Cortar y pegar en un procesador de textos se acerca mucho, pero perder la justificación izquierda y derecha provoca la pérdida de posicionamiento importante, especialmente para las transcripciones de texto.
RockPaperLizard

¿Tienes que usar Firefox? ¿Puedes usar otro raspador web, como cURL?
TOOGAM

@TOOGAM Buena pregunta. Prefiero fuertemente Firefox, pero no tiene que usarlo. Solo para aclarar, solo tengo esta necesidad de páginas web ocasionales (generalmente 1-5 por día), y solo necesito el texto en una sola página (no necesito raspar un sitio completo ni nada). Las páginas se sirven típicamente a través de HTTPS. Normalmente estoy en un cuadro de Windows cuando necesito hacer esto.
RockPaperLizard
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.