Quiero recuperar lo que sea que esté entre estas dos etiquetas <tr> </tr>
- de un documento html. Ahora no tengo ningún requisito html específico que garantice un analizador html. Simplemente necesito algo que coincida <tr>
y </tr>
consiga todo en el medio y podría haber múltiples correos tr
electrónicos. Intenté awk, que funciona, pero por alguna razón termina dándome duplicados de cada fila extraída.
awk '
/<TR/{p=1; s=$0}
p && /<\/TR>/{print $0 FS s; s=""; p=0}
p' htmlfile> newfile
¿Como va esto?
awk
está trabajando, pero dando duplicados tratar de pasar la salida de su awk de sort -u
conseguirlos distinta
'/<tr/{p=1}; p; /<\/tr>/{p=0}'
. Publique alguna entrada de ejemplo y salida esperada si no funciona.