Tengo un par de cientos de archivos de código fuente HTML. Necesito extraer el contenido de un <div>
elemento particular de cada uno de estos archivos, así que voy a escribir un script para recorrer cada archivo. La estructura del elemento es así:
<div id='the_div_id'>
<div id='some_other_div'>
<h3>Some content</h3>
</div>
</div>
¿Alguien puede sugerir un método mediante el cual pueda extraer el div the_div_id
y todos los elementos secundarios y el contenido de un archivo utilizando la línea de comandos de Linux?
hxselect
es más exigente con el formato de entrada quepup
. Por ejemplo, estoy llegandoInput is not well-formed. (Maybe try normalize?)
ahxselect
dondepup
solo lo analizo.