Estoy extrayendo URL de un sitio web usando cURL como se muestra a continuación.
curl www.somesite.com | grep "<a href=.*title=" > new.txt
Mi archivo new.txt es el siguiente.
<a href="http://website1.com" title="something">
<a href="http://website1.com" information="something" title="something">
<a href="http://website2.com" title="some_other_thing">
<a href="http://website2.com" information="something" title="something">
<a href="http://websitenotneeded.com" title="something NOTNEEDED">
Sin embargo, necesito extraer solo la información a continuación.
<a href="http://website1.com" title="something">
<a href="http://website2.com" information="something" title="something">
Estoy tratando de ignorar los <a hrefque tienen información en ellos y cuyo título termina con NOTNEEDED .
¿Cómo puedo modificar mi declaración grep?
¿La salida que está mostrando aquí es correcta? El texto que lo describe no tiene sentido junto con este ejemplo.
—
slm
¿No estás buscando
—
terdon
curl www.somesite.com | grep "<a href=.*title=" | grep -v NOTNEEDED > new.txt?
@terdon, exactamente eso era lo que estaba buscando. Puedo aceptarlo como respuesta si lo publicas.
—
Ramesh
Ramesh, es básicamente la respuesta de @ slm. Lo acabo de editar para que pueda aceptarlo.
—
terdon
oh sí, no me di cuenta de que la tubería era tan poderosa. Lo he aceptado como respuesta. ¡Gracias!
—
Ramesh