Tengo mis referencias como un archivo de texto con una larga lista de entradas y cada una tiene dos (o más) campos.
La primera columna es la url de la referencia; la segunda columna es el título que puede variar un poco dependiendo de cómo se realizó la entrada. Lo mismo para el tercer campo que puede o no estar presente.
Quiero identificar pero no eliminar entradas que tienen el primer campo (URL de referencia) idéntico. Lo sé, sort -k1,1 -u
pero eso eliminará automáticamente (de forma no interactiva) todos menos el primer golpe. ¿Hay alguna manera de avisarme para que pueda elegir cuál conservar?
En el extracto a continuación de tres líneas que tienen el mismo primer campo ( http://unix.stackexchange.com/questions/49569/
), me gustaría mantener la línea 2 porque tiene etiquetas adicionales (ordenar, CLI) y eliminar las líneas # 1 y # 3:
http://unix.stackexchange.com/questions/49569/ unique-lines-based-on-the-first-field
http://unix.stackexchange.com/questions/49569/ Unique lines based on the first field sort, CLI
http://unix.stackexchange.com/questions/49569/ Unique lines based on the first field
¿Existe un programa para ayudar a identificar tales "duplicados"? Entonces, ¿puedo limpiar manualmente eliminando personalmente las líneas 1 y 3?