Tengo miles de listas de cadenas, y cada lista tiene alrededor de 10 cadenas. La mayoría de las cadenas en una lista dada son muy similares, aunque algunas cadenas (rara vez) no están completamente relacionadas con las demás y algunas cadenas contienen palabras irrelevantes. Pueden considerarse variaciones ruidosas de una cadena canónica. Estoy buscando un algoritmo o una biblioteca que convierta cada lista en esta cadena canónica.
Aquí hay una de esas listas.
- Star Wars: Episodio IV Una nueva esperanza | StarWars.com
- Star Wars Episodio IV - Una Nueva Esperanza (1977)
- Star Wars: Episodio IV - Una nueva esperanza - Rotten Tomatoes
- Mira Star Wars: Episodio IV - Una nueva esperanza en línea gratis
- Star Wars (1977) - Las mejores películas
- [REC] 4 póster promete muerte por motor fueraborda - SciFiNow
Para esta lista, cualquier cadena que coincida con la expresión regular ^Star Wars:? Episode IV (- )?A New Hope$
sería aceptable.
Miré el curso de Andrew Ng sobre Machine Learning en Coursera, pero no pude encontrar un problema similar.