Tengo una carga de documentos, que tienen una carga de pares de valores clave en ellos. Es posible que la clave no sea única, por lo que puede haber varias claves del mismo tipo con valores diferentes.
Quiero comparar la similitud de las claves entre 2 documentos. Más específicamente, la similitud de cadena de estos valores. Estoy pensando en usar algo como el algoritmo Smith-Waterman para comparar la similitud.
Así que dibujé cómo estoy pensando en representar los datos:
Los valores en las celdas son el resultado del algoritmo smith-waterman (o alguna otra métrica de similitud de cadenas).
Imagen de que esta matriz representa un tipo clave de "cosas". Luego necesito agregar el puntaje de similitud de "cosas" en un vector de 0 o 1. Eso está bien.
Lo que no puedo entender es cómo determino si la matriz es similar o no, idealmente quiero convertir la matriz a un número entre 0 y 1 y luego estableceré un umbral para calificarla como 0 o 1)
¿Alguna idea de cómo puedo crear una puntuación de la matriz? ¿Alguien sabe algún algoritmo que haga este tipo de cosas (obviamente, cosas como cómo funciona Smith Waterman es más o menos aplicable).