"A" está relacionado con "B" y "C". ¿Cómo demuestro que "B" y "C" podrían, en este contexto, estar relacionadas también?
Ejemplo:
Aquí hay algunos titulares sobre una obra reciente de Broadway:
- Glengarry Glen Ross de David Mamet, protagonizada por Al Pacino, se estrena en Broadway
- Al Pacino en 'Glengarry Glen Ross': ¿Qué pensaron los críticos?
- Al Pacino gana críticas mediocres por su turno en Broadway
- Revisión de teatro: Glengarry Glen Ross está vendiendo sus estrellas con fuerza
- Glengarry Glen Ross; Oye, ¿Quién mató a las luces Klieg?
Problema:
Ejecutar una coincidencia de cadena difusa sobre estos registros establecerá algunas relaciones, pero no otras, a pesar de que un lector humano podría distinguirlas del contexto en conjuntos de datos mucho más grandes.
¿Cómo encuentro la relación que sugiere que el n. ° 3 está relacionado con el n. ° 4? Ambos se pueden conectar fácilmente al # 1, pero no el uno al otro.
¿Hay un nombre (Googlable) para este tipo de datos o estructura? ¿Qué tipo de algoritmo estoy buscando?
Objetivo:
Dado 1,000 titulares, un sistema que sugiere automáticamente que estos 5 elementos probablemente sean casi lo mismo.
Para ser honesto, ha pasado tanto tiempo desde que programé que no sé cómo articular correctamente este problema. (No sé lo que no sé, si eso tiene sentido).
Este es un proyecto personal y lo estoy escribiendo en Python. ¡Gracias de antemano por cualquier ayuda, consejo y sugerencias!