Quiero aprender (deducir) los pesos de los atributos para mi medida de disimilitud que puedo usar para la agrupación.
Tengo algunos ejemplos de pares de objetos que son "similares" (deben estar en el mismo grupo), así como algunos ejemplos ( c i , d i ) de pares de objetos que "no son similares" "(no debe estar en el mismo clúster). Cada objeto tiene una serie de atributos: si lo desea, podemos pensar en cada objeto como un vector d- dimensional de características, donde cada característica es un número entero no negativo. ¿Existen técnicas para usar tales ejemplos de objetos similares / diferentes para estimar a partir de ellos los pesos de características óptimos para una medida de disimilitud?
Si ayuda, en mi aplicación, probablemente sería razonable concentrarse en aprender una medida de disimilitud que sea una norma ponderada de L2:
donde los pesos no se conocen y se deben aprender. (O, algún tipo de medida de similitud de coseno ponderada también podría ser razonable). ¿Existen buenos algoritmos para aprender los pesos α j para tal medida, dados los ejemplos? ¿O hay otros métodos para aprender una medida de similitud / medida de disimilitud que debería considerar?
Desafortunadamente, el número de dimensiones es muy grande (miles o más; se deriva de las características de la bolsa de palabras). Sin embargo, tengo muchas decenas de miles de ejemplos. Luego tengo cientos de miles de objetos que quiero agrupar, por lo que es importante generalizar a partir de los ejemplos para aprender una buena métrica de disimilitud.
Entiendo que esto cae en la rúbrica de la agrupación semi-supervisada, y parece que podría ser de la veta de "adaptación de similitud", pero no he podido encontrar descripciones claras de algoritmos para este propósito.