Necesito alguna sugerencia para el método de agrupamiento (clasificación no supervisada) para un proyecto de consultoría. Estoy buscando un método que tenga las siguientes propiedades:
El tema de mi estudio tiene tres propiedades. Uno está representado por una matriz de distancia (no euclidiana) y los otros dos están en forma de vectores en el espacio euclidiano. La matriz de distancia proviene de secuencias y puede estar en forma de porcentaje de disimilitud u otra medida de distancia de secuencias. El algoritmo debería poder tomar ambos vectores en el espacio euclidiano y la distancia no euclidiana como entrada. Por ejemplo, los K-medoides pueden funcionar con una matriz de distancia, pero K-means no.
Me gustaría que el algoritmo seleccione automáticamente el número de clústeres y el peso de tres propiedades (con conocimiento y restricción previos).
Tengo información de "centros de agrupaciones" previamente identificados. Me gustaría incorporarlo como valores anteriores o iniciales.
Como estadístico, preferiría que el método tenga una clara función de probabilidad o pérdida.
Lo más parecido que se me ocurre es ajustar un modelo de mezcla en el marco bayesiano utilizando MCMC de salto inverso para determinar el número de clústeres. Los vectores en R ^ d pueden formularse fácilmente en una probabilidad normal, pero no estoy claro cómo tratar con la matriz de distancia. Puedo restringir la media de probabilidad normal de estar en cada una de las observaciones para que el MCMC se ejecute, pero eso no tiene un significado matemático / estadístico claro.
¿Alguien tiene experiencia con un problema similar? Sugerencia de referencias será muy apreciada!