Tengo un conjunto de datos que consta de 5 características: A, B, C, D, E. Todos son valores numéricos. En lugar de hacer una agrupación basada en la densidad, lo que quiero hacer es agrupar los datos en forma de árbol de decisión.
El enfoque que quiero decir es algo como esto:
El algoritmo puede dividir los datos en X grupos iniciales basados en la característica C, es decir, los grupos X pueden tener valores pequeños de C, medio C, C grande y C muy grande, etc. A continuación, debajo de cada uno de los nodos del grupo X, el algoritmo se divide aún más los datos en grupos Y basados en la función A. El algoritmo continúa hasta que se usen todas las funciones.
El algoritmo que describí anteriormente es como un algoritmo de árbol de decisión. Pero lo necesito para la agrupación sin supervisión, en lugar de la clasificación supervisada.
Mis preguntas son las siguientes:
- ¿Ya existen tales algoritmos? ¿Cuál es el nombre correcto para tal algoritmo?
- ¿Existe un paquete / biblioteca R / python que tenga una implementación de este tipo de algoritmos?
CHAID
árbol, por ejemplo. Debe elegir la variable dependiente. Sea A. El algoritmo selecciona entre B, C, D, E la variable más correlacionada con A y agrupa esa variable (digamos, el predictor, sea D) en dos o más categorías "óptimamente", de modo que la correlación (entre la variable categorizada D y la variable A se maximiza. Digamos que dejó 3 grupos, D1, D2, D3. A continuación, el mismo procedimiento se repite dentro de cada categoría (grupo) de D por separado, y el mejor predictor entre B, C , E se busca debajo de binning. Etc. ¿Qué es exactamente lo que no te conviene aquí?
But I need it for unsupervised clustering, instead of supervised classification
Esta frase clave por sí sola es demasiado breve y no expande claramente lo que quieres. Arriba describiste lo que me parece un árbol de decisiones. ¿Puedes ahora dar un pasaje similar sobre el algo que quieres?