Permítame mostrarle un ejemplo de una hipotética aplicación de agrupación en línea:
En el momento n, los puntos 1,2,3,4 se asignan al grupo azul A y los puntos b, 5,6,7 se asignan al grupo rojo B.
En el momento n + 1 se introduce un nuevo punto a que se asigna al grupo azul A pero también hace que el punto b también se asigne al grupo azul A.
Al final, los puntos 1, 2, 3, 4, a, b pertenecen a A y los puntos 5, 6, 7 a B. Esto me parece razonable.
Lo que parece simple a primera vista es realmente un poco complicado: mantener identificadores a través de los pasos de tiempo. Permítanme intentar aclarar este punto con un ejemplo más limítrofe:
El punto verde hará que dos puntos azules y dos rojos se fusionen en un grupo que arbitrariamente decidí colorear de azul: ¡tenga en cuenta que este es mi pensamiento heurístico humano en el trabajo!
Una computadora para tomar esta decisión tendrá que usar reglas. Por ejemplo, cuando los puntos se fusionan en un clúster, la identidad del clúster está determinada por la mayoría. En este caso, enfrentaríamos un empate: tanto el azul como el rojo podrían ser opciones válidas para el nuevo clúster (aquí de color azul).
Imagine un quinto punto rojo cerca del verde. Entonces, la mayoría sería roja (3 rojas versus 2 azules), por lo que el rojo sería una buena opción para el nuevo grupo, pero esto contradiría la elección aún más clara de rojo para el grupo más a la derecha, ya que esas han sido rojas y probablemente deberían permanecer así. .
Me parece sospechoso pensar en esto. Al final del día, supongo que no hay reglas perfectas para esto, más bien heurísticas que optimizan algunos criterios de estabilidad.
Esto finalmente lleva a mis preguntas:
- ¿Este "problema" tiene un nombre al que se pueda hacer referencia?
- ¿Hay soluciones "estándar" para esto y ...
- ... ¿hay quizás un paquete R para eso?
Herencia razonable de identidades de clúster en clustering repetitivo