¿Cómo medir la forma del racimo?


14

Sé que esta pregunta no está bien definida, pero algunos grupos tienden a ser elípticos o se encuentran en un espacio dimensional inferior, mientras que otros tienen formas no lineales (en ejemplos 2D o 3D).

¿Hay alguna medida de no linealidad (o "forma") de los grupos?

Tenga en cuenta que en el espacio 2D y 3D, no es un problema ver la forma de ningún grupo, pero en espacios de dimensiones superiores es un problema decir algo sobre la forma. En particular, ¿hay alguna medida de cuán convexo es el clúster?

Me inspiraron para esta pregunta muchas otras preguntas de agrupación en las que la gente habla sobre agrupaciones pero nadie puede verlas (en espacios de dimensiones superiores). Además, sé que hay algunas medidas de no linealidad para las curvas 2D.


1
en.wikipedia.org/wiki/Topological_data_analysis puede ayudar, aunque la forma no es exactamente lo que quieres decir.
ziyuang

1
Quizás podría adaptar el concepto de compacidad para su propósito.
usuario12719

Respuestas:


4

Me gustan los modelos de mezcla gaussiana (GMM).

Una de sus características es que, en el dominio probit , actúan como interpoladores por partes. Una implicación de esto es que pueden actuar como una base de reemplazo, un aproximador universal. Esto significa que para las distribuciones no gaussianas, como las lognormales, las weibull o las no analíticas más locas, siempre que se cumplan algunos criterios, el GMM puede aproximar la distribución.

Entonces, si conoce los parámetros de la aproximación óptima de AICc o BIC utilizando GMM, puede proyectarlos en dimensiones más pequeñas. Puede rotarlo y observar los ejes principales de los componentes del GMM aproximado.

La consecuencia sería una forma informativa y visualmente accesible de ver las partes más importantes de los datos de dimensiones superiores utilizando nuestra percepción visual de visualización en 3D.

EDITAR: (claro, whuber)

Hay varias formas de ver la forma.

  • Puedes mirar las tendencias en los medios. Un lognormal se aproxima por una serie de gaussianos que significa acercarse progresivamente y cuyos pesos se hacen más pequeños a lo largo de la progresión. La suma se aproxima a la cola más pesada. En n dimensiones, una secuencia de tales componentes formaría un lóbulo. También puede rastrear distancias entre medias (convertir a alta dimensión) y cosenos de dirección entre ellas. Esto se convertiría en dimensiones mucho más accesibles.
  • Puede hacer un sistema 3D cuyos ejes son el peso, la magnitud de la media y la magnitud de la varianza / covarianza. Si tiene un recuento de clústeres muy alto, esta es una forma de verlos en comparación entre sí. Es una forma valiosa de convertir 50k partes con 2k medidas cada una en unas pocas nubes en un espacio 3d. Puedo ejecutar el control de proceso en ese espacio, si así lo elijo. Me gusta la recurrencia del uso del control basado en el modelo de mezcla gaussiana en componentes del modelo de mezcla gaussiana que se ajusta a los parámetros de la parte.
  • En términos de desorden, puede tirar por un peso muy pequeño, o por peso por covarianza, o tal.
  • R2
  • Podrías mirarlo como burbujas que se cruzan . La ubicación de igual probabilidad (divergencia Kullback-Leibler cero) existe entre cada par de grupos GMM. Si rastrea esa posición, puede filtrar por probabilidad de membresía en esa ubicación. Le dará puntos de límites de clasificación. Esto te ayudará a aislar a los "solitarios". Puede contar el número de dichos límites por encima del umbral por miembro y obtener una lista de "conectividad" por componente. También puede mirar ángulos y distancias entre ubicaciones.
  • Puede volver a muestrear el espacio utilizando números aleatorios dados los PDF gaussianos, y luego realizar un análisis de componentes principales en él, y observar las formas propias y los valores propios asociados con ellos.

EDITAR:

¿Qué significa forma? Dicen que la especificidad es el alma de toda buena comunicación. ¿Qué quieres decir con "medida"?

Ideas sobre lo que puede significar:

  • Sentido / sensación de la norma del globo ocular de forma general. (accesibilidad visual extremadamente cualitativa)
  • medida de la forma de GD&T (coplanaridad, concentricidad, etc.) (extremadamente cuantitativa)
  • algo numérico (valores propios, covarianzas, etc.)
  • una coordenada útil de dimensión reducida (como que los parámetros GMM se conviertan en dimensiones)
  • un sistema de ruido reducido (suavizado de alguna manera, luego presentado)

La mayoría de las "varias formas" son alguna variación de estas.


3

Esto puede ser bastante simplista, pero puede obtener una idea al hacer un análisis de valor propio en cada uno de sus grupos.

Lo que intentaría es tomar todos los puntos asignados a un clúster y ajustarlos con un gaussiano multivariado. Luego puede calcular los valores propios de la matriz de covarianza ajustada y trazarlos. Hay muchas maneras de hacer esto ; quizás el más conocido y ampliamente utilizado se llama análisis de componentes principales o PCA .

Una vez que tenga los valores propios (también llamados espectro), puede examinar sus tamaños relativos para determinar qué tan "extendido" está el grupo en ciertas dimensiones. Cuanto menos uniforme es el espectro, más "en forma de cigarro" es el grupo, y cuanto más uniforme es el espectro, más esférico es el grupo. Incluso podría definir algún tipo de métrica para indicar cuán no uniformes son los valores propios (¿entropía espectral?); ver http://en.wikipedia.org/wiki/Spectral_flatness .

Como beneficio adicional, puede examinar los componentes principales (los vectores propios asociados con grandes valores propios) para ver "dónde" apuntan los grupos "en forma de cigarro" en su espacio de datos.

Naturalmente, esta es una aproximación cruda para un grupo arbitrario, ya que solo modela los puntos en el grupo como un solo elipsoide. Pero, como dije, podría darte una idea.


+1 Simplista, tal vez; Pero esto parece efectivo y práctico. La adaptación gaussiana multivariante no parece tener ninguna ventaja: simplemente use la SVD de los datos centrados dentro del clúster (que es esencialmente PCA en el clúster).
whuber

@whuber sí, ¡creo que hacen lo mismo! La adaptación es más lo que la teoría dice que está sucediendo detrás de escena, mientras que PCA es una implementación concreta de ese proceso. Editaré mi respuesta para aclarar esto.
lmjohns3

2

Los algoritmos de agrupación de correlación como 4C, ERiC o LMCLUS generalmente consideran que los grupos son múltiples lineales. Es decir, hiperplanos k-dimensionales en un espacio d-dimensional. Bueno, para 4C y ERiC solo localmente lineales, por lo que de hecho pueden ser no convexos. Pero todavía intentan detectar grupos de una dimensionalidad local reducida.

Encontrar grupos de formas arbitrarias en datos de alta dimensión es un problema bastante difícil. En particular, debido a la maldición de la dimensionalidad que permite que el espacio de búsqueda explote y al mismo tiempo también requiere que tenga datos de entrada mucho más grandes si aún desea resultados significativos . Demasiados algoritmos no prestan atención a si lo que encuentran sigue siendo significativo o podría ser aleatorio.

De hecho, creo que hay otros problemas que resolver antes de pensar en la convexidad de la no convexidad de los grupos complejos en el espacio de alta dimensión.

También eche un vistazo a la complejidad de calcular el casco convexo en dimensiones más altas ...

Además, ¿tiene un verdadero caso de uso para eso más allá de la curiosidad?


2

Si su dimensionalidad no es muy superior a 2 o 3, entonces podría ser posible proyectar el grupo de interés en el espacio 2D varias veces y visualizar los resultados o utilizar su medición 2D de no linealidad. Pensé en esto debido al método Random Projections http://users.ics.aalto.fi/ella/publications/randproj_kdd.pdf .

Las proyecciones aleatorias se pueden usar para reducir la dimensionalidad para construir un índice. La teoría es que si dos puntos están cercanos en dimensiones D y usted toma una proyección aleatoria en dimensiones d con d

Para concretar, puede pensar en proyectar un globo sobre una superficie plana. No importa cómo lo proyectes, Nueva York y Nueva Jersey van a estar juntas, pero rara vez presionarás a Nueva York y Londres.

No sé si esto puede ayudarlo rigurosamente, pero podría ser una forma rápida de visualizar los grupos.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.