Me gustan los modelos de mezcla gaussiana (GMM).
Una de sus características es que, en el dominio probit , actúan como interpoladores por partes. Una implicación de esto es que pueden actuar como una base de reemplazo, un aproximador universal. Esto significa que para las distribuciones no gaussianas, como las lognormales, las weibull o las no analíticas más locas, siempre que se cumplan algunos criterios, el GMM puede aproximar la distribución.
Entonces, si conoce los parámetros de la aproximación óptima de AICc o BIC utilizando GMM, puede proyectarlos en dimensiones más pequeñas. Puede rotarlo y observar los ejes principales de los componentes del GMM aproximado.
La consecuencia sería una forma informativa y visualmente accesible de ver las partes más importantes de los datos de dimensiones superiores utilizando nuestra percepción visual de visualización en 3D.
EDITAR: (claro, whuber)
Hay varias formas de ver la forma.
- Puedes mirar las tendencias en los medios. Un lognormal se aproxima por una serie de gaussianos que significa acercarse progresivamente y cuyos pesos se hacen más pequeños a lo largo de la progresión. La suma se aproxima a la cola más pesada. En n dimensiones, una secuencia de tales componentes formaría un lóbulo. También puede rastrear distancias entre medias (convertir a alta dimensión) y cosenos de dirección entre ellas. Esto se convertiría en dimensiones mucho más accesibles.
- Puede hacer un sistema 3D cuyos ejes son el peso, la magnitud de la media y la magnitud de la varianza / covarianza. Si tiene un recuento de clústeres muy alto, esta es una forma de verlos en comparación entre sí. Es una forma valiosa de convertir 50k partes con 2k medidas cada una en unas pocas nubes en un espacio 3d. Puedo ejecutar el control de proceso en ese espacio, si así lo elijo. Me gusta la recurrencia del uso del control basado en el modelo de mezcla gaussiana en componentes del modelo de mezcla gaussiana que se ajusta a los parámetros de la parte.
- En términos de desorden, puede tirar por un peso muy pequeño, o por peso por covarianza, o tal.
- R2
- Podrías mirarlo como burbujas que se cruzan . La ubicación de igual probabilidad (divergencia Kullback-Leibler cero) existe entre cada par de grupos GMM. Si rastrea esa posición, puede filtrar por probabilidad de membresía en esa ubicación. Le dará puntos de límites de clasificación. Esto te ayudará a aislar a los "solitarios". Puede contar el número de dichos límites por encima del umbral por miembro y obtener una lista de "conectividad" por componente. También puede mirar ángulos y distancias entre ubicaciones.
- Puede volver a muestrear el espacio utilizando números aleatorios dados los PDF gaussianos, y luego realizar un análisis de componentes principales en él, y observar las formas propias y los valores propios asociados con ellos.
EDITAR:
¿Qué significa forma? Dicen que la especificidad es el alma de toda buena comunicación.
¿Qué quieres decir con "medida"?
Ideas sobre lo que puede significar:
- Sentido / sensación de la norma del globo ocular de forma general. (accesibilidad visual extremadamente cualitativa)
- medida de la forma de GD&T (coplanaridad, concentricidad, etc.) (extremadamente cuantitativa)
- algo numérico (valores propios, covarianzas, etc.)
- una coordenada útil de dimensión reducida (como que los parámetros GMM se conviertan en dimensiones)
- un sistema de ruido reducido (suavizado de alguna manera, luego presentado)
La mayoría de las "varias formas" son alguna variación de estas.