La distancia de Mahalanobis, cuando se usa con fines de clasificación, generalmente asume una distribución normal multivariada, y las distancias desde el centroide deberían seguir un distribución (con grados de libertad igual al número de dimensiones / características). Podemos calcular la probabilidad de que un nuevo punto de datos pertenezca al conjunto utilizando su distancia de Mahalanobis.
Tengo conjuntos de datos que no siguen una distribución normal multivariante ( ). En teoría, cada característica debe seguir una distribución de Poisson, y empíricamente este parece ser el caso de muchas características ( ), y aquellas que no están en el ruido y pueden eliminarse del análisis. ¿Cómo puedo clasificar nuevos puntos en estos datos?
Supongo que hay dos componentes:
- ¿Cuál es una fórmula apropiada de "distancia de Mahalanobis" en estos datos (es decir, distribución multivariada de Poisson)? ¿Existe una generalización de la distancia a otras distribuciones?
- Ya sea que use la distancia normal de Mahalanobis u otra formulación, ¿cuál debería ser la distribución de estas distancias? ¿Hay una manera diferente de hacer la prueba de hipótesis?
Alternativamente...
El número de puntos de datos conocidos en cada clase varía ampliamente, desde (muy pocos; determinaré un mínimo empíricamente) a alrededor de . La distancia de Mahalanobis se escala con , por lo que las distancias de un modelo / clase a la siguiente no se pueden comparar directamente. Cuando los datos se distribuyen normalmente, la prueba de ji cuadrado proporciona una forma de comparar distancias de diferentes modelos (además de proporcionar valores críticos o probabilidades). Si hay otra forma de comparar directamente las distancias "al estilo Mahalanobis", incluso si no proporciona probabilidades, podría trabajar con eso.