PCA robusta versus distancia de Mahalanobis robusta para detección atípica

El PCA robusto (desarrollado por Candes et al. 2009 o mejor aún, Netrepalli et al. 2014 ) es un método popular para la detección de valores atípicos multivariados , pero la distancia de Mahalanobis también se puede utilizar para la detección de valores atípicos dada una estimación robusta y regularizada de la matriz de covarianza . Tengo curiosidad sobre las (des) ventajas de usar un método sobre el otro.

Mi intuición me dice que la mayor distinción entre los dos es la siguiente: cuando el conjunto de datos es "pequeño" (en un sentido estadístico), el PCA robusto dará una covarianza de rango inferior, mientras que la estimación de matriz de covarianza robusta en su lugar dará un valor completo. covarianza de rango debido a la regularización de Ledoit-Wolf. ¿Cómo afecta esto a su vez a la detección de valores atípicos?

— Mustafa S Eisa
fuente

Pregunta interesante pero no puedo ver cómo se puede motivar una respuesta sin un caso de uso específico. ¿Tiene "observaciones muy corruptas" ? ¿Tiene datos generalmente ruidosos? Una serie de implementaciones de RPCA son esencialmente técnicas robustas de estimación de covarianza (ver Análisis de componentes principales de Jolliffe, Ed. 2nd Ch. 10) donde las PC se estiman a partir de la estimación regularizada de la covarianza. Por lo tanto, las distinciones de los dos enfoques que menciona están lejos de ser claras. En general, la detección automática de valores atípicos es exitosa en el contexto de una aplicación en particular.

— usεr11852 dice Reinstate Monic el

El problema de "datos ruidosos" no es una detección atípica. Creo que el problema de detección de valores atípicos es lo suficientemente restrictivo por sí solo como para permitir una comparación general entre estos dos métodos sin un caso de uso. Esta es una pregunta sobre metodología.

— Mustafa S Eisa

Tal vez traté de decir demasiado en muy poco espacio, lo siento. Lo que quiero llamar la atención es que los dos enfoques que menciona no son distintos. Debería considerar centrarse más en la comparación entre un enfoque de búsqueda de proyección (lo que llama RPCA) y un enfoque robusto de estimación de covarianza (lo que llama distancias de Mahalanobis). La sólida estimación de covarianza en sí misma es una metodología perfectamente válida para las implementaciones de RPCA (por ejemplo, google "PCA M-Estimation"). Sin mencionar también la presencia de enfoques de PCA ponderados que de alguna manera no menciona en el contexto de RPCA.

— usεr11852 dice Reinstate Monic el

No es necesario pedir disculpas :) Los dos métodos son muy distintos, especialmente en conjuntos de datos pequeños. Una de las formas en que son diferentes se menciona al final de mi pregunta. Si bien la PCA (robusta) puede verse como un problema de proyección, también puede interpretarse como un problema de estimación de covarianza, por lo que quizás haya menos distinción en el método de estimación de parámetros que en la aplicación y el rendimiento.

— Mustafa S Eisa

@ MustafaSEisa / ¡Buena pregunta! Creo que puede responderse por razones metodológicas: de hecho, es una de mis pete pees. Intentaré una respuesta tentativa lo antes posible. Mientras tanto; Creo que una forma fructífera de abordarlo en términos más generales es mirar las consecuencias de usar modelos con un grupo de invariancia anidado pero desigual. Como trato de hacer aquí en un contexto ligeramente diferente.

— usuario603

Este documento compara algunos métodos en esta área. Se refieren al enfoque de PCA robusto al que se vinculó como "PCP" (búsqueda de componentes principales) y la familia de métodos a los que se vinculó para una estimación de covarianza robusta como estimadores M.

Argumentan que

PCP está diseñado para coordenadas de datos uniformemente corruptas, en lugar de puntos de datos corruptos (es decir, valores atípicos), por lo tanto, la comparación con PCP es algo injusto para este tipo de datos

y demuestre que PCP (también conocido como PCA robusto) puede fallar en la detección de valores atípicos en algunos casos.

También hablan sobre tres tipos de "enemigos de la recuperación del subespacio", es decir, diferentes tipos de valores atípicos y qué tipos de métodos podrían funcionar bien para tratar con cada uno. Comparar sus propios valores atípicos con los tres tipos de "enemigos" discutidos aquí podría ayudarlo a elegir un enfoque.

— David J. Harris
fuente

Gracias por esto David, echaré un vistazo al periódico. Sin embargo, hay una versión de PCA robusta que impone una penalización rotatoriamente invariante en el dato (filas de la matriz de datos) en lugar de una penalización en las coordenadas (como en el caso de Candes). Pensamientos?

— Mustafa S Eisa

No estoy seguro de entender tu pregunta. ¿Me está pidiendo que compare los dos enfoques que discutió en su pregunta con un enfoque PCA robusto diferente?

— David J. Harris

ℓ_{1}

$\ell_1$

ℓ_{1}

$\ell_1$

Si su respuesta es "No", está totalmente bien, solo me pregunto.

— Mustafa S Eisa

Oh ya veo. ¿Sería ese un caso especial de distancia Mahalanobis?

— David J. Harris