El PCA robusto (desarrollado por Candes et al. 2009 o mejor aún, Netrepalli et al. 2014 ) es un método popular para la detección de valores atípicos multivariados , pero la distancia de Mahalanobis también se puede utilizar para la detección de valores atípicos dada una estimación robusta y regularizada de la matriz de covarianza . Tengo curiosidad sobre las (des) ventajas de usar un método sobre el otro.
Mi intuición me dice que la mayor distinción entre los dos es la siguiente: cuando el conjunto de datos es "pequeño" (en un sentido estadístico), el PCA robusto dará una covarianza de rango inferior, mientras que la estimación de matriz de covarianza robusta en su lugar dará un valor completo. covarianza de rango debido a la regularización de Ledoit-Wolf. ¿Cómo afecta esto a su vez a la detección de valores atípicos?