Si sus datos contienen un solo valor atípico, se pueden encontrar de manera confiable utilizando el enfoque que sugiere (sin las iteraciones). Un enfoque formal para esto es
Cocinero, R. Dennis (1979). Observaciones influyentes en regresión lineal . Revista de la Asociación Americana de Estadística ( Asociación Americana de Estadística) 74 (365): 169-174.
Para encontrar más de un valor atípico, durante muchos años, el método principal fue la llamada familia de enfoque de la estimaciónEsta es una familia bastante amplia de estimadores que incluye el estimador de regresión de Huber , la regresión L1 de Koenker y el enfoque propuesto por Procastinator en su comentario a su pregunta. Los estimadores con funciones convexas tienen la ventaja de tener aproximadamente la misma complejidad numérica que una estimación de regresión regular. La gran desventaja es que solo pueden encontrar los valores atípicos de manera confiable si:M M ρMMMρ
- la tasa de contaminación de su muestra es menor que donde es el número de variables de diseño, p11+pp
- o si los valores atípicos no son periféricos en el espacio de diseño (Ellis y Morgenthaler (1992)).
Puede encontrar una buena implementación de ( ) estimaciones de regresión en el paquete ( ) . l 1Ml1robustbase
quantreg
R
Si sus datos contienen más de outlier potencialmente también fuera del espacio de diseño, entonces, encontrarlos equivale a resolver un problema combinatorio (equivalente a la solución de un estimador con re función descendente / no convexa ). Mρ⌊np+1⌋Mρ
En los últimos 20 años (y especialmente los últimos 10) se ha diseñado un gran conjunto de algoritmos de detección de valores atípicos rápidos y confiables para resolver aproximadamente este problema combinatorio. Ahora se implementan ampliamente en los paquetes estadísticos más populares (R, Matlab, SAS, STATA, ...).
No obstante, la complejidad numérica de encontrar valores atípicos con estos enfoques suele ser del orden . La mayoría de los algoritmos se pueden usar en la práctica para los valores de a mediados de la adolescencia. Por lo general, estos algoritmos son lineales en (el número de observaciones), por lo que el número de observaciones no es un problema. Una gran ventaja es que la mayoría de estos algoritmos son vergonzosamente paralelos. Más recientemente, se han propuesto muchos enfoques diseñados específicamente para datos de dimensiones superiores.p nO(2p)pn
Dado que no especificó en su pregunta, enumeraré algunas referencias para el caso . Aquí hay algunos documentos que explican esto con mayor detalle en esta serie de artículos de revisión:p < 20pp<20
Rousseeuw, PJ y van Zomeren BC (1990). Desenmascarar valores atípicos multivariados y puntos de apalancamiento . Revista de la Asociación Americana de Estadística , vol. 85, núm. 411, págs. 633-639.
Rousseeuw, PJ y Van Driessen, K. (2006). Cálculo de la regresión LTS para grandes conjuntos de datos . Archivo de Data Mining and Knowledge Discovery Volumen 12 Número 1, páginas 29-45.
Hubert, M., Rousseeuw, PJ y Van Aelst, S. (2008). Métodos multivariados robustos de alto desglose . Ciencia Estadística , vol. 23, núm. 1, 92–119
Ellis SP y Morgenthaler S. (1992). Apalancamiento y desglose en la regresión L1. Revista de la Asociación Americana de Estadística , vol. 87, núm. 417, págs. 143-148
Un libro de referencia reciente sobre el problema de la identificación de valores atípicos es:
Maronna RA, Martin RD y Yohai VJ (2006). Estadísticas robustas: teoría y métodos . Wiley, Nueva York.
Estos (y muchas otras variaciones de estos) métodos se implementan (entre otros) en el paquete.robustbase
R