He investigado mucho sobre valores atípicos, particularmente cuando trabajé en la validación de datos de energía en Oak Ridge de 1978 a 1980. Hay pruebas formales de valores atípicos univariantes para datos normales (por ejemplo, la prueba de Grubbs y la prueba de relación de Dixon). Hay pruebas para valores atípicos multivariados y series de tiempo. El libro de Barnett y Lewis sobre "Valores atípicos en datos estadísticos" es la biblia sobre los valores atípicos y cubre casi todo.
Cuando estaba en Oak Ridge trabajando en la validación de datos, teníamos grandes conjuntos de datos multivariados. Para los valores atípicos univariantes hay una dirección para los extremos (muy por encima de la media y muy por debajo de la media). Pero para los valores atípicos multivariantes hay muchas direcciones para buscar valores atípicos. Nuestra filosofía era considerar cuál es el uso previsto de los datos. Si está tratando de estimar ciertos parámetros, como una correlación bivariada o un coeficiente de regresión, entonces desea mirar en la dirección que proporcione el mayor efecto en el parámetro de interés. En ese momento había leído el artículo no publicado de Mallows sobre las funciones de influencia. El uso de funciones de influencia para detectar valores atípicos está cubierto en el libro de análisis multivariado de Gnanadesikan. Por supuesto, también puedes encontrarlo en Barnett y Lewis.
La función de influencia para un parámetro se define en puntos en el espacio multivariado de las observaciones y esencialmente mide la diferencia entre la estimación del parámetro cuando se incluye el punto de datos en comparación con cuando se omite. Puede hacer tales estimaciones con cada punto de muestra, pero generalmente puede derivar una buena forma funcional para la función de influencia que proporciona información y un cálculo más rápido.
Por ejemplo, en mi artículo en el American Journal of Mathematical and Management Science en 1982 "La función de influencia y su aplicación a la validación de datos", muestro la fórmula analítica para la función de influencia para la correlación bivariada y que los contornos de influencia constante son hipérbolas. Entonces, los contornos muestran la dirección en el plano donde la función de influencia aumenta más rápidamente.
En mi artículo muestro cómo aplicamos la función de influencia para la correlación bivariada con los datos del Formulario 4 de FPC sobre generación y consumo de energía. Existe una clara correlación positiva alta entre los dos y encontramos algunos valores atípicos que influyeron mucho en la estimación de la correlación. La investigación adicional mostró que al menos uno de los puntos estaba en error y pudimos corregirlo.
Pero un punto importante que siempre menciono cuando discuto los valores atípicos es que el rechazo automático está mal. El valor atípico no siempre es un error y, a veces, proporciona información importante sobre los datos. Los datos válidos no deben eliminarse solo porque no se ajustan a nuestra teoría de la realidad. Ya sea que sea difícil de hacer o no, siempre se debe investigar la razón por la cual ocurrió el caso atípico.
Debo mencionar que esta no es la primera vez que se analizan los valores atípicos multivariados en este sitio. Una búsqueda de valores atípicos probablemente conduciría a varias preguntas en las que se han discutido valores atípicos multivariantes. Sé que he hecho referencia a mi trabajo y estos libros antes y les he dado enlaces a ellos.
Además, cuando se discute el rechazo atípico, muchos de nosotros en este sitio hemos recomendado no hacerlo, especialmente si se realiza basándose únicamente en una prueba estadística. Peter Huber a menudo menciona una estimación sólida como una alternativa al rechazo atípico. La idea es que los procedimientos robustos reducirán el peso de los valores atípicos y reducirán su efecto en la estimación sin el paso pesado de rechazarlos y usar un estimador no robusto.
La función de influencia fue desarrollada originalmente por Frank Hampel en su tesis doctoral a principios de la década de 1970 (creo que en 1974). En realidad, su idea era utilizar funciones de influencia para identificar estimadores que no fueran robustos frente a valores atípicos y ayudar a desarrollar estimadores robustos.
Aquí hay un enlace a una discusión previa sobre este tema donde mencioné algunos trabajos míos sobre la detección de valores atípicos en series de tiempo utilizando funciones de influencia.