Marcar valores atípicos no es una decisión judicial (o, en cualquier caso, no tiene por qué serlo). Dado un modelo estadístico, los valores atípicos tienen una definición precisa y objetiva: son observaciones que no siguen el patrón de la mayoría de los datos. Dichas observaciones deben separarse al inicio de cualquier análisis simplemente porque su distancia del grueso de los datos garantiza que ejercerán una atracción desproporcionada en cualquier modelo multivariable ajustado por la máxima probabilidad (o incluso cualquier otra función de pérdida convexa).
Es importante señalar que multivariable valor atípico s puede simplemente no ser detectado de forma fiable utilizando residuos de un ajuste de mínimos cuadrados (o cualquier otro modelo estimado por ML, o cualquier otra función de pérdida convexa). En pocas palabras, los valores atípicos multivariables solo pueden detectarse de manera confiable usando sus residuos de un modelo ajustado usando un procedimiento de estimación que no es susceptible de ser influenciado por ellos.
La creencia de que los valores atípicos necesariamente se destacarán en los residuos de un ajuste clásico se ubica en algún lugar con otros no-estadísticos difíciles de desacreditar, como interpretar los valores p como medida de evidencia o hacer inferencia en una población de una muestra sesgada. Excepto quizás que este podría ser mucho más antiguo: el propio Gauss recomendó el uso de estimadores robustos como la mediana y la locura (en lugar de la media clásica y las desviaciones estándar) para estimar los parámetros de una distribución normal a partir de observaciones ruidosas (incluso yendo en cuanto a derivar el factor de consistencia del loco (1)).
Para dar un ejemplo visual simple basado en datos reales, considere los datos infames de la estrella CYG . La línea roja aquí representa el ajuste de menor cuadrado, la línea azul que obtuvo el ajuste usando un ajuste de regresión lineal robusto. El ajuste robusto aquí es el ajuste FastLTS (2), una alternativa al ajuste LS que se puede usar para detectar valores atípicos (porque utiliza un procedimiento de estimación que garantiza que la influencia de cualquier observación sobre el coeficiente estimado esté limitada). El código R para reproducirlo es:
library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)
Curiosamente, las 4 observaciones externas a la izquierda ni siquiera tienen los residuos más grandes con respecto al ajuste LS y el gráfico QQ de los residuos del ajuste LS (o cualquiera de las herramientas de diagnóstico derivadas de ellos, como la distancia de Cook o el dfbeta) no muestra ninguno de ellos como problemático. Esta es realmente la norma: no se necesitan más de dos valores atípicos (independientemente del tamaño de la muestra) para obtener las estimaciones de LS de tal manera que los valores atípicos no se destaquen en un gráfico residual. Esto se llama efecto de enmascaramientoy está bien documentado Quizás lo único notable sobre el conjunto de datos CYGstars es que es bivariado (por lo tanto, podemos usar inspección visual para confirmar el resultado del ajuste robusto) y que en realidad hay una buena explicación de por qué estas cuatro observaciones a la izquierda son tan anormales.
Esta es, por cierto, la excepción más que la regla: excepto en pequeños estudios piloto que involucran muestras pequeñas y pocas variables y donde la persona que realiza el análisis estadístico también participó en el proceso de recopilación de datos, nunca he experimentado un caso en el que las creencias previas sobre La identidad de los valores atípicos era realmente cierta. Por cierto, esto es silencioso y fácil de verificar. Independientemente de si los valores atípicos se han identificado utilizando un algoritmo de detección de valores atípicos o la intuición del investigador, los valores atípicos son, por definición, observaciones que tienen una influencia anormal (o `` atracción '') sobre los coeficientes obtenidos de un ajuste LS. En otras palabras, los valores atípicos son observaciones cuya eliminación de la muestra debería afectar severamente el ajuste LS.
Aunque nunca he experimentado esto personalmente, hay algunos casos bien documentados en la literatura donde las observaciones marcadas como atípicas por un algoritmo de detección de valores atípicos fueron descubiertas posteriormente como errores graves o generados por un proceso diferente. En cualquier caso, no está científicamente justificado ni es sabio eliminar solo los valores atípicos si de alguna manera se pueden entender o explicar. Si una pequeña camarilla de observaciones está tan alejada del cuerpo principal de los datos que puede extraer por sí sola los resultados de un procedimiento estadístico por sí misma, es prudente (y podría agregar natural) tratarla aparte, independientemente de si No es que estos puntos de datos sean sospechosos por otros motivos.
(1): ver Stephen M. Stigler, La historia de la estadística: la medición de la incertidumbre antes de 1900.
(2): Computación de la regresión LTS para grandes conjuntos de datos (2006) PJ Rousseeuw, K. van Driessen.
(3): Métodos robustos multivariados de alto desglose (2008). Hubert M., Rousseeuw PJ y Van Aelst S. Fuente: Statist. Sci. Volumen 23, 92-119.