La definición estándar de un valor atípico para un diagrama de Caja y Bigotes son los puntos fuera del rango , donde y es el primer cuartil y es el tercer cuartil de los datos. I Q R
¿Cuál es la base de esta definición? Con una gran cantidad de puntos, incluso una distribución perfectamente normal devuelve valores atípicos.
Por ejemplo, suponga que comienza con la secuencia:
xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)
Esta secuencia crea una clasificación porcentual de 4000 puntos de datos.
La prueba de normalidad para los resultados qnorm
de esta serie resulta en
shapiro.test(qnorm(xseq))
Shapiro-Wilk normality test
data: qnorm(xseq)
W = 0.99999, p-value = 1
ad.test(qnorm(xseq))
Anderson-Darling normality test
data: qnorm(xseq)
A = 0.00044273, p-value = 1
Los resultados son exactamente los esperados: la normalidad de una distribución normal es normal. Crear un qqnorm(qnorm(xseq))
crea (como se esperaba) una línea recta de datos:
Si se crea un diagrama de caja de los mismos datos, boxplot(qnorm(xseq))
produce el resultado:
El diagrama de caja, a diferencia de shapiro.test
, ad.test
o qqnorm
identifica varios puntos como los valores atípicos cuando el tamaño de la muestra es suficientemente grande (como en este ejemplo).