Encontrar valores atípicos sin asumir una distribución normal

8

Tengo pequeños conjuntos de datos de tamaño 40-50 puntos. Sin suponer que los datos se distribuyen normalmente, quería conocer los valores atípicos con un 90% de confianza al menos. Pensé que boxplot podría ser una buena manera de hacerlo, pero no estoy seguro.

Cualquier ayuda apreciada.

También con las implementaciones de boxplot no pude encontrar una implementación que, además de dibujar la trama, explícitamente escupe los valores atípicos.

— Abhi
fuente

77

¿90% de confianza de qué?

— Henry

Lo que también veo a veces es que los investigadores eliminan el X% superior e inferior de sus observaciones para reducir la influencia de casos extremos. Pero no estoy seguro de si estoy de acuerdo, es bastante arbitrario, ¿no?

— C. Pieters

No tiene que asumir que sus datos se distribuyen normalmente, pero como sabe con qué datos está tratando, puede usar otra distribución paramétrica. Por ejemplo, los tiempos de espera son a menudo distribuidos por Poisson. Entonces tiene sentido decir si un punto de datos de Poisson probablemente sea generado por una distribución dada de ellos.

— Jack Tanner

22

Eso se debe a que dicho algoritmo no puede existir. Necesita una distribución supuesta para poder clasificar algo como fuera del rango de valores esperados.

Incluso si asume una distribución normal, declarar los puntos de datos como valores atípicos es un negocio complicado. En general, no solo necesita una buena estimación de la distribución real, que a menudo no está disponible, sino también una buena razón teóricamente respaldada para tomar su decisión (es decir, el sujeto rompió la configuración experimental de alguna manera). Tal juicio es usualmente imposible de codificar en un algoritmo.

— nada101
fuente

11

+1. Además, el uso de "con 90% de confianza" revela un malentendido sobre la forma en que el concepto de confianza podría aplicarse en este caso. Sin una base para un grado de confianza, no hay una forma sistemática de cuantificar el nivel de confianza que uno podría tener. Todo se reduciría a algo arbitrario, como si uno dijera "Estoy x% seguro de que esta sopa es demasiado salada".

— rolando2

55

@ rolando2, así es como puede ser, pero no obstante, estoy 90% seguro de que es un buen comentario.

— gung - Restablece a Monica

6

Esto no responde directamente a su pregunta, pero puede aprender algo mirando el outliersconjunto de datos en el TeachingDemospaquete para R y trabajando a través de los ejemplos en la página de ayuda. Esto puede darle una mejor comprensión de algunos de los problemas con la detección automática de valores atípicos.

— Greg Snow
fuente

2

R escupirá los valores atípicos como en

dat <- c(6,8.5,-12,1,rnorm(40),-1,10,0)
boxplot(dat)$out

que dibujará el diagrama de caja y dará

[1]   6.0   8.5 -12.0  10.0

— Enrique
fuente

2

No, la definición predeterminada de "valor atípico" para un diagrama de caja es algo más que

1.5 I Q R

$1.5 \, IQR$ debajo de la bisagra inferior o cuartil o arriba

1.5 I Q R

$1.5 \, IQR$ encima de la bisagra o cuartil superior, donde

I Q R

$IQR$ es el rango intercuartil Como la asimetría generalmente afectará la posición relativa de los cuartiles y la mediana, no se puede decir que esto suponga una distribución simétrica. Para algo como una distribución exponencial, normalmente solo verá valores atípicos en el extremo superior, pero esto es lo que esperaría de todos modos.

— Henry

44

Vale la pena señalar que encontrar puntos

> | 1.5 I Q R |

$>|1.5IQR|$ es algo que debería suceder con bastante frecuencia y no necesariamente indica ningún problema.

— gung - Restablece a Monica

55

@gung: Esto es

1.5 I Q R

$1.5 IQR$ más allá del cuartil, sobre

2 I Q R

$2 IQR$ de la mediana para una distribución simétrica. También depende de lo que quiere decir con "con bastante frecuencia" y la distribución: casi nunca para una muestra de una distribución uniforme; aproximadamente 0.7% de una muestra de una distribución normal; aproximadamente 5% para una muestra de una distribución exponencial; alrededor del 16% para una muestra de una distribución de Cauchy.

— Henry

1

Recuerdo haber visto un documento breve sobre este hace un tiempo, por supuesto, no puedo encontrar ahora, pero aquí está mi pensamiento: Comienzo w / 2*(1-pnorm(4*qnorm(.75))), que vuelve [1] 0.006976603, el valor que se informa más arriba, pero luego simular la siguiente manera: Set.seed(1); out = c(); for(i in 1:100) x = rnorm(50) y = boxplot(x, plot=F) out[i] = length(y$out)>=1} sum(out)/100los que vuelve [1] 0.3. Es decir, 30% de muestras con

n = 50

$n=50$ se mostrará como teniendo valores atípicos por este método, aunque en realidad no haya ninguno.

— gung - Restablece a Monica

1

@gung: set.seed(1); out = c(); for(i in 1:100) {x = rnorm(500); y = boxplot(x, plot=F); out[i] = length(y$out)}; sum(out)/50000da 0.00738cuál está más cerca de lo que estaba describiendo

— Henry

1

Como otros han dicho, usted ha formulado mal la pregunta en términos de confianza. Hay pruebas estadísticas para valores atípicos como la prueba de Grubbs y la prueba de relación de Dixon a las que me he referido en otra publicación. Asumen que la distribución de la población es normal, aunque la prueba de Dixon es robusta al supuesto de normalidad en muestras pequeñas. Un diagrama de caja es una buena forma informal de detectar valores atípicos en sus datos. Por lo general, los bigotes se establecen en el percentil 5 y 95 y las obsevaciones trazadas más allá de los bigotes generalmente se consideran posibles valores atípicos. Sin embargo, esto no implica pruebas estadísticas formales.

— Michael R. Chernick
fuente

2

Establecer los bigotes en estos percentiles fijos me parece extraño. ¿Tiene una referencia para esto? (Tukey, quien originó el diagrama de caja, no usó este método: colocó los bigotes en los extremos, si están lo suficientemente cerca de los cuartiles, pero no más allá de 1.5 "pasos" (equivalentes aproximadamente a 1.5 veces el IQR) de los cuartiles.) Esto es mucho más robusto para la detección de valores atípicos que el uso de un percentil extremo, que, por definición, siempre identificaría el 10% de los datos como "valores atípicos", lo que no sería un procedimiento muy útil.

— whuber

No sé si debería haberlo dicho habitualmente. Creo que se han usado muchos puntos diferentes para los bigotes. Creo que también se han utilizado el primer percentil y el 99º y el mínimo y el máximo. Pero si usa min y max no puede encontrar valores atípicos más allá de los bigotes. No tengo ninguna referencia específica que se me ocurra en este momento. No quise decir que cualquier cosa fuera de los bigotes sería un caso atípico cuando se usan los percentiles 5 y 95. Solo quería decir que visualmente puedes verlos porque estarán muy por encima o por debajo de los bigotes.

— Michael R. Chernick