Contestaré sus preguntas en el orden opuesto en que las hizo, para que la exposición proceda de lo específico a lo general.
Primero, consideremos una situación en la que puede suponer que, a excepción de una minoría de valores atípicos, la mayor parte de sus datos puede describirse bien mediante una distribución conocida (en su caso, la exponencial).
X
pagsX( x ) = σ- 1exp ( - ( x - θ )σ) ,x > 0 ; σ> 0
Xθ = 0
Los estimadores MLE habituales de los parámetros son [0, p 506]:
θ^= minyoXyo
y
σ^= aveyoXyo- minyoXyo
Aquí hay un ejemplo en R
:
n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)
σ≈ 2.08
Xyo- xyo
m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)
σ≈ 11.12Xyo100 xyo
m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)
σ≈ 54
Una alternativa al MLE sin procesar es (a) encontrar los valores atípicos utilizando una regla de identificación de valores atípicos robustos , (b) ponerlos a un lado como datos espurios y (c) calcular el MLE en la parte no espuria de la muestra.
La más conocida de estas robustas reglas de identificación de valores atípicos es la regla med / mad propuesta por Hampel [3], quien la atribuyó a Gauss (ilustré esta regla aquí ). En la regla med / mad, el umbral de rechazo se basa en el supuesto de que las observaciones genuinas en su muestra están bien aproximadas por una distribución normal.
Por supuesto, si tiene información adicional (como saber que la distribución de las observaciones genuinas está bien aproximada por una distribución de Poisson como en este ejemplo ), no hay nada que le impida transformar sus datos y usar la regla de rechazo de valores atípicos de referencia (el med / mad) pero esto me parece un poco incómodo transformar los datos para preservar lo que, después de todo, es una regla ad-hoc.
Me parece mucho más lógico preservar los datos pero adaptar las reglas de rechazo. Entonces, aún usaría el procedimiento de 3 pasos que describí en el primer enlace anterior, pero con el umbral de rechazo adaptado a la distribución, sospecha que tiene la buena parte de los datos. A continuación, doy la regla de rechazo en situaciones donde las observaciones genuinas están bien ajustadas por una distribución exponencial. En este caso, puede construir buenos umbrales de rechazo utilizando la siguiente regla:
θ
θ^′= medyoXyo- 3.476 Qn ( x ) ln2
≈ 3.476
2) rechazar como espurias todas las observaciones fuera de [2, p 188]
[ θ^′, 9 ( 1 + 2 / n ) medyoXyo+θ^′]
(el factor 9 en la regla anterior se obtiene como el 7.1 en la respuesta de Glen_b anterior, pero utilizando un límite superior. El factor (1 + 2 / n) es un factor de corrección de muestra pequeño que se obtuvo mediante simulaciones en [2]. Para tamaños de muestra lo suficientemente grandes, es esencialmente igual a 1).
σ
σ^′= avei ∈ HXyo- mini ∈ HXyo
H= { i : θ^′≤ xyo≤ 9 ( 1 + 2 / n ) medyoXyo+ θ^′}
usando esta regla en los ejemplos anteriores, obtendría:
library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])
σ≈ 2.05
theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])
σ≈ 2.2
En el tercer ejemplo:
theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])
σ≈ 2.2
{ i : i ∉ H}
Ahora, para el caso general en el que no tiene una buena distribución de candidatos para ajustarse al grueso de sus observaciones más allá de saber que una distribución simétrica no funcionará, puede usar el diagrama de caja ajustado [4]. Esta es una generalización del diagrama de caja que tiene en cuenta una medida (no paramétrica y atípica robusta) de asimetría de sus datos (de modo que cuando la mayor parte de los datos es simétrica se colapsa hasta el diagrama de caja habitual). También puede consultar esta respuesta para ver una ilustración.
- [0] Johnson NL, Kotz S., Balakrishnan N. (1994). Distribuciones Univariadas Continuas, Volumen 1, 2da Edición.
- [1] Rousseeuw PJ y Croux C. (1993). Alternativas a la mediana de la desviación absoluta. Revista de la Asociación Americana de Estadística, vol. 88, núm. 424, págs. 1273-1283.
- [2] JK Patel, CH Kapadia y DB Owen, Dekker (1976). Manual de distribuciones estadísticas.
- [3] Hampel (1974). La curva de influencia y su papel en la estimación robusta. Revista de la Asociación Americana de Estadística vol. 69, núm. 346 (junio de 1974), págs. 383-393.
- [4] Vandervieren, E., Hubert, M. (2004) "Un diagrama de caja ajustado para distribuciones sesgadas". Estadísticas computacionales y análisis de datos Volumen 52, número 12, 15 de agosto de 2008, páginas 5186–5201.
1.5*IQR
definición de un valor atípico no se acepta universalmente. Intente descargar su pregunta y ampliar el problema que está tratando de resolver.