¿Cómo puedo interpretar un gráfico de porcentaje de recorte frente a la media recortada?


12

Para parte de una pregunta de tarea, se me pidió que calcule la media recortada para un conjunto de datos eliminando la observación más pequeña y más grande, e interpretar el resultado. La media recortada fue menor que la media no recortada.

Mi interpretación fue que esto se debía a que la distribución subyacente estaba sesgada positivamente, por lo que la cola izquierda es más densa que la derecha. Como resultado de esta asimetría, eliminar un dato alto arrastra la media hacia abajo más que eliminar uno bajo lo empuja hacia arriba, porque, hablando informalmente, hay más datos bajos "esperando tomar su lugar". (¿Es esto razonable?)

Entonces comencé a preguntarme cómo el porcentaje de recorte afecta esto, así que media recortada ˉ x tr ( k ) para varios k = 1 / n , 2 / n , ... , ( nX¯tr(k). Tengo una forma parabólica interesante: k=1/ /norte,2/ /norte,...,(norte2-1)/ /norteGráfico del porcentaje de recorte frente a la media recortada;  forma una curva cóncava que parece más o menos parabólica

knorte=11

¿Este tipo de gráfico tiene un nombre o se usa comúnmente? ¿Qué información podemos obtener de este gráfico? ¿Hay una interpretación estándar?


Como referencia, los datos son: 4, 5, 5, 6, 11, 17, 18, 23, 33, 35, 80.

Respuestas:


11

@gung y @kjetil b. Halvorsen son ambos correctos.

He encontrado tales gráficos en

Rosenberger, JL y M. Gasko. 1983. Comparación de estimadores de ubicación: medias recortadas, medianas y trimean. En Comprender el análisis de datos robusto y exploratorio , Eds. DC Hoaglin, F. Mosteller y JW Tukey, 297–338. Nueva York: Wiley.

y

Davison, AC y DV Hinkley. 1997. Métodos Bootstrap y su aplicación. Cambridge: Cambridge University Press.

y dar más ejemplos en

Cox, NJ 2013. Recorte al gusto. Stata Journal 13: 640–666. http://www.stata-journal.com/article.html?article=st0313 [acceso gratuito a pdf]

que discutió muchos aspectos de los medios recortados.

Que yo sepa, el gráfico no tiene un nombre distinto. Un nombre distinto para cada posible trama en realidad sería una pequeña pesadilla: la terminología gráfica ya es un desastre horrible. Simplemente lo llamaría una gráfica de media recortada versus número recortado, fracción o porcentaje (invirtiendo así la redacción del OP).

Para más pequeños comentarios sobre "versus", vea mi respuesta en Heteroscedasticity in Regression

EDITAR: para obtener más información sobre versus (solo expertos en idiomas), consulte aquí .


10

Nunca he oído hablar de este gráfico, pero creo que es bastante bueno; Probablemente alguien haya hecho esto antes. Lo que puede hacer con él es ver cómo la media cambia y / o se estabiliza si considera que las diferentes proporciones de sus datos son atípicas. La razón por la que obtiene la forma parabólica es que su distribución (inicial) está sesgada en su conjunto, pero el grado de inclinación no es el mismo en el centro de la distribución. A modo de comparación, considere los gráficos de densidad del núcleo a continuación.

ingrese la descripción de la imagen aquí

A la izquierda están sus datos, ya que se recortan uno por uno. A la derecha están estos datos: y = c(5.016528, 7.601235, 10.188326, 13.000723, 16.204741, 20.000000, 24.684133, 30.767520, 39.260622, 52.623029, 79.736416)que son cuantiles de una distribución lognormal estándar tomada de percentiles igualmente espaciados y multiplicados por 20 para hacer que el rango de valores sea similar.

Sus datos comienzan sesgados a la derecha, pero en la fila 5, quedan sesgados, por lo que recortar más datos comienza a aumentar la media. Los datos de la derecha mantienen un sesgo similar a medida que continúa el recorte.

A continuación se muestra su gráfico para los datos lognormales y los datos uniformes ( z = 1:11sin sesgo, perfectamente simétricos).

ingrese la descripción de la imagen aquí ingrese la descripción de la imagen aquí


4

No creo que este tipo de gráfico tenga un nombre, pero lo que estás haciendo es razonable, y tu interpretación, creo, es válida. Creo que lo que está haciendo está relacionado con la función de influencia de Hampel, consulte https://en.wikipedia.org/wiki/Robust_statistics#Empirical_influence_function, especialmente la sección sobre la función de influencia empírica. Y su gráfica ciertamente podría estar relacionada con alguna medida de asimetría de los datos, ya que, si sus datos fueran perfectamente simétricos, la gráfica sería plana. ¡Deberías investigar eso!

            EDIT     

Una extensión de este gráfico es mostrar también el efecto del uso de diferentes recortes a izquierda y derecha. Como esto no está implementado en la meanfunción habitual con argumento trimen R, escribí mi propia función media recortada. Para obtener una gráfica más uniforme, uso interpolación lineal cuando la fracción de recorte implica eliminar un número no entero de puntos. Esto le da la función:

my.trmean  <-  function(x, trim)  {
    x  <-  sort(x)
    if (length(trim)==1) {
        tr1  <-  tr2  <-  trim }  else {
                                   tr1  <-  trim[1]
                                   tr2  <-  trim[2] }
    stopifnot((0 <= tr1)&& (tr1 <= 0.5)); stopifnot((0 <= tr2)&&(tr2 <= 0.5))
    n  <-  length(x)
    if ((tr1>=0.5-1/n)&&(tr2>=0.5-1/n)) return( median(x) )

    k1  <-  floor(n*tr1) ; k2  <-  floor(n*tr2)
    a1  <-  n*tr1-k1     ; a2  <-  n*tr2-k2
    crange  <-  if ( (k1+2) <= (n-k2-1) ) ((k1+2):(n-k2-1)) else NULL
    trmean  <-  sum(c((1-a1)*x[k1+1], x[crange], (1-a2)*x[n-k2]))/(length(crange)+2-(a1+a2)  )
    trmean     
}

Luego simulo algunos datos y muestra el resultado como un diagrama de contorno:

tr1  <-  seq(0, 0.5, length.out=25)
tr2  <-   seq(0, 0.5, length.out=25)

x  <-  rgamma(10000, 1.5)
vals  <-  outer(tr1, tr2, FUN=Vectorize(function(t1, t2) my.trmean(x, c(t1, t2))))

image(tr1, tr2, vals, xlab="left trimming", ylab="right trimming", main="Effect of trimming")
contour(tr1, tr2, vals, nlevels=20, add=TRUE)

dando este resultado:

gráfico de contorno que muestra el efecto del recorte

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.