¿Una medida robusta (no paramétrica) como Coeficiente de variación - IQR / mediana, o alternativa?


12

Para un conjunto dado de datos, la dispersión a menudo se calcula como la desviación estándar o como el IQR (rango intercuartil).

Mientras que a standard deviationestá normalizado (puntajes z, etc.) y, por lo tanto, puede usarse para comparar la propagación de dos poblaciones diferentes, este no es el caso con el IQR ya que las muestras de dos poblaciones diferentes podrían tener valores en dos escalas bastante diferentes,

 e.g. 
 Pop A:  100, 67, 89, 75, 120, ...
 Pop B:  19, 22, 43, 8, 12, ...

Lo que busco es una medida robusta (no paramétrica) que puedo usar para comparar la variación dentro de diferentes poblaciones.

Opción 1: IQR / Medianesto sería por analogía con el coeficiente de variación , es decir, con .σμ

Elección 2: Range / IQR

Pregunta: ¿Cuál es la medida más significativa para comparar la variación entre poblaciones? Y si es la Opción 1, ¿es la Opción 2 útil para algo / significativo, o es una medida fundamentalmente defectuosa?


Gracias por la discusión tan útil. Algunos seguimientos útiles: diferentes definiciones de cuartiles y, por lo tanto, IQR (John), desviación estándar que de hecho no estandariza (Harvey) y gráficos QQ como una herramienta para comparar dos distribuciones (Peter). (¡+1 a las tres respuestas!)
Assad Ebrahim

Respuestas:


13

La pregunta implica que la desviación estándar (DE) de alguna manera está normalizada, por lo que puede usarse para comparar la variabilidad de dos poblaciones diferentes. No tan. Como dijeron Peter y John, esta normalización se realiza como cuando se calcula el coeficiente de variación (CV), que es igual a SD / media. El SD ​​está en las mismas unidades que los datos originales. En contraste, el CV es una relación sin unidades.

Su elección 1 (IQR / mediana) es análoga a la CV. Al igual que el CV, solo tendría sentido cuando los datos son datos de relación. Esto significa que cero es realmente cero. Un peso de cero no es peso. Una longitud de cero no es longitud. Como contraejemplo, no tendría sentido para la temperatura en C o F, ya que la temperatura de cero grados (C o F) no significa que no haya temperatura. Simplemente cambiar entre el uso de la escala C o F le daría un valor diferente para el CV o para la relación IQR / Median, lo que hace que ambas relaciones no tengan sentido.

Estoy de acuerdo con Peter y John en que su segunda idea (Range / IQR) no sería muy sólida para los valores atípicos, por lo que probablemente no sería útil.


2
Harvey - gracias - tienes razón, SD no está normalizado en absoluto ... Estaba confundiendo el concepto de z-scoresestandarizar valores y normalizar su posición dentro de una distribución en términos de la media y la desviación estándar, con este problema, que se trata de poder clasificar grupos de productos en orden de variabilidad. Eligió su respuesta como la correcta porque, si bien Peter y John fueron muy útiles, la suya me alertó sobre la confusión conceptual. Un buen punto sobre la Elección 1 es de uso limitado cerca de la mediana 0. Afortunadamente, en mi problema, no tengo que preocuparme por esto.
Assad Ebrahim

Me gustaría usar esto en un documento. ¿Hay un buen lugar al que se hace referencia (libro / en algún lugar revisado por pares)?
Ben Bolker 01 de

15

Es importante darse cuenta de que el mínimo y el máximo a menudo no son estadísticas muy buenas para usar (es decir, pueden fluctuar mucho de una muestra a otra, y no siguen una distribución normal ya que, por ejemplo, la media podría deberse al Teorema del límite central) . Como resultado, el rango rara vez es una buena opción para otra cosa que no sea establecer el rango de esta muestra exacta . Para que una estadística simple, no paramétrica, represente la variabilidad, el rango intercuartil es mucho mejor. Sin embargo, aunque veo la analogía entre IQR / mediana y el coeficiente de variación, no creo que esta sea la mejor opción.

MADM=median(|ximedian(x)|)

1
Elección interesante de MADM/median, esencialmente la diferencia media del valor medio. Llamemos a esta opción 3. De acuerdo con su evaluación de la opción 1, así que está fuera, gracias. Cuando sugiere "mejor", ¿qué atributos se pueden usar para comparar la Opción 2 con la Opción 3 para ver cuál es mejor?
Assad Ebrahim

1
Los atributos que usaría dependerían de cuáles sean sus objetivos para la métrica. Sin embargo, solo quise decir que es una mejor analogía para el CoV. NB que el 3er cuartil es la mediana de sus datos que están por encima de la mediana, y el 1er q es la mediana de los siguientes, por lo que IQR / 2 a la larga será igual a MADM (nb, no se garantiza que sean iguales en una muestra dada). El IQR variará aún más, en promedio, de su verdadero valor en el pop, pero no estoy seguro de las implicaciones, si las hubiera, y el soporte. errar. de IQR / 2 debería ser lo mismo que SE de MADM.
gung - Restablece a Monica

Ya veo, gracias por la aclaración. Buen punto sobre la interpretación mediana de Q3 y Q1. Voy a MADM/medianintentarlo al lado IQR/median. La comparación lado a lado puede ser interesante. (+1 por la sugerencia interesante)
Assad Ebrahim

6

"Elección 1" es lo que desea si está utilizando no paramétricos con el propósito común de reducir el efecto de los valores atípicos. Incluso si lo está usando debido a una inclinación que también tiene el efecto secundario de tener valores extremos en la cola, eso podría ser atípico. Su "Elección 2" podría verse dramáticamente afectada por valores atípicos o cualquier valor extremo, mientras que los componentes de su primera ecuación son relativamente robustos contra ellos.

[Esto dependerá un poco del tipo de IQR que seleccione (consulte la ayuda de R sobre cuantiles).]


Tienes razón, debería haber dicho "esto es análogo a la definición del coeficiente de variación ... (Ahora fijado en la pregunta)!
Assad Ebrahim

Gracias por el comentario que depende del tipo de IQR que seleccione ... - ¡No me había dado cuenta de que había tantas definiciones posibles para cuartiles / cuantiles! Estoy usando la función incorporada de Excel quartile( ), y luego tomo IQR := Q3 - Q1. Mis números provienen de una serie temporal de mediciones semanales durante un año. Las mediciones son medidas de rendimiento industrial y, por lo tanto, de una distribución continua. Las diferentes poblaciones son diferentes grupos de productos. En esta situación, ¿no creo que las diferentes definiciones serían muy diferentes en la práctica?
Assad Ebrahim

6

Prefiero no calcular medidas como CV porque casi siempre tengo un origen arbitrario para la variable aleatoria. Con respecto a la elección de una medida de dispersión robusta, es difícil superar la diferencia de medias de Gini, que es la media de todos los valores absolutos posibles de las diferencias entre dos observaciones. Para un cálculo eficiente, consulte, por ejemplo, la función del rmspaquete R. GiniMdEn condiciones normales, la diferencia media de Gini es 0,98 tan eficiente como la DE para estimar la dispersión.


3

Como @John, nunca he oído hablar de esa definición de coeficiente de variación. No lo llamaría así si lo usara, confundiría a la gente.

"¿Cuál es más útil?" dependerá de para qué lo quieras usar. Ciertamente, la opción 1 es más robusta para los valores atípicos, si está seguro de que eso es lo que desea. Pero, ¿cuál es el propósito de comparar las dos distribuciones? ¿Que estás tratando de hacer?

Una alternativa es estandarizar ambas medidas y luego mirar los resúmenes.

Otro es un diagrama QQ.

Hay muchos otros también.


Buen punto: debería haber dicho de forma análoga al coeficiente de variación (he hecho la corrección).
Assad Ebrahim

Mis números provienen de una serie temporal de mediciones semanales durante un año. Las mediciones son medidas de rendimiento industrial y, por lo tanto, de una distribución continua. Las diferentes poblaciones son diferentes grupos de productos y tengo alrededor de 50 grupos de productos. Lo que intento hacer es poder comparar la variabilidad inherente entre diferentes grupos de productos. En particular, quiero poder clasificar los grupos de productos en orden decreciente de variabilidad.
Assad Ebrahim

¿Qué quiere decir 'estandarizar ambas medidas y luego mirar los resúmenes'? ¡Pensé que Choice 1 los estaba estandarizando ...!
Assad Ebrahim

2

Este artículo presenta dos buenas alternativas robustas para el coeficiente de variación. Uno es el rango intercuartil dividido por la mediana, es decir:

IQR / mediana = (Q3-Q1) / mediana

La otra es la desviación absoluta media dividida por la mediana, es decir:

MAD / mediana

Los comparan y concluyen que, en general, el segundo es un poco menos variable y probablemente mejor para la mayoría de las aplicaciones.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.