¿Cómo interpretar el coeficiente de variación?

33

Estoy tratando de entender el coeficiente de variación . Cuando trato de aplicarlo a las siguientes dos muestras de datos, no puedo entender cómo interpretar los resultados.

Digamos que la muestra 1 es y la muestra 2 es . Aquí muestra 2 muestra 1 como puedes ver. ${0, 5, 7, 12, 11, 17}$ ${10 ,15 ,17 ,22 ,21 ,27}$ $=$ $+\ 10$

Ambos tienen la misma desviación estándar pero y . $\sigma_{2} = \sigma_{1}= 5.95539$ $\mu_{2}=18.67$ $\mu_{1}=8.66667$

Ahora el coeficiente de variación será diferente. Para la muestra 2 será menor que para la muestra 1. Pero, ¿cómo interpreto ese resultado? En términos de varianza, ambos son iguales; solo sus medios son diferentes. Entonces, ¿de qué sirve el coeficiente de variación aquí? Simplemente me está engañando, o tal vez no puedo interpretar los resultados. ${\sigma}/{\mu}$

descriptive-statistics coefficient-of-variation

— Durin
fuente

Si en lugar de sumar 10 agrega 1000, el segundo conjunto de números diferirá en mucho menos, en relación con la media, que el primer conjunto. El coeficiente de variación es una expresión de esto.

Muy relacionado: stats.stackexchange.com/questions/113437/… .

— whuber

42

En ejemplos como el suyo, cuando los datos difieren solo de manera aditiva, es decir, agregamos algo de constante a todo, luego, al señalar que la desviación estándar no cambia, la media cambia exactamente por esa constante, por lo que el coeficiente de variación cambia de a , que no es interesante ni útil. $k$ $\sigma / \mu$ $\sigma / (\mu + k)$

Lo interesante es el cambio multiplicativo y el uso del coeficiente de variación. Para multiplicar todo por alguna constante implica que el coeficiente de variación se convierte en , es decir, permanece igual que antes. El cambio de unidades de medida es un buen ejemplo, como en las respuestas de @Aksalal y @Macond. $k$ $k \sigma/k \mu$

Como el coeficiente de variación no tiene unidades, tampoco tiene dimensiones, ya que las unidades o dimensiones que posee la variable subyacente son eliminadas por la división. Eso hace que el coeficiente de variación sea una medida de la variabilidad relativa , por lo que la variabilidad relativa de las longitudes puede compararse con la de los pesos, y así sucesivamente. Un campo donde el coeficiente de variación ha encontrado algún uso descriptivo es la morfometría del tamaño del organismo en biología.

En principio y en la práctica, el coeficiente de variación solo se define completamente y es útil para variables que son completamente positivas. Por lo tanto, en detalle, su primera muestra con un valor de no es un ejemplo apropiado. Otra forma de ver esto es notar que si la media siempre fuera cero, el coeficiente sería indeterminado y si la media fuera siempre negativa, el coeficiente sería negativo, suponiendo en el último caso que la desviación estándar es positiva. Cualquiera de los casos haría que la medida fuera inútil como medida de variabilidad relativa, o de hecho para cualquier otro propósito. $0$

Una afirmación equivalente es que el coeficiente de variación es interesante y útil solo si los logaritmos se definen de la manera habitual para todos los valores, y de hecho el uso de coeficientes de variación es equivalente a observar la variabilidad de los logaritmos.

$0^\circ$

Como en el caso de los ejemplos extraños de la climatología, que dejo sin referencia ya que los autores no merecen ni el crédito ni la vergüenza, el coeficiente de variación se ha usado en exceso en algunos campos. Ocasionalmente, existe una tendencia a considerarlo como una especie de medida de resumen mágico que encapsula tanto la desviación media como la desviación estándar. Este es un pensamiento naturalmente primitivo, ya que incluso cuando la relación tiene sentido, la desviación media y estándar no se puede recuperar de ella.

En estadística, el coeficiente de variación es un parámetro bastante natural si la variación sigue ya sea el gamma o el lognormal, como se puede ver al observar la forma del coeficiente de variación para esas distribuciones.

Aunque el coeficiente de variación puede ser útil, en los casos en que se aplica, el paso más útil es trabajar en escala logarítmica, ya sea mediante transformación logarítmica o mediante el uso de una función de enlace logarítmico en un modelo lineal generalizado.

$\sigma / |\mu|$

— Nick Cox
fuente

3

+1 Esta publicación incluye los puntos clave sobre logaritmos y positividad que deberían ser parte de cualquier discusión sobre el tema. Las "historias de guerra" también lo hacen una buena lectura.

— whuber

Pensé que no podría calcular CV si una variable es = 0?

1

@Jerf: Piénsalo bien. Si todos los valores son 0, entonces no hay variación ni nada que calcular. No hay ningún problema solo porque algunos valores individuales son 0, ya que eso en sí mismo no descarta que la media sea 0. Sin embargo, siempre puede encontrar ejemplos en los que algunos valores no son cero pero la media es 0, por ejemplo -1, 0, 1 en en cuyo caso el CV es indeterminado. Pero en la práctica, el CV es más útil cuando todos los valores son positivos.

— Nick Cox

13

Imagine que dije "Hay 1.625.330 personas en esta ciudad. Más o menos cinco". Te impresionaría mi conocimiento demográfico exacto.

Pero si dijera "Hay cinco personas en esta casa. Más o menos cinco". Uno pensaría que no tenía idea de cuántas personas había en la casa.

Misma desviación estándar, CV muy diferentes.

— Bart
fuente

1

Esta es una forma razonable de explicar qué es el CoV, pero no está claro qué tan relevante es para la pregunta del OP.

— gung - Restablece a Monica

OP pregunta: "En términos de varianza, ambos son iguales; solo sus medias son diferentes. Entonces, ¿de qué sirve el coeficiente de variación aquí?" Creo que mi ejemplo ilustra el uso del CV como una forma de interpretar la varianza.

— Bart

1

No te menosprecié. Las 2 preguntas explícitas del OP son: "¿cómo interpreto ese resultado?", Y "¿de qué sirve el coeficiente de variación aquí?". Su explicación es buena, pero comprender qué es el CoV es solo el primer paso para responder esas preguntas, no toda la respuesta a esas preguntas.

— gung - Restablece a Monica

4

Normalmente, utiliza el coeficiente de variación para variables de diferentes unidades de medida o escalas muy diferentes. Puedes considerarlo como una relación ruido / señal. Por ejemplo, es posible que desee comparar la variabilidad del peso y la altura de los estudiantes; variabilidad del PIB de EE. UU. y Mónaco.

En su caso, el coeficiente de variación puede no tener mucho sentido, ya que los valores no son muy diferentes.

— Aksakal
fuente

2

$s / \bar{x}$

— Macond
fuente

2

En realidad, ambas estadísticas pueden ser engañosas si no conoce o comprende su hipótesis y experimento. Considere este horrible ejemplo ... Caminando por dos edificios de gran altura sobre una cuerda floja en lugar de caminar sobre una tabla. Digamos que la cuerda floja tiene un diámetro de 1 pulgada, mientras que la tabla tiene 12 pulgadas de ancho. Se les pidió a 5 personas que caminaran la cuerda y a 5 que caminaron por la tabla. Encontramos los siguientes resultados:

La distancia promedio de cada paso desde el borde (o lado) de la cuerda (pulgadas): 0.5, 0.2, 0.3, 0.6, 0.1

La distancia promedio de cada paso desde el borde (o lado) de la tabla (pulgadas): 5.5, 5.2, 5.3, 5.6, 5.1

Al igual que en su ejemplo, este ejemplo dará como resultado desviaciones estándar iguales ya que los valores para el tablón son simplemente una diferencia de +5 con respecto a los de la cuerda floja. Sin embargo, si te dijera que la desviación estándar para cada experimento fue 0,2074, podrías decir que los dos experimentos fueron equivalentes. Sin embargo, si te dijera que el CV para el experimento de la cuerda floja fue casi 61% en comparación con menos del 4% para la tabla, podrías inclinarte a preguntarme cuántas personas se cayeron de la cuerda.

— usuario62371
fuente

0

CV es una variabilidad relativa que se utiliza para comparar la variabilidad de diferentes conjuntos de datos de muestra. Para su ejemplo, la misma desviación / varianza estándar con una media menor generará un CV más pequeño. indica que un conjunto de datos CV más pequeño tiene una variabilidad relativa menor. Suponga que gana 10000 mensualmente, y yo gano 100. (media diferente) probablemente todos perdamos 100 mensuales (variación), me lastimaré mucho más que usted ya que obtengo un CV más grande (cv = 1 en comparación con el suyo 0.01), relativo mayor variación

— Sun Ke
fuente

1

Tengo que decir que esto no agrega nada a las respuestas existentes.

— Nick Cox

0

en este caso, cv no es la herramienta estadística adecuada para explicar el resultado.

Dependiendo de la naturaleza de la investigación llevada a cabo, por lo tanto, el objetivo, el investigador tiene una hipótesis específica o punto de prueba. Él o ella debe diseñar, ejecutar experimentos y analizar datos utilizando la herramienta estadística mejor y apropiada, es decir, si el experimento es para comparar el crecimiento del grupo 1 y el grupo 2, aunque el cv de ambos es el mismo, pero usando la prueba T o la T combinada prueba o Anova (experimento más grande) podría probar fácilmente la diferencia entre los dos grupos.

La clave aquí es aplicar la herramienta estadística adecuada para dar una explicación significativa sobre el resultado. Recuerde que cv es solo una de las opciones en estadística descriptiva.

mis 2 centavos

— lokmal
fuente