¿Cuándo es malo tener asimetría? Las distribuciones simétricas (generalmente, pero no siempre: por ejemplo, no para la distribución de Cauchy) tienen mediana, moda y significan muy cerca una de la otra. Entonces, considere, si queremos medir la ubicación de una población, es útil tener la mediana, la moda y la media cercanas entre sí.
Por ejemplo, si tomamos el logaritmo de la distribución del ingreso , reducimos la asimetría lo suficiente como para obtener modelos útiles de ubicación del ingreso. Sin embargo, todavía tendremos una cola derecha más pesada de lo que realmente queremos. Para reducir eso aún más, podríamos usar una distribución de Pareto . La distribución de Pareto es similar a una transformación log-log de los datos. Ahora, tanto las distribuciones de Pareto como las log-normales tienen dificultades en el extremo inferior de la escala de ingresos. Por ejemplo, ambos sufren deEn0 = - ∞. El tratamiento de este problema está cubierto en transformaciones de poder .
Ejemplo de 25 ingresos en kilo dólares extraídos de www.
k$ lnk$
28 3.33220451
29 3.36729583
35 3.555348061
42 3.737669618
42 3.737669618
44 3.784189634
50 3.912023005
52 3.951243719
54 3.988984047
56 4.025351691
59 4.077537444
78 4.356708827
84 4.430816799
90 4.49980967
95 4.553876892
101 4.615120517
108 4.682131227
116 4.753590191
121 4.795790546
122 4.804021045
133 4.890349128
150 5.010635294
158 5.062595033
167 5.117993812
235 5.459585514
La asimetría de la primera columna es 0.99, y de la segunda es -0.05. La primera columna no es probablemente normal (Shapiro-Wilk p = 0.04) y la segunda no es significativamente no normal (p = 0.57).
First column Mean 90.0 (95% CI, 68.6 to 111.3) Median 84.0 (95.7% CI, 52.0 to 116.0)
Second col Exp(Mean) 76.7 (95% CI, 60.2 to 97.7) Exp(Median) 84.0 (95.7% CI, 52.0 to 116.0)
Entonces, la pregunta es, si usted es una persona aleatoria que tiene una de las ganancias mencionadas, ¿qué es probable que gane? ¿Es razonable concluir que ganarías 90k o más que la mediana de 84k? ¿O es más probable concluir que incluso la mediana está sesgada como una medida de ubicación y que laExp[ significa ln( k $ ) ] de 76.7 k, que es menor que la mediana, ¿también es más razonable como una estimación?
Obviamente, el log-normal aquí es un mejor modelo y el logaritmo medio nos da una mejor medida de ubicación. Que esto es bien sabido, si no se comprende completamente, se ilustra con la frase "Anticipo recibir un salario de 5 cifras".