Varias buenas respuestas aún dejan espacio para más comentarios.
Primero, nadie se ha opuesto a la idea de que la mediana está destinada a eliminar los valores atípicos, pero lo calificaré. El significado deseado es evidente, pero es fácil que los datos reales sean más complicados. A lo sumo, la mediana está destinada a descontar o ignorar los valores atípicos, pero incluso eso no está garantizado. Por ejemplo, con calificaciones de 1 1 1 5 5 5, la mediana y la media coinciden en 3, por lo que todo puede parecer bueno. Pero un 5 extra inclinará la mediana a 5 y un 1 extra inclinará la mediana a 1. La media se movería aproximadamente 0.286 en cada caso. Por lo tanto, la media es aquí más resistente que la mediana. El ejemplo puede descartarse como inusual, pero no es indignante. El punto no es original, naturalmente. Un lugar donde se hace es en Mosteller, F. y Tukey, JW 1977. Análisis y regresión de datos.Reading, MA: Addison-Wesley, págs. 34-35.
En segundo lugar, se han mencionado los medios recortados y la idea merece un mayor impulso. La media y la mediana no necesitan ser alternativas rígidas para que el analista deba elegir (votar) una u otra. Puede considerar todos los medios recortados posibles basados en recortar un cierto número de valores en cada cola . La tabla muestra como # el número de valores incluidos en el cálculo de la media:
+----------------------------+
| number # trimmed mean |
|----------------------------|
| 0 16 4.0625 |
| 1 14 4.214286 |
| 2 12 4.416667 |
| 3 10 4.6 |
| 4 8 4.75 |
| 5 6 4.833333 |
| 6 4 5 |
| 7 2 5 |
+----------------------------+
La imagen principal aquí es que puede elegir su tasa de descuento (ignore tantos valores en cada cola como sospechoso) como un tipo de seguro contra el riesgo de estar fuera debido a valores extremos. Lo que veo es un gradiente bastante suave entre la media y la mediana, que se espera aquí porque los posibles valores 1, 2, 3, 4, 5 están todos presentes en los datos. Se espera un gran salto en la secuencia con un valor atípico aislado.
No hay obligación con los medios recortados para recortar números iguales en cada cola, pero no voy a ampliar en eso.
Tercero, el ejemplo es de las reseñas de Amazon. El contexto siempre es pertinente para guiar cómo desea resumir los datos . ¡En el caso de las reseñas de Amazon, la mejor respuesta es leer las reseñas! Como las calificaciones altas y bajas pueden ser falsas (implícitamente: el autor de este libro es mi amigo) y / o irrelevante para su decisión (explícitamente: el revendedor me trató mal), no hay un obvio para mí. implicación sobre cómo resumir dichos datos y, de hecho, mostrándole la distribución que Amazon está siendo sumamente informativa.
Cuarto, y el más elemental pero también fundamental de todos, ¿quién te está haciendo elegir? En ocasiones, se deben informar tanto la media como la mediana (y, como se dijo, también un gráfico de distribución).