En mi trabajo, cuando las personas se refieren al valor "medio" de un conjunto de datos, generalmente se refieren a la media aritmética (es decir, "promedio" o "valor esperado"). Si proporcionara la media geométrica , la gente probablemente pensaría que estoy siendo sarcástica o que no soy útil, ya que la definición de "media" se conoce de antemano.
Estoy tratando de determinar si hay múltiples definiciones de la "mediana" de un conjunto de datos. Por ejemplo, una de las definiciones proporcionadas por un colega para encontrar la mediana de un conjunto de datos con un número par de elementos sería:
Algoritmo 'A'
- Divide el número de elementos entre dos, redondea hacia abajo.
- Ese valor es el índice de la mediana.
- es decir, para el siguiente conjunto, la mediana sería
5
. [4, 5, 6, 7]
Esto parece tener sentido, aunque el aspecto de redondeo parece un poco arbitrario.
Algoritmo 'B'
En cualquier caso, otro colega ha propuesto un algoritmo separado, que estaba en un libro de texto de estadísticas suyo (necesita obtener el nombre y el autor):
- Divida el número de elementos entre 2 y guarde una copia de los enteros redondeados hacia arriba y hacia abajo. Nómbralos
n_lo
yn_hi
. - Tome la media aritmética de los elementos en
n_lo
yn_hi
. - es decir, para el siguiente conjunto, la mediana sería
(5+6)/2 = 5.5
. [4, 5, 6, 7]
Sin embargo, esto parece incorrecto, ya que el valor medio, 5.5
en este caso, no está realmente en el conjunto de datos original. Cuando cambiamos el algoritmo 'A' por 'B' en algún código de prueba, se rompió horriblemente (como esperábamos).
Pregunta
¿Existe un "nombre" formal para estos dos enfoques para calcular la mediana de un conjunto de datos? es decir, ¿"mediana menor de dos" versus "mediana de elementos medios y nuevos datos"?