¿Hay más de una fórmula "mediana"?

En mi trabajo, cuando las personas se refieren al valor "medio" de un conjunto de datos, generalmente se refieren a la media aritmética (es decir, "promedio" o "valor esperado"). Si proporcionara la media geométrica , la gente probablemente pensaría que estoy siendo sarcástica o que no soy útil, ya que la definición de "media" se conoce de antemano.

Estoy tratando de determinar si hay múltiples definiciones de la "mediana" de un conjunto de datos. Por ejemplo, una de las definiciones proporcionadas por un colega para encontrar la mediana de un conjunto de datos con un número par de elementos sería:

Algoritmo 'A'

Divide el número de elementos entre dos, redondea hacia abajo.
Ese valor es el índice de la mediana.
es decir, para el siguiente conjunto, la mediana sería 5.
[4, 5, 6, 7]

Esto parece tener sentido, aunque el aspecto de redondeo parece un poco arbitrario.

Algoritmo 'B'

En cualquier caso, otro colega ha propuesto un algoritmo separado, que estaba en un libro de texto de estadísticas suyo (necesita obtener el nombre y el autor):

Divida el número de elementos entre 2 y guarde una copia de los enteros redondeados hacia arriba y hacia abajo. Nómbralos n_loy n_hi.
Tome la media aritmética de los elementos en n_loy n_hi.
es decir, para el siguiente conjunto, la mediana sería (5+6)/2 = 5.5.
[4, 5, 6, 7]

Sin embargo, esto parece incorrecto, ya que el valor medio, 5.5en este caso, no está realmente en el conjunto de datos original. Cuando cambiamos el algoritmo 'A' por 'B' en algún código de prueba, se rompió horriblemente (como esperábamos).

Pregunta

¿Existe un "nombre" formal para estos dos enfoques para calcular la mediana de un conjunto de datos? es decir, ¿"mediana menor de dos" versus "mediana de elementos medios y nuevos datos"?

median definition

— Nube
fuente

Nunca he visto el algoritmo "A" considerado una mediana. No debería ser un problema que una estadística descriptiva de la tendencia central de los datos no se encuentre entre los datos mismos: después de todo, la mayoría de los medios tampoco están en los datos. Una propiedad más fundamental que nos gustaría que tenga la mediana es que no cambia cuando se invierte la secuencia de datos, ya que ordenar datos de menor a mayor o de mayor a menor es una cuestión arbitraria de gusto. Por esta razón, la mayoría de los autores definen la mediana como en el algoritmo "B", porque ese es, con mucho, el procedimiento invariante de orden más simple posible.

— whuber

@whuber Algoritmo 'A' a veces se llama la mediana baja . También hay, por supuesto, una media alta correspondiente. Típicamente, la mediana es el promedio de los dos (que puede o no ser un elemento del conjunto sobre el que se calcula la mediana).

— user603

Un buen momento y lugar para repetir el comentario de que los dos valores centrales en una muestra ordenada con un número par de observaciones, como 3 y 4 en 1, 2, 3, 4, 5, 6, deben considerarse comediantes. (Independientemente citado por SM Stigler, R. Koenker, y sin duda otros).

— Nick Cox

¿No faltan ambos algoritmos en el paso crucial de ordenar los datos?

— Emil

Si necesita que su "mediana" sea siempre un elemento del conjunto de datos, en realidad podría estar buscando un medoide .

— Ilmari Karonen

Respuestas:

TL; DR: no tengo conocimiento de que se den nombres específicos a diferentes estimadores de medianas de muestra. Los métodos para estimar las estadísticas de muestra a partir de algunos datos son bastante exigentes y los diferentes recursos dan diferentes definiciones.

En Hogg, McKean y Craig's Introduction to Mathematical Statistics , los autores proporcionan una definición de medianas de muestras aleatorias , ¡pero solo en el caso de que haya un número impar de muestras! Los autores escriben

$n$ $Y_{(n+1)/2}$

$Y_i$ $i$

$n$

El algoritmo B tiene la propiedad de que la mitad de los datos caen por encima del valor y la mitad de los datos caen por debajo del valor. A la luz de la definición de la mediana de una variable aleatoria , esto parece agradable.

Si un estimador particular rompe o no las pruebas unitarias es una propiedad de las pruebas unitarias; las pruebas unitarias escritas contra un estimador específico no necesariamente se cumplirán cuando sustituya a otro estimador. En el caso ideal, las pruebas unitarias se eligieron porque reflejan las necesidades críticas de su organización, no por un argumento doctrinario sobre las definiciones.

— Sycorax dice reinstalar a Mónica
fuente

(+1) También podemos agregar que (1) Cuando los valores vienen con pesos, entonces la definición de medianas en principio y en la práctica también debe abarcar eso. (Implícitamente en las respuestas hasta ahora, todos los pesos son iguales, por lo tanto, irrelevantes). Si bien la interpolación lineal en la suma acumulativa de pesos es más simple, hay situaciones en las que otros tipos de interpolación podrían tener sentido. (2) Las definiciones más rigurosas de mediana generalmente están destinadas a cubrir distribuciones discretas y continuas e híbridas por igual, incluidas aquellas con picos de probabilidad en alguna parte.

— Nick Cox

Lo que dice @Sycorax.

De hecho, hay sorprendentemente muchas definiciones de cuantiles generales, en particular también de medianas. Hyndman y Fan (1996, The American Statistician ) ofrecen una visión general que, AFAIK, sigue siendo exhaustiva. Los diferentes tipos no tienen nombres formales. Es posible que simplemente necesite tener claro qué tipo está utilizando. (A menudo no hace una gran diferencia con los conjuntos de datos de tamaños realistas).

Tenga en cuenta que comúnmente se acepta tener un valor que no está presente en el conjunto de datos como la mediana, por ejemplo, 5.5 como mediana para (4, 5, 6, 7). Este es el comportamiento predeterminado para R:

> median(4:7)
[1] 5.5

Las R median()por defecto usan el tipo 7 de la clasificación de Hyndman & Fan.

— S. Kolassa - Restablece a Monica
fuente

+1 para "A menudo no hace una gran diferencia con conjuntos de datos de tamaños realistas". Lo robaré, en lugar de mi habitual "si hace que el material marque la diferencia, probablemente necesites más datos". :)

— Jason

Si tiene una variable binaria con valores 0, 1 (digamos) y con aproximadamente igual 0s y 1s (promedio cercano a 0.5), el tamaño de muestra grande no necesariamente detendrá la mediana informada de 0 a 0.5 y 1. Mosteller y Tukey ( Data Analysis and Regression 1977) citan distribuciones fuertemente bimodales y casi simétricas como casos en los que la mediana podría no comportarse especialmente bien.

— Nick Cox

En la madfunción de R , utiliza los términos "lo-mediana" para describir su algoritmo A, "hi-mediana" para describir el redondeo, y simplemente "mediana" para describir su algoritmo B (que, como otros han notado, es de lejos La definición más común).

¡Curiosamente, no existe tal opción en la median()función de R ! (Pero R's quantile()tiene typeun buen control).

— Darren Cook
fuente