Propiedades media y mediana

18

¿Alguien puede explicarme que aclare la lógica matemática que uniría dos afirmaciones (a) y (b) juntas? Tengamos un conjunto de valores (alguna distribución). Ahora,

a) La mediana no depende de cada valor [solo depende de uno o dos valores medios]; b) La mediana es el lugar de suma mínima de desviaciones absolutas de la misma.

Y asimismo, y en contraste,

a) La media (aritmética) depende de cada valor; b) La media es el lugar geométrico de la mínima suma de desviaciones al cuadrado de la misma.

Mi comprensión de esto es intuitiva hasta ahora.

— ttnphns
fuente

1

Vale la pena revisar una versión anterior de la misma pregunta: stats.stackexchange.com/questions/2547/… Y, una descripción de Robust Statistics: en.wikipedia.org/wiki/Robust_statistics

— bill_080

Entonces, lo que busca para el primer par es una prueba de que la mediana, como generalmente se define como el valor de rango medio (para un número impar de valores de todos modos, para comenzar con el caso más simple) también es el valor que minimiza la suma de desviaciones absolutas? ¿Preferentemente una prueba que también brinde una idea intuitiva? No conozco ninguna prueba, así que parece una buena pregunta, y también me gustaría saber la respuesta.

— parada

Me sientes correctamente (a) y (b) son actualmente aspectos / propiedades separados en mi mente, para ambas estadísticas; pero la intuición sugiere que los dos aspectos están vinculados. Quiero saber cómo están atados, entenderlo todo profundamente.

— ttnphns

19

Estas son dos preguntas: una sobre cómo la media y la mediana minimizan las funciones de pérdida y otra sobre la sensibilidad de estas estimaciones a los datos. Las dos preguntas están conectadas, como veremos.

Minimizando la pérdida

Se puede crear un resumen (o estimador) del centro de un lote de números dejando que cambie el valor del resumen e imaginando que cada número del lote ejerce una fuerza restauradora sobre ese valor. Cuando la fuerza nunca aleja el valor de un número, podría decirse que cualquier punto en el que las fuerzas se equilibren es un "centro" del lote.

Pérdida Cuadrática ( ) $L_2$

Por ejemplo, si tuviéramos que unir un resorte clásico (siguiendo la Ley de Hooke ) entre el resumen y cada número, la fuerza sería proporcional a la distancia a cada resorte. Los resortes extraerían el resumen de un lado a otro, eventualmente estableciéndose en una ubicación estable única de energía mínima.

Me gustaría llamar la atención sobre un pequeño juego de manos que acaba de ocurrir: la energía es proporcional a la suma de las distancias al cuadrado . La mecánica newtoniana nos enseña que la fuerza es la tasa de cambio de energía. Lograr un equilibrio, minimizar la energía, resulta en equilibrar las fuerzas. La tasa neta de cambio en la energía es cero.

Llamemos a esto el " resumen " o "resumen de pérdida al cuadrado". $L_2$

Pérdida absoluta ( ) $L_1$

Se puede crear otro resumen suponiendo que los tamaños de las fuerzas de restauración son constantes , independientemente de las distancias entre el valor y los datos. Sin embargo, las fuerzas en sí mismas no son constantes porque siempre deben extraer el valor hacia cada punto de datos. Por lo tanto, cuando el valor es menor que el punto de datos, la fuerza se dirige positivamente, pero cuando el valor es mayor que el punto de datos, la fuerza se dirige negativamente. Ahora la energía es proporcional a las distancias entre el valor y los datos. Normalmente habrá una región entera en la que la energía es constante y la fuerza neta es cero. Cualquier valor en esta región podríamos llamar " resumen de " o "resumen de pérdida absoluta". $L_1$

Estas analogías físicas proporcionan una intuición útil sobre los dos resúmenes. Por ejemplo, ¿qué pasa con el resumen si movemos uno de los puntos de datos? En el caso de con resortes conectados, mover un punto de datos estira o relaja su resorte. El resultado es un cambio en vigor en el resumen, por lo que debe cambiar en respuesta. Pero en el caso , la mayoría de las veces un cambio en un punto de datos no hace nada al resumen, porque la fuerza es localmente constante. La única forma en que la fuerza puede cambiar es que el punto de datos se mueva a través del resumen. $L_2$ $L_1$

(De hecho, debería ser evidente que la fuerza neta sobre un valor viene dada por el número de puntos mayor que él, que lo empuja hacia arriba, menos el número de puntos menor que él, que lo empuja hacia abajo. Por lo tanto, el resumen debe aparecer en cualquier ubicación donde el número de valores de datos que lo exceden sea exactamente igual al número de valores de datos menor que este). $L_1$

Representando pérdidas

Como ambas fuerzas y energías se suman, en cualquier caso podemos descomponer la energía neta en contribuciones individuales de los puntos de datos. Al representar gráficamente la energía o la fuerza en función del valor de resumen, esto proporciona una imagen detallada de lo que está sucediendo. El resumen será una ubicación en la que la energía (o "pérdida" en lenguaje estadístico) es más pequeña. De manera equivalente, será un lugar en el que las fuerzas se equilibren: el centro de los datos ocurre donde el cambio neto en la pérdida es cero.

Esta figura muestra energías y fuerzas para un pequeño conjunto de datos de seis valores (marcados por líneas verticales débiles en cada gráfico). Las curvas negras discontinuas son los totales de las curvas de colores que muestran las contribuciones de los valores individuales. El eje x indica posibles valores del resumen.

Figura 1

La media aritmética es un punto donde se minimiza la pérdida al cuadrado: se ubicará en el vértice (abajo) de la parábola negra en la gráfica superior izquierda. Siempre es único. La mediana es un punto donde se minimiza la pérdida absoluta. Como se señaló anteriormente, debe ocurrir en el medio de los datos. No es necesariamente único. Se ubicará en la parte inferior de la curva negra quebrada en la esquina superior derecha. (La parte inferior en realidad consiste en una sección plana corta entre y ; cualquier valor en este intervalo es una mediana). $-0.23$ $-0.17$

Analizando la sensibilidad

Anteriormente describí lo que puede sucederle al resumen cuando se varía un punto de datos. Es instructivo trazar cómo cambia el resumen en respuesta a cambiar cualquier punto de datos. (Estas gráficas son esencialmente las funciones de influencia empírica . Se diferencian de la definición habitual en que muestran los valores reales de las estimaciones en lugar de cuánto cambian esos valores). El valor del resumen está etiquetado con "Estimación" en la y -mechas para recordarnos que este resumen está estimando dónde se encuentra la mitad del conjunto de datos. Los nuevos valores (modificados) de cada punto de datos se muestran en sus ejes x.

Figura 2

Esta figura presenta los resultados de variar cada uno de los valores de datos en el lote (el mismo analizado en la primera figura). Hay un gráfico para cada valor de datos, que se resalta en su gráfico con una marca negra larga a lo largo del eje inferior. (Los valores de datos restantes se muestran con marcas grises cortas). La curva azul traza el resumen , la media aritmética, y la curva roja traza el resumen , la mediana. (Dado que a menudo la mediana es un rango de valores, aquí se sigue la convención de trazar el medio de ese rango). $-1.02, -0.82, -0.23, -0.17, -0.08, 0.77$ $L_2$ $L_1$

Darse cuenta:

La sensibilidad de la media no tiene límites: esas líneas azules se extienden infinitamente hacia arriba y hacia abajo. La sensibilidad de la mediana está limitada: existen límites superiores e inferiores a las curvas rojas.
Sin embargo, cuando la mediana cambia, cambia mucho más rápidamente que la media. La pendiente de cada línea azul es (generalmente es para un conjunto de datos con valores), mientras que las pendientes de las partes inclinadas de las líneas rojas son todas . $1/6$ $1/n$ $n$ $1/2$
La media es sensible a todos los puntos de datos y esta sensibilidad no tiene límites (como indican las pendientes distintas de cero de todas las líneas de color en la gráfica inferior izquierda de la primera figura). Aunque la mediana es sensible a todos los puntos de datos, la sensibilidad está limitada (es por eso que las curvas de color en el gráfico inferior derecho de la primera figura se encuentran dentro de un rango vertical estrecho alrededor de cero). Estas, por supuesto, son meramente reiteraciones visuales de la ley básica de la fuerza (pérdida): cuadrática para la media, lineal para la mediana.
El intervalo durante el cual se puede modificar la mediana puede variar entre los puntos de datos. Siempre está limitado por dos de los valores casi intermedios entre los datos que no varían . (Estos límites están marcados por tenues líneas verticales discontinuas).
Debido a que la tasa de cambio de la mediana siempre es , la cantidad por la que puede variar se determina por la longitud de esta brecha entre los valores casi medios del conjunto de datos. $1/2$

Aunque solo se observa comúnmente el primer punto, los cuatro puntos son importantes. En particular,

Definitivamente es falso que la "mediana no depende de cada valor". Esta figura proporciona un contraejemplo.
Sin embargo, la mediana no depende "materialmente" de cada valor en el sentido de que, aunque el cambio de valores individuales puede cambiar la mediana, la cantidad de cambio está limitada por las brechas entre los valores casi medios en el conjunto de datos. En particular, la cantidad de cambio está limitada . Decimos que la mediana es un resumen "resistente".
Aunque la media no es resistente y cambiará cada vez que se cambie cualquier valor de datos, la tasa de cambio es relativamente pequeña. Cuanto mayor sea el conjunto de datos, menor será la tasa de cambio. De manera equivalente, para producir un cambio material en la media de un gran conjunto de datos, al menos un valor debe sufrir una variación relativamente grande. Esto sugiere que la no resistencia de la media es motivo de preocupación solo para (a) conjuntos de datos pequeños o (b) conjuntos de datos en los que uno o más datos pueden tener valores extremadamente lejos de la mitad del lote.

Estas observaciones, que espero que las cifras hagan evidentes, revelan una profunda conexión entre la función de pérdida y la sensibilidad (o resistencia) del estimador. Para obtener más información sobre esto, comience con uno de los artículos de Wikipedia sobre estimadores M y luego busque esas ideas todo lo que quiera.

Código

Este Rcódigo produjo las cifras y puede modificarse fácilmente para estudiar cualquier otro conjunto de datos de la misma manera: simplemente reemplace el vector creado aleatoriamente ycon cualquier vector de números.

#
# Create a small dataset.
#
set.seed(17)
y <- sort(rnorm(6)) # Some data
#
# Study how a statistic varies when the first element of a dataset
# is modified.
#
statistic.vary <- function(t, x, statistic) {
  sapply(t, function(e) statistic(c(e, x[-1])))
}
#
# Prepare for plotting.
#
darken <- function(c, x=0.8) {
  apply(col2rgb(c)/255 * x, 2, function(s)  rgb(s[1], s[2], s[3]))
}
colors <- darken(c("Blue", "Red"))
statistics <- c(mean, median); names(statistics) <- c("mean", "median")
x.limits <- range(y) + c(-1, 1)
y.limits <- range(sapply(statistics, 
                         function(f) statistic.vary(x.limits + c(-1,1), c(0,y), f)))
#
# Make the plots.
#
par(mfrow=c(2,3))
for (i in 1:length(y)) {
  #
  # Create a standard, consistent plot region.
  #
  plot(x.limits, y.limits, type="n", 
       xlab=paste("Value of y[", i, "]", sep=""), ylab="Estimate",
       main=paste("Sensitivity to y[", i, "]", sep=""))
  #legend("topleft", legend=names(statistics), col=colors, lwd=1)
  #
  # Mark the limits of the possible medians.
  #
  n <- length(y)/2
  bars <- sort(y[-1])[ceiling(n-1):floor(n+1)]
  abline(v=range(bars), lty=2, col="Gray")
  rug(y, col="Gray", ticksize=0.05);
  #
  # Show which value is being varied.
  #
  rug(y[1], col="Black", ticksize=0.075, lwd=2)
  #
  # Plot the statistics as the value is varied between x.limits.
  #
  invisible(mapply(function(f,c) 
    curve(statistic.vary(x, y, f), col=c, lwd=2, add=TRUE, n=501),
    statistics, colors))
  y <- c(y[-1], y[1])    # Move the next data value to the front
}
#------------------------------------------------------------------------------#
#
# Study loss functions.
#
loss <- function(x, y, f) sapply(x, function(t) sum(f(y-t)))
square <- function(t) t^2
square.d <- function(t) 2*t
abs.d <- sign
losses <- c(square, abs, square.d, abs.d)
names(losses) <- c("Squared Loss", "Absolute Loss",
                   "Change in Squared Loss", "Change in Absolute Loss")
loss.types <- c(rep("Loss (energy)", 2), rep("Change in loss (force)", 2))
#
# Prepare for plotting.
#
colors <- darken(rainbow(length(y)))
x.limits <- range(y) + c(-1, 1)/2
#
# Make the plots.
#
par(mfrow=c(2,2))
for (j in 1:length(losses)) {
  f <- losses[[j]]
  y.range <- range(c(0, 1.1*loss(y, y, f)))
  #
  # Plot the loss (or its rate of change).
  #
  curve(loss(x, y, f), from=min(x.limits), to=max(x.limits), 
        n=1001, lty=3,
        ylim=y.range, xlab="Value", ylab=loss.types[j],
        main=names(losses)[j])
  #
  # Draw the x-axis if needed.
  #
  if (sign(prod(y.range))==-1) abline(h=0, col="Gray")
  #
  # Faintly mark the data values.
  #
  abline(v=y, col="#00000010")
  #
  # Plot contributions to the loss (or its rate of change).
  #
  for (i in 1:length(y)) {
    curve(loss(x, y[i], f), add=TRUE, lty=1, col=colors[i], n=1001)
  }
  rug(y, side=3)
}

— whuber
fuente

3

Estoy ofreciendo una recompensa, debido al estilo minucioso y pausado de la respuesta, además de la calidad.

— ttnphns

¡Gracias! Su apreciación de esta publicación es muy gratificante.

— whuber

11

$x_1,x_2,\ldots,x_n$ $n$ $y$ $f(y)$ $y$ $x_i$ $f(y) = |x_1 - y| + |x_2 - y| + \ldots + |x_n - y|$ $y$ $f(y)$ $l$ $x_i$ $y$ $r = n - l$ $y$ $y$ $y$ $f(y)$

$\Delta y$ $y$ $x_i$ $y$ $|x_i - y|$ $\Delta y$ $y$ $|x_i - y|$ $\Delta y$ $\Delta y$ $y$ $f(y)$ $l\Delta y - r \Delta y = (l-r)\Delta y$ $f(y)$ $x_i$ $y$ $y$ $f(y)$ $l-r = 0$ $x_i$ $y$ $y$ $x_i$

$f(y)$ $f(y) = (x_1 - y)^2 + \ldots + (x_n - y)^2$ $f(y)$ $y$ $x_i$ $y$

$f(y)$

— shabbychef
fuente

1

x_{i}

$x_i$

Gracias por la elegante explicación. Sin embargo, me suena así: "Ese número y cuyo pequeño cambio no cambia la función Suma | x_i-y | no depende de cada x_i y se llama mediana". Es una interesante nota en medio de una aún n de datos. Pero estaba pidiendo probar esto: "Ese número y que minimiza la función Sum | x_i-y | no depende de cada x_i y se llama mediana". Y de manera similar: "Ese número y que minimiza la función Suma (x_i-y) ^ 2 depende igualmente de cada x_i y se llama media".

— ttnphns

1

¿Cómo se supone que debo probar la parte 'se llama mediana'? Eso es una locura

— shabbychef

Es un tropo de causa. Esta parte no es para probar, espero que entiendas.

— ttnphns

1

¿Existe un resultado similar para la mediana de las desviaciones absolutas en lugar de la suma de las desviaciones absolutas? Porque la mediana de la desviación absoluta de la mediana también es una medida de dispersión bastante interesante.

— samthebest

3

$x_{(n)}$ $2 * x_{(n)}$
$a \in \mathbb{R}$

$\sum_{i=1}^{n} |x_{i} - median| \leq \sum_{i=1}^{n} |x_{i} - a|$

y

$\sum_{i=1}^{n} (x_{i} - mean)^{2} \leq \sum_{i=1}^{n} (x_{i} - a)^{2}$

— ocram
fuente

Bueno, como estadístico experimentado que carece de educación matemática fundamental, todavía sé mucho sobre las diferencias y aplicaciones de la media y la mediana. Lo que necesito aquí es alguien que DIBUJE, lógicamente o matemáticamente, ya sea (a) de (b) o (b) de (a), para mí. Siento que no puedo armonizar (a) con (b) racionalmente a mí mismo. Marco, me resulta muy difícil entender tu notación. Si su fórmula es la deducción que necesito, ¿podría "masticar" la idea menos técnicamente para mí?

— ttnphns

PD: Mientras sus dos desigualdades finalmente se muestren correctamente en mi pantalla, veo que son solo mis (b) declaraciones. Usted escribe, "se puede demostrar que ...". Entonces muéstrame eso. Necesito un tipo de prueba matemática expresada en términos que sean inteligibles para un analista de datos que no sea un matemático profesional.

— ttnphns

2

@ttnphns: su solicitud de una respuesta matemática, en lugar de intuitiva, parece incompatible con su solicitud de algo menos técnico que lo que la gente ha ofrecido.

— rolando2

¿Podemos simplificar la situación a 2 o tres puntos y preguntar si la mediana en la desigualdad no estricta de suma doble anterior tiene un valor único? Con dos puntos, parece estar satisfecho por cualquier punto entre los 2.

— DWin

2

Hola, aquí hay una contribución, después de leer un poco sobre eso. Probablemente un poco tarde para la persona que preguntó, pero tal vez valga la pena para otra persona.

Para el caso medio:

$argmin_x \sum_{i=1}^n (y_i - x)$

$f(x) = \sum_{i=1}^n(y_i - x)^2$

$f'(x)=0 \Leftrightarrow 2 \sum_{i=1}^n (y_i - x ) = 0$

$f'(x)=0\Leftrightarrow \sum_{i=1}^n y_i = \sum_{i=1}^n x$

$f'(x)=0\Leftrightarrow x = \frac{\sum_{i=1}^n}{n}$

Como la función es convexa, este es un mínimo

Para el caso mediano

$argmin_x \sum_{i=1}^n |y_i - x|$

$f(x) = \sum_{i=1}^n|y_i - x|$

$f'(x)=0 \Leftrightarrow \sum_{i=1}^n sgn(y_i - x ) = 0$

$sgn(x)$ $sgn(x)=1$ $x >0$ $sgn(x)=-1$ $x<0$

$f'(x)=0\Leftrightarrow \# \{y_i / y_i >x \} - \# \{y_i / y_i <x \} = 0$

$\#{}$ es el cardenal del espacio, por lo que en este caso discreto, el número de elementos en él)

$f'(x)=0\Leftrightarrow x$

Como la función también es convexa, este es un mínimo nuevamente.

— Anthony Martin
fuente

Gracias. Puede ser útil para mí y para otros. ¿Puede agregar algunos comentarios en palabras para la principal de sus expresiones, para alguien que no es muy fluido en la comprensión de fórmulas? En particular, su último por una línea: ¿qué significa y qué es #?

— ttnphns

¿Está claro ahora? He definido las dos funciones menos habituales

— Anthony Martin, el

Propiedades media y mediana

Minimizando la pérdida

Pérdida Cuadrática ( )L2L2L_2

Pérdida absoluta ( )L1L1L_1

Representando pérdidas

Analizando la sensibilidad

Código

Pérdida Cuadrática ( ) $L_2$

Pérdida absoluta ( ) $L_1$