Estas son dos preguntas: una sobre cómo la media y la mediana minimizan las funciones de pérdida y otra sobre la sensibilidad de estas estimaciones a los datos. Las dos preguntas están conectadas, como veremos.
Minimizando la pérdida
Se puede crear un resumen (o estimador) del centro de un lote de números dejando que cambie el valor del resumen e imaginando que cada número del lote ejerce una fuerza restauradora sobre ese valor. Cuando la fuerza nunca aleja el valor de un número, podría decirse que cualquier punto en el que las fuerzas se equilibren es un "centro" del lote.
Pérdida Cuadrática ( )L2
Por ejemplo, si tuviéramos que unir un resorte clásico (siguiendo la Ley de Hooke ) entre el resumen y cada número, la fuerza sería proporcional a la distancia a cada resorte. Los resortes extraerían el resumen de un lado a otro, eventualmente estableciéndose en una ubicación estable única de energía mínima.
Me gustaría llamar la atención sobre un pequeño juego de manos que acaba de ocurrir: la energía es proporcional a la suma de las distancias al cuadrado . La mecánica newtoniana nos enseña que la fuerza es la tasa de cambio de energía. Lograr un equilibrio, minimizar la energía, resulta en equilibrar las fuerzas. La tasa neta de cambio en la energía es cero.
Llamemos a esto el " resumen " o "resumen de pérdida al cuadrado".L2
Pérdida absoluta ( )L1
Se puede crear otro resumen suponiendo que los tamaños de las fuerzas de restauración son constantes , independientemente de las distancias entre el valor y los datos. Sin embargo, las fuerzas en sí mismas no son constantes porque siempre deben extraer el valor hacia cada punto de datos. Por lo tanto, cuando el valor es menor que el punto de datos, la fuerza se dirige positivamente, pero cuando el valor es mayor que el punto de datos, la fuerza se dirige negativamente. Ahora la energía es proporcional a las distancias entre el valor y los datos. Normalmente habrá una región entera en la que la energía es constante y la fuerza neta es cero. Cualquier valor en esta región podríamos llamar " resumen de " o "resumen de pérdida absoluta".L1
Estas analogías físicas proporcionan una intuición útil sobre los dos resúmenes. Por ejemplo, ¿qué pasa con el resumen si movemos uno de los puntos de datos? En el caso de con resortes conectados, mover un punto de datos estira o relaja su resorte. El resultado es un cambio en vigor en el resumen, por lo que debe cambiar en respuesta. Pero en el caso , la mayoría de las veces un cambio en un punto de datos no hace nada al resumen, porque la fuerza es localmente constante. La única forma en que la fuerza puede cambiar es que el punto de datos se mueva a través del resumen.L2L1
(De hecho, debería ser evidente que la fuerza neta sobre un valor viene dada por el número de puntos mayor que él, que lo empuja hacia arriba, menos el número de puntos menor que él, que lo empuja hacia abajo. Por lo tanto, el resumen debe aparecer en cualquier ubicación donde el número de valores de datos que lo exceden sea exactamente igual al número de valores de datos menor que este).L1
Representando pérdidas
Como ambas fuerzas y energías se suman, en cualquier caso podemos descomponer la energía neta en contribuciones individuales de los puntos de datos. Al representar gráficamente la energía o la fuerza en función del valor de resumen, esto proporciona una imagen detallada de lo que está sucediendo. El resumen será una ubicación en la que la energía (o "pérdida" en lenguaje estadístico) es más pequeña. De manera equivalente, será un lugar en el que las fuerzas se equilibren: el centro de los datos ocurre donde el cambio neto en la pérdida es cero.
Esta figura muestra energías y fuerzas para un pequeño conjunto de datos de seis valores (marcados por líneas verticales débiles en cada gráfico). Las curvas negras discontinuas son los totales de las curvas de colores que muestran las contribuciones de los valores individuales. El eje x indica posibles valores del resumen.
La media aritmética es un punto donde se minimiza la pérdida al cuadrado: se ubicará en el vértice (abajo) de la parábola negra en la gráfica superior izquierda. Siempre es único. La mediana es un punto donde se minimiza la pérdida absoluta. Como se señaló anteriormente, debe ocurrir en el medio de los datos. No es necesariamente único. Se ubicará en la parte inferior de la curva negra quebrada en la esquina superior derecha. (La parte inferior en realidad consiste en una sección plana corta entre y ; cualquier valor en este intervalo es una mediana).−0.23−0.17
Analizando la sensibilidad
Anteriormente describí lo que puede sucederle al resumen cuando se varía un punto de datos. Es instructivo trazar cómo cambia el resumen en respuesta a cambiar cualquier punto de datos. (Estas gráficas son esencialmente las funciones de influencia empírica . Se diferencian de la definición habitual en que muestran los valores reales de las estimaciones en lugar de cuánto cambian esos valores). El valor del resumen está etiquetado con "Estimación" en la y -mechas para recordarnos que este resumen está estimando dónde se encuentra la mitad del conjunto de datos. Los nuevos valores (modificados) de cada punto de datos se muestran en sus ejes x.
Esta figura presenta los resultados de variar cada uno de los valores de datos en el lote (el mismo analizado en la primera figura). Hay un gráfico para cada valor de datos, que se resalta en su gráfico con una marca negra larga a lo largo del eje inferior. (Los valores de datos restantes se muestran con marcas grises cortas). La curva azul traza el resumen , la media aritmética, y la curva roja traza el resumen , la mediana. (Dado que a menudo la mediana es un rango de valores, aquí se sigue la convención de trazar el medio de ese rango).−1.02,−0.82,−0.23,−0.17,−0.08,0.77L2L1
Darse cuenta:
La sensibilidad de la media no tiene límites: esas líneas azules se extienden infinitamente hacia arriba y hacia abajo. La sensibilidad de la mediana está limitada: existen límites superiores e inferiores a las curvas rojas.
Sin embargo, cuando la mediana cambia, cambia mucho más rápidamente que la media. La pendiente de cada línea azul es (generalmente es para un conjunto de datos con valores), mientras que las pendientes de las partes inclinadas de las líneas rojas son todas .1/61/nn1/2
La media es sensible a todos los puntos de datos y esta sensibilidad no tiene límites (como indican las pendientes distintas de cero de todas las líneas de color en la gráfica inferior izquierda de la primera figura). Aunque la mediana es sensible a todos los puntos de datos, la sensibilidad está limitada (es por eso que las curvas de color en el gráfico inferior derecho de la primera figura se encuentran dentro de un rango vertical estrecho alrededor de cero). Estas, por supuesto, son meramente reiteraciones visuales de la ley básica de la fuerza (pérdida): cuadrática para la media, lineal para la mediana.
El intervalo durante el cual se puede modificar la mediana puede variar entre los puntos de datos. Siempre está limitado por dos de los valores casi intermedios entre los datos que no varían . (Estos límites están marcados por tenues líneas verticales discontinuas).
Debido a que la tasa de cambio de la mediana siempre es , la cantidad por la que puede variar se determina por la longitud de esta brecha entre los valores casi medios del conjunto de datos.1/2
Aunque solo se observa comúnmente el primer punto, los cuatro puntos son importantes. En particular,
Definitivamente es falso que la "mediana no depende de cada valor". Esta figura proporciona un contraejemplo.
Sin embargo, la mediana no depende "materialmente" de cada valor en el sentido de que, aunque el cambio de valores individuales puede cambiar la mediana, la cantidad de cambio está limitada por las brechas entre los valores casi medios en el conjunto de datos. En particular, la cantidad de cambio está limitada . Decimos que la mediana es un resumen "resistente".
Aunque la media no es resistente y cambiará cada vez que se cambie cualquier valor de datos, la tasa de cambio es relativamente pequeña. Cuanto mayor sea el conjunto de datos, menor será la tasa de cambio. De manera equivalente, para producir un cambio material en la media de un gran conjunto de datos, al menos un valor debe sufrir una variación relativamente grande. Esto sugiere que la no resistencia de la media es motivo de preocupación solo para (a) conjuntos de datos pequeños o (b) conjuntos de datos en los que uno o más datos pueden tener valores extremadamente lejos de la mitad del lote.
Estas observaciones, que espero que las cifras hagan evidentes, revelan una profunda conexión entre la función de pérdida y la sensibilidad (o resistencia) del estimador. Para obtener más información sobre esto, comience con uno de los artículos de Wikipedia sobre estimadores M y luego busque esas ideas todo lo que quiera.
Código
Este R
código produjo las cifras y puede modificarse fácilmente para estudiar cualquier otro conjunto de datos de la misma manera: simplemente reemplace el vector creado aleatoriamente y
con cualquier vector de números.
#
# Create a small dataset.
#
set.seed(17)
y <- sort(rnorm(6)) # Some data
#
# Study how a statistic varies when the first element of a dataset
# is modified.
#
statistic.vary <- function(t, x, statistic) {
sapply(t, function(e) statistic(c(e, x[-1])))
}
#
# Prepare for plotting.
#
darken <- function(c, x=0.8) {
apply(col2rgb(c)/255 * x, 2, function(s) rgb(s[1], s[2], s[3]))
}
colors <- darken(c("Blue", "Red"))
statistics <- c(mean, median); names(statistics) <- c("mean", "median")
x.limits <- range(y) + c(-1, 1)
y.limits <- range(sapply(statistics,
function(f) statistic.vary(x.limits + c(-1,1), c(0,y), f)))
#
# Make the plots.
#
par(mfrow=c(2,3))
for (i in 1:length(y)) {
#
# Create a standard, consistent plot region.
#
plot(x.limits, y.limits, type="n",
xlab=paste("Value of y[", i, "]", sep=""), ylab="Estimate",
main=paste("Sensitivity to y[", i, "]", sep=""))
#legend("topleft", legend=names(statistics), col=colors, lwd=1)
#
# Mark the limits of the possible medians.
#
n <- length(y)/2
bars <- sort(y[-1])[ceiling(n-1):floor(n+1)]
abline(v=range(bars), lty=2, col="Gray")
rug(y, col="Gray", ticksize=0.05);
#
# Show which value is being varied.
#
rug(y[1], col="Black", ticksize=0.075, lwd=2)
#
# Plot the statistics as the value is varied between x.limits.
#
invisible(mapply(function(f,c)
curve(statistic.vary(x, y, f), col=c, lwd=2, add=TRUE, n=501),
statistics, colors))
y <- c(y[-1], y[1]) # Move the next data value to the front
}
#------------------------------------------------------------------------------#
#
# Study loss functions.
#
loss <- function(x, y, f) sapply(x, function(t) sum(f(y-t)))
square <- function(t) t^2
square.d <- function(t) 2*t
abs.d <- sign
losses <- c(square, abs, square.d, abs.d)
names(losses) <- c("Squared Loss", "Absolute Loss",
"Change in Squared Loss", "Change in Absolute Loss")
loss.types <- c(rep("Loss (energy)", 2), rep("Change in loss (force)", 2))
#
# Prepare for plotting.
#
colors <- darken(rainbow(length(y)))
x.limits <- range(y) + c(-1, 1)/2
#
# Make the plots.
#
par(mfrow=c(2,2))
for (j in 1:length(losses)) {
f <- losses[[j]]
y.range <- range(c(0, 1.1*loss(y, y, f)))
#
# Plot the loss (or its rate of change).
#
curve(loss(x, y, f), from=min(x.limits), to=max(x.limits),
n=1001, lty=3,
ylim=y.range, xlab="Value", ylab=loss.types[j],
main=names(losses)[j])
#
# Draw the x-axis if needed.
#
if (sign(prod(y.range))==-1) abline(h=0, col="Gray")
#
# Faintly mark the data values.
#
abline(v=y, col="#00000010")
#
# Plot contributions to the loss (or its rate of change).
#
for (i in 1:length(y)) {
curve(loss(x, y[i], f), add=TRUE, lty=1, col=colors[i], n=1001)
}
rug(y, side=3)
}