La mediana de las estimaciones de regresión L1 mientras que las estimaciones de regresión L2 significan?

24

Entonces me hicieron una pregunta sobre qué medidas centrales L1 (es decir, lazo) y L2 (es decir, regresión de cresta) estimaron. La respuesta es L1 = mediana y L2 = media. ¿Hay algún tipo de razonamiento intuitivo para esto? ¿O tiene que determinarse algebraicamente? Si es así, ¿cómo hago para hacer eso?

— Bstat
fuente

44

Por L1 / L2, ¿te refieres a la función objetivo o las restricciones? Si la función objetivo es sí, el error L1 se minimiza con la mediana condicional y L2 la media condicional. Si las restricciones (a qué cresta / lazo se refieren), entonces esta es la forma incorrecta de pensar sobre esto. Sus "medidas centrales" todavía apuntan a una media condicional pero con diferentes sanciones en .

β

$\beta$

— muratoa

24

Hay una explicación geométrica simple de por qué la función de pérdida L1 produce la mediana.

Recuerde que estamos trabajando en una dimensión, así que imagine una línea numérica que se extienda horizontalmente. Trace cada uno de los puntos de datos en la recta numérica. Pon tu dedo en algún lugar de la línea; su dedo será su estimado candidato actual.

Supongamos que mueve su dedo un poco hacia la derecha, digamos unidades a la derecha. ¿Qué pasa con la pérdida total? Bueno, si su dedo estaba entre dos puntos de datos y lo mueve a través de un punto de datos, ha aumentado la pérdida total en para cada punto de datos a la izquierda de su dedo, y la ha disminuido en para cada dato apunte a la derecha de su dedo. Entonces, si hay más puntos de datos a la derecha del dedo que a la izquierda, mover el dedo hacia la derecha disminuye la pérdida total. En otras palabras, si más de la mitad de los puntos de datos están a la derecha de su dedo, debe moverlo hacia la derecha. $\delta$ $\delta$ $\delta$

Esto lleva a mover el dedo hacia un punto donde la mitad de los puntos de datos están en ese punto y la otra mitad a la derecha. Ese lugar es la mediana.

Esa es L1 y la mediana. Desafortunadamente, no tengo una explicación similar, "toda intuición, sin álgebra" para L2 y la media.

— DW
fuente

77

Si estamos hablando de una estimación puntual simple, entonces es un cálculo sencillo.

\frac{d}{d β} \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - β)^{2} = - 2 \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - β) = 0 \Rightarrow β = \frac{1}{n} \sum_{i} y_{i}

$\frac{d}{d \beta} \frac{1}{n}\sum_{i=1}^n (y_i - \beta)^2 = -2\frac{1}{n}\sum_{i=1}^n(y_i - \beta) = 0 \Rightarrow \beta = \frac{1}{n}\sum_i y_i$

— muratoa

3

@muratoa, sí, conozco la derivación del cálculo, pero la pregunta pide específicamente una explicación que se centre en la intuición y evite el álgebra. Supongo que el que hace la pregunta ya conoce la derivación del cálculo, pero está buscando algo que proporcione más intuición.

— DW

Pensé que la OP mencionaba la regresión que sugiere que él está hablando de la estimación de y dada x, que es una media condicional usando mínimos cuadrados y la mediana condicional para el error absoluto medio. Las mismas explicaciones deberían funcionar, pero el problema es un poco diferente. La explicación del cálculo de la media es bastante clara y directa. Quizás se pueda dar una explicación de la media de manera similar a los DW para la mediana. La media de la muestra es una estimación imparcial de la media de la población.

— Michael R. Chernick

A medida que aleja la estimación de la media de la muestra, el error cuadrático medio cambia debido a un aumento en el sesgo. El error cuadrado medio en realidad aumenta en d cuando la estimación agrega d a la media muestral como la estimación candidata.

^{2}

$^2$

— Michael R. Chernick

11

Existe una versión rápida y sucia del álgebra dada por muratoa para el caso L1. Observe que excepto cuando , la derivada dewrt es , es decir si y si . Entonces , excepto cuando es un . La derivada se desvanece cuando hay el mismo número de términos positivos y negativos entre el , que en términos generales surge cuando

β = y_{i}

$\beta = y_i$

| y_{i} - β |

$| y_i -\beta |$

β

$\beta$

- s g n (y_{i} - β)

$-\mathrm{sgn}(y_i-\beta)$

- 1

$-1$

β < y_{i}

$\beta < y_i$

+ 1

$+1$

β > y_{i}

$\beta > y_i$

\frac{d}{d β} \frac{1}{n} \sum_{i} | y_{i} - β | = - \frac{1}{n} \sum_{i} s g n (y_{i} - β)

$\frac{\mathrm{d}}{\mathrm{d}\beta} \,\frac{1}{n}\sum_i | y_i -\beta | = -\frac{1}{n}\,\sum_i \mathrm{sgn}(y_i-\beta)$

β

$\beta$

y_{i}

$y_i$

y_{i} - β

$y_i-\beta$

β

$\beta$ es la mediana de .

y_{i}

$y_i$

— Yves

17

Esta explicación es un resumen de los comentarios de muratoa e Yves sobre la respuesta de DW. Aunque se basa en el cálculo, lo encontré sencillo y fácil de entender.

Suponiendo que tenemos y queremos obtener una nueva estimación basada en ellos. La pérdida más pequeña se obtiene cuando encontramos que hace que la derivada de la pérdida sea cero. $y_1, y_2, ... y_k$ $\beta$ $\beta$

Pérdida L1

L 1 = \frac{1}{k} \sum_{i = 1}^{k} | y_{i} - β |

$L1=\frac{1}{k}\sum_{i=1}^k|y_i-\beta|$

\frac{\partial L_{1}}{\partial β} = - \frac{1}{k} \sum_{i = 1}^{k} s g n (y_{i} - β)

$\frac{\partial L_1}{\partial\beta}=-\frac{1}{k}\sum_{i=1}^k sgn(y_i-\beta)$

s g n (y_{i} - β)

$sgn(y_i-\beta)$ es 1 cuando , -1 cuando . La derivada es igual a 0 cuando hay el mismo número de términos positivos y negativos entre , lo que significa que debería ser la mediana de .

y_{i} > β

$y_i>\beta$

y_{i} < β

$y_i<\beta$

y_{i} - β

$y_i-\beta$

β

$\beta$

y_{i}

$y_i$

Pérdida de L2

L 2 = \frac{1}{k} \sum_{i = 1}^{k} (y_{i} - β)^{2}

$L2=\frac{1}{k}\sum_{i=1}^k(y_i-\beta)^2$

\frac{\partial L_{2}}{\partial β} = - \frac{2}{k} \sum_{i = 1}^{k} (y_{i} - β)

$\frac{\partial L_2}{\partial\beta}=-\frac{2}{k}\sum_{i=1}^k(y_i-\beta)$

\frac{\partial L_{2}}{\partial β} = 0 \to β = \frac{1}{k} \sum_{i = 1}^{k} y_{i}

$\frac{\partial L_2}{\partial\beta}=0\rightarrow\beta=\frac{1}{k}\sum_{i=1}^k y_i$
Entonces, para minimizar la pérdida de L2, debería ser la media de .

β

$\beta$

y_{i}

$y_i$

— chefwen
fuente

3

Agregando a la respuesta de DW con un ejemplo aún más práctico (también para la función de pérdida L2):

Imagine un pequeño pueblo formado por 4 casas cercanas entre sí (por ejemplo, 10 metros). A 1 kilómetro de ellos, tiene otra casa muy aislada. Ahora, llegas a esa ciudad y quieres construir tu propia casa en algún lugar. Desea vivir cerca de las otras casas y ser amigo de todos. Considere esos dos escenarios alternativos:

Decide estar en el lugar donde la distancia promedio a cualquier casa es la más pequeña (es decir, minimizar una función de pérdida L1).
- Si coloca su casa en el centro del pueblo, estará a unos 10 metros de 4 casas y a 1 kilómetro de una casa, lo que le da una distancia promedio de unos 200 metros (10 + 10 + 10 + 10 + 1000 / 5).
- Si coloca su casa a 500 metros del pueblo, estará a unos 500 metros de 5 casas, lo que le da una distancia promedio de 500 metros.
- Si coloca su casa al lado de la casa aislada, estará a 1 km del pueblo (4 casas) y a unos 10 metros de distancia de una casa, lo que le da una distancia promedio de aproximadamente 800 metros.
Entonces, la distancia promedio más baja de 100 metros se alcanza construyendo su casa en el pueblo. Más específicamente, construirá su casa en el medio de estas 4 casas para ganar unos metros más de distancia promedio. Y resulta que este punto es el " punto medio ", que habría obtenido de manera similar utilizando la fórmula mediana.
Decide adoptar un enfoque democrático. Le pregunta a cada uno de sus cinco vecinos futuros cuál es su ubicación preferida para su nueva casa. A todos les gustas y quieren que vivas cerca de ellos. Entonces todos declaran su ubicación preferida para ser el lugar justo al lado de su propia casa. Se toma el promedio de todas las ubicaciones votadas de sus cinco vecinos, y el resultado es "a 200 metros de la aldea" (promedio de los votos: 0 + 0 + 0 + 0 + 1000/5 = 200), que es el " punto medio " de las 5 casas, que habría obtenido de manera similar utilizando la fórmula media. Y esta ubicación resulta ser exactamente la misma que imita la suma de las distancias al cuadrado (es decir, la función de pérdida de L2). Hagamos los cálculos para verlo:
- En esta ubicación, la suma de las distancias al cuadrado es: 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 800 ^ 2 = 800 000
- Si construimos la casa en el centro del pueblo, nuestra suma de distancias al cuadrado sería: 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 1000 ^ 2 = 1 000 000
- Si construimos, construimos la casa a 100 metros del pueblo (como en 1), la suma de las distancias al cuadrado es: 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 900 ^ 2 = 850 000
- Si construimos la casa a 100 metros de la casa aislada, la suma de las distancias al cuadrado es: 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 100 ^ 2 = 3 250 000

Entonces, sí, es interesante notar que, un poco contra-intuitivamente, cuando minimizamos la suma de las distancias, no terminamos en el "medio" en el sentido de la media, sino en el sentido de la mediana. Esta es parte de la razón por la cual OLS, uno de los modelos de regresión más populares, utiliza errores al cuadrado en lugar de errores absolutos.

— Jonathan Zimmermann
fuente

1

Además de las respuestas ya publicadas (¡que me han sido muy útiles!), Hay una explicación geométrica de la conexión entre la norma L2 y la media.

Para usar la misma notación que chefwen , la fórmula para la pérdida de L2 es:

L 2 = \frac{1}{k} \sum_{yo = 1}^{k} (y_{yo} - β)^{2}

$L2 = \frac{1}{k} \sum^{k}_{i=1} (y_i - \beta)^2$

Deseamos encontrar el valor de que minimiza . Tenga en cuenta que esto es equivalente a minimizar lo siguiente, ya que multiplicar por y tomar la raíz cuadrada conservan el orden: $\beta$ $L2$ $k$

\sqrt{\sum_{yo = 1}^{k} (y_{yo} - β)^{2}}

$\sqrt { \sum^{k}_{i=1} (y_i - \beta)^2 }$

Si considera el vector de datos como un punto en el espacio -dimensional, esta fórmula calcula la distancia euclidiana entre el punto el punto . $y$ $k$ $y$ $\vec{\beta} = (\beta, \beta, ..., \beta)$

Entonces, el problema es encontrar el valor que minimiza la distancia euclidiana entre los puntos y . Dado que todos los valores posibles de encuentran en la línea paralela a por definición, esto es equivalente a encontrar la proyección vectorial de sobre . $\beta$ $y$ $\vec{\beta}$ $\vec{\beta}$ $\vec{1} = (1, 1, ..., 1)$ $y$ $\vec{1}$

Solo es realmente posible visualizar esto cuando , pero aquí hay un ejemplo donde . Como se muestra, proyectar en produce como esperamos. $k = 2$ $y = (2, 6)$ $\vec{1}$ $(4, 4)$

Para mostrar que esta proyección siempre produce la media (incluso cuando ), podemos aplicar la fórmula para la proyección : $k > 2$

\begin{aligned} \vec{β} & = {proy}_{\vec{1}} y \\ = \frac{y \cdot \vec{1}}{El | \vec{1} {El |}^{2}} \vec{1} \\ β & = \frac{\sum_{yo = 1}^{k} y_{yo}}{k} \end{aligned}

$\begin{alignat}{2} \vec{\beta} &= \operatorname{proj}_{\vec{1}}{y} \\ &= \frac{y \cdot \vec{1}}{|\vec{1}|^2}\vec{1} \\ \beta &= \frac{\sum^k_{i=1} y_i}{k} \end{alignat}$

— Paul
fuente