Interpretación geométrica de la regresión lineal penalizada.

Sé que la regresión lineal puede pensarse como "la línea que está verticalmente más cercana a todos los puntos" :

ingrese la descripción de la imagen aquí

Pero hay otra forma de verlo, visualizando el espacio de la columna, como "la proyección sobre el espacio atravesado por las columnas de la matriz de coeficientes" :

ingrese la descripción de la imagen aquí

Mi pregunta es: en estas dos interpretaciones, ¿qué sucede cuando usamos la regresión lineal penalizada, como la regresión de cresta y LASSO ? ¿Qué pasa con la línea en la primera interpretación? ¿Y qué pasa con la proyección en la segunda interpretación?

ACTUALIZACIÓN: @JohnSmith en los comentarios mencionó el hecho de que la penalización se produce en el espacio de los coeficientes. ¿Hay alguna interpretación en este espacio también?

regression intuition geometry

— Lucas Reis
fuente

No estoy seguro de que sea posible llegar a tal interpretación. Simplemente porque lo que proporcionó son imágenes en el espacio original de características y respuestas. Y la regresión penalizada implica el espacio de coeficientes, que es muy diferente.

— Dmitry Laptev

¿"la línea verticalmente más cercana a todos los puntos"? Por lo general, se toma la suma de cuadrados: vea la bonita imagen en Wikipedia Coefficient_of_determination . La suma de las distancias verticales es la norma L1, que es menos sensible a los valores atípicos pero mucho menos común.

— denis

Respuestas:

Perdón por mis habilidades de pintura, intentaré darte la siguiente intuición.

$f(\beta)$ $\beta$ $\beta_1$ $\beta_2$

Hay un mínimo de esta función, en el medio de los círculos rojos. Y este mínimo nos da la solución no penalizada.

$g(\beta)$ $g(\beta) = \lambda (|\beta_1| + |\beta_2|)$ $g(\beta) = \lambda (\beta_1^2 + \beta_2^2)$ $\lambda$ $\lambda$ $g(x)$

$f(\beta) + g(\beta)$

LASSO y la regresión de Ridge

La penalización más grande, los contornos azules "más estrechos" que obtenemos, y luego las gráficas se encuentran en un punto más cercano a cero. Un revés: cuanto menor es la penalización, los contornos se expanden y la intersección de las parcelas azul y roja se acerca al centro del círculo rojo (solución no penalizada).

$\beta_1 = 0$ $\beta_2 = 0$

$0$

Espero que eso explique algo de intuición sobre cómo funciona la regresión penalizada en el espacio de parámetros.

— Dmitry Laptev
fuente

Creo que comenzar con una imagen clásica, como lo has hecho, es un buen comienzo. Para comprender realmente esto, creo que sería útil describir cómo los contornos se relacionan con el problema. En particular, sabemos en ambos casos, que cuanto más pequeña sea nuestra penalización, más cerca estaremos de la solución OLS, y cuanto más grande sea, más nos acercaremos a un modelo de intersección pura. Una pregunta que debe hacerse es: ¿Cómo se manifiesta esto en su figura?

— cardenal

Por cierto, tus habilidades de pintura parecen estar bien.

— cardenal

¡Gracias por tu comentario! Aquí todo es intuitivamente simple: la penalización más grande, los contornos azules "más estrechos" que obtenemos (y luego el punto que se encuentran dos trazados se acerca a cero). Un revés: cuanto menor sea la penalización: más cerca del centro del círculo rojo se encontrarán las tramas (OLS).

— Dmitry Laptev

g (x)

$g(x)$

λ

$\lambda$

Gracias por la clara ilustración. He leído en otra parte que la suma mínima de los objetivos ocurre cuando son tangentes entre sí. Entiendo que si f (\ beta) '= -g (\ beta)' eso significaría que la derivada de la suma es cero, que es un requisito para un extremo. ¿Es esto lo que se entiende aquí por "cuando dos trazados de contorno se encuentran"?

— odedbd

La intuición que tengo es la siguiente: en el caso de mínimos cuadrados, la matriz del sombrero es una proyección ortogonal, por lo tanto, idempotente. En el caso penalizado, la matriz del sombrero ya no es idempotente. En realidad, aplicarlo infinitamente muchas veces reducirá los coeficientes al origen. Por otro lado, los coeficientes aún deben estar en el intervalo de los predictores, por lo que sigue siendo una proyección, aunque no ortogonal. La magnitud del factor de penalización y el tipo de norma controlan la distancia y la dirección de la contracción hacia el origen.

— JohnRos
fuente

No puedo ver por qué no es idempotente: si proyecto el vector en el espacio (incluso si no es una proyección ortogonal) y pongo una restricción en los coeficientes, ¿por qué una nueva proyección de este vector proyectado sería diferente de la anterior? ¿uno?

— Lucas Reis

Intuitivamente: Digamos que está minimizando la suma penalizada de cuadrados por segunda vez. La suma de cuadrados en la segunda minimización es menor que la suma de cuadrados de la primera minimización. La importancia relativa de la norma de los coeficientes penalizados aumentará, es decir, hay más por ganar reduciendo los coeficientes un poco más. La regresión de crestas es un buen ejemplo en el que tiene una buena forma cerrada para la matriz de sombreros y puede verificar directamente si es idempotente.

— JohnRos