Intuición detrás en forma cerrada de w en Regresión lineal


10

La forma cerrada de w en regresión lineal se puede escribir como

w^=(XTX)1XTy

¿Cómo podemos explicar intuitivamente el papel de en esta ecuación?(XTX)1


2
¿Podría explicar qué quiere decir con "intuitivamente"? Por ejemplo, hay una explicación maravillosamente intuitiva en términos de espacios de productos internos presentada en las respuestas del plano de Christensen a preguntas complejas, pero no todos apreciarán ese enfoque. Como otro ejemplo, hay una explicación geométrica en mi respuesta en stats.stackexchange.com/a/62147/919 , pero no todos ven las relaciones geométricas como "intuitivas".
whuber

Intuitivamente es como ¿qué significa $ (X ^ TX) ^ {- 1}? ¿Es algún tipo de cálculo de distancia o algo así? No lo entiendo.
Darshak

1
Eso se explica completamente en la respuesta a la que me vinculé.
whuber

Esta pregunta ya existe aquí, aunque posiblemente no con una respuesta satisfactoria math.stackexchange.com/questions/2624986/…
Sextus Empiricus

Respuestas:


5

Encontré estas publicaciones particularmente útiles:

¿Cómo derivar el estimador de mínimos cuadrados para la regresión lineal múltiple?

Relación entre SVD y PCA. ¿Cómo usar SVD para realizar PCA?

http://www.math.miami.edu/~armstrong/210sp13/HW7notes.pdf

Si es una matriz entonces la matriz define una proyección sobre el espacio de la columna de . Intuitivamente, tiene un sistema de ecuaciones sobredeterminado, pero aún quiere usarlo para definir un mapa lineal que asignará las filas de a algo cercano a los valores , . Por lo tanto, nos conformamos con enviar a lo más cercano a que se puede expresar como una combinación lineal de sus características (las columnas de ). n × p X ( X T X ) - 1 X T X R pR x i X y i i { 1 , , n } X y XXn×pX(XTX)1XTXRpRxiXyii{1,,n}XyX

En cuanto a una interpretación de , todavía no tengo una respuesta sorprendente. Sé que puedes pensar que es básicamente la matriz de covarianza del conjunto de datos. ( X T X )(XTX)1(XTX)


(XTX) se refiere a veces como una "matriz de dispersión" y es solo una versión ampliada de la matriz de covarianza
JacKeown

4

Punto de vista geométrico

Un punto de vista geométrico puede ser como la N-dimensional vectores y siendo puntos en n-dimensional espacio- . Donde también está en el subespacio abarcado por los vectores .X β V X β W x 1 , x 2 , , x myXβVXβ^Wx1,x2,,xm

proyección

Dos tipos de coordenadas

Para este subespacio podemos imaginar dos tipos diferentes de coordenadas :W

  • Losβ son como coordenadas para un espacio de coordenadas regular. El vector en el espacio es la combinación lineal de los vectoreszWxi
    z=β1x1+β2x1+....βmxm
  • Elα no son coordenadas en el sentido normal, pero lo hacen definir un punto en el subespacio . Cada relaciona con las proyecciones perpendiculares sobre los vectores . Si utilizamos los vectores unitarios (por simplicidad), las "coordenadas" para un vector se pueden expresar como:Wαixixiαiz

    αi=xiTz

    y el conjunto de todas las coordenadas como:

α=XTz

Mapeo entre coordenadas yαβ

para la expresión de "coordenadas" convierte en una conversión de coordenadas a "coordenadas"z=Xβαβα

α=XTXβ

Podrías ver como expresión de cuánto se proyecta cada sobre el otro(XTX)ijxixj

Entonces, la interpretación geométrica de puede verse como el mapa desde las "coordenadas" proyección vectorial a las coordenadas lineales .(XTX)1αβ

β=(XTX)1α

La expresión da las "coordenadas" de proyección de y convierte en .XTyy(XTX)1β


Nota : las "coordenadas" de proyección de son las mismas que las "coordenadas" de proyección de desde .y y^(yy^)X


Una cuenta muy similar del tema stats.stackexchange.com/a/124892/3277 .
ttnphns

De hecho muy similar. Para mí, esta visión es muy nueva y tuve que tomarme una noche para pensarlo. Siempre vi la regresión de mínimos cuadrados en términos de una proyección, pero en este punto de vista nunca he tratado de darme cuenta de un significado intuitivo para la parte o siempre lo vi en la expresión más indirecta . X T y = X T X β(XTX)1XTy=XTXβ
Sextus Empiricus

3

Suponiendo que esté familiarizado con la regresión lineal simple: y su solución : β = c o v [ x i , y i ]

yi=α+βxi+εi
β=cov[xi,yi]var[xi]

Es fácil ver cómo corresponde al numerador anterior y asigna al denominador. Como estamos tratando con matrices, el orden importa. es la matriz KxK, y es el vector Kx1. Por lo tanto, el orden es:X X X X X y ( X X ) - 1 X yXyXXXXXy(XX)1Xy


Pero esa analogía en sí no te dice si es anterior o posterior a la inversa.
kjetil b halvorsen

@kjetilbhalvorsen, puse el orden de operaciones
Aksakal
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.