¿Importa el orden de las variables explicativas al calcular sus coeficientes de regresión?

Al principio pensé que el orden no importaba, pero luego leí sobre el proceso de ortogonalización de gram-schmidt para calcular coeficientes de regresión múltiple, y ahora tengo dudas.

Según el proceso de gram-schmidt, cuanto más tarde se indexa una variable explicativa entre las otras variables, más pequeño es su vector residual porque los vectores residuales de las variables anteriores se restan de él. Como resultado, el coeficiente de regresión de la variable explicativa también es más pequeño.

Si eso es cierto, entonces el vector residual de la variable en cuestión sería más grande si se indexara antes, ya que se restarían menos vectores residuales. Esto significa que el coeficiente de regresión también sería mayor.

Ok, entonces me han pedido que aclare mi pregunta. Así que publiqué capturas de pantalla del texto que me confundieron en primer lugar. Ok, aquí va.

Entiendo que hay al menos dos opciones para calcular los coeficientes de regresión. La primera opción se denota (3.6) en la siguiente captura de pantalla.

La primera forma

Aquí está la segunda opción (tuve que usar varias capturas de pantalla).

La segunda forma

ingrese la descripción de la imagen aquí

A menos que esté malinterpretando algo (que definitivamente es posible), parece que el orden importa en la segunda opción. ¿Importa en la primera opción? ¿Por qué o por qué no? ¿O mi marco de referencia está tan desordenado que ni siquiera es una pregunta válida? Además, ¿está todo esto relacionado de alguna manera con la suma de cuadrados tipo I versus la suma de cuadrados tipo II?

Muchas gracias de antemano, estoy tan confundido!

regression multiple-regression regression-coefficients

— Ryan Zotti
fuente

¿Podría describir el procedimiento exacto de cómo se calculan los coeficientes? Por lo que sé sobre la ortogonalización de gram-schmidt y cómo se puede aplicar al problema de regresión, puedo suponer que al usar el procedimiento gs puede ajustar la regresión, pero no los coeficientes originales. Tenga en cuenta que el ajuste de regresión es la proyección al espacio de las columnas. Si ortogonaliza las columnas, obtiene la base ortogonal del espacio que abarca las columnas, por lo tanto, el ajuste será una combinación lineal de esta base, y también una combinación lineal de columnas originales. Será lo mismo ...

— mpiktas

pero los coeficientes serán diferentes. Esto es perfectamente normal.

— mpiktas

Creo que estoy confundido porque pensé que leí en "Los elementos del aprendizaje estadístico" que los coeficientes calculados usando el proceso gram-schmidt serían los mismos que los calculados usando el proceso tradicional: B = (X'X) ^ - 1 X'y.

— Ryan Zotti

Aquí está el extracto del libro que habla sobre el procedimiento: "Podemos ver la estimación [de coeficientes] como el resultado de dos aplicaciones de la regresión simple. Los pasos son: 1. retroceder x en 1 para producir el z residual = x - x ̄1; 2. retroceda y en el z residual para dar el coeficiente βˆ1. Esta receta se generaliza al caso de las entradas p, como se muestra en el Algoritmo 3.1. Observe que las entradas z0,..., zj − 1 en el paso 2 son ortogonales, por lo tanto, los coeficientes de regresión simples calculados allí son, de hecho, también los coeficientes de regresión múltiple ".

— Ryan Zotti

Se vuelve un poco complicado cuando copio y pego en la sección de comentarios aquí, por lo que probablemente sea mejor mirar directamente la fuente. Es la página 53 a 54 de "Los elementos del aprendizaje estadístico", que se puede descargar gratuitamente en el sitio web de Stanford: www-stat.stanford.edu/~tibs/ElemStatLearn .

— Ryan Zotti

Respuestas:

Creo que la confusión puede estar surgiendo de algo un poco más simple, pero brinda una buena oportunidad para revisar algunos asuntos relacionados.

Tenga en cuenta que el texto es no afirmar que todos los coeficientes de regresión se puede calcular a través de los sucesivos vectores residuales como $\newcommand{\bhat}{\hat{\beta}}\newcommand{\m}{\mathbf}\newcommand{\z}{\m{z}}\bhat_i$ Sino que sólo laúltima , se puede calcular de esta manera!

{\hat{β}}_{yo} \overset{?}{=} \frac{⟨ y, z_{yo} ⟩}{‖ z_{yo} ‖^{2}},

$\bhat_i \stackrel{?}{=} \frac{\langle \m y, \z_i \rangle}{\|\z_i\|^2}\>,$

{\hat{β}}_{p}

$\bhat_p$

El esquema de ortogonalización sucesivo (una forma de ortogonalización de Gram-Schmidt) está (casi) produciendo un par de matrices y manera que $\newcommand{\Z}{\m{Z}}\newcommand{\G}{\m{G}}\Z$ $\G$ donde es con columnas ortonormales y es triangular superior. Digo "casi", ya que el algoritmo solo especifica hasta las normas de las columnas, que en general no serán una, pero se puede hacer que tengan la norma de la unidad normalizando las columnas y haciendo un ajuste simple correspondiente a la matriz de coordenadas .

X = Z sol,

$\m X = \Z \G \>,$

Z

$\Z$

n \times p

$n \times p$

G = (g_{i j})

$\G = (g_{ij})$

p \times p

$p \times p$

Z

$\Z$

G

$\G$

Suponiendo, por supuesto, que tiene rango , la única solución de mínimos cuadrados es el vector que resuelve el sistema $\m X \in \mathbb R^{n \times p}$ $p \leq n$ $\bhat$

X^{T} X \hat{β} = X^{T} y .

$\m X^T \m X \bhat = \m X^T \m y \>.$

Sustituyendo y utilizando (por construcción), obtenemos $\m X = \Z \G$ $\Z^T \Z = \m I$ Que es equivalente a

G^{T} G \hat{β} = G^{T} Z^{T} y,

$\G^T \G \bhat = \G^T \Z^T \m y \> ,$

G \hat{β} = Z^{T} y .

$\G \bhat = \Z^T \m y \>.$

Ahora, concéntrate en la última fila del sistema lineal. El único elemento distinto de cero de en la última fila es . Así, obtenemos que $\G$ $g_{pp}$

g_{p p} {\hat{β}}_{p} = ⟨ y, z_{p} ⟩ .

$g_{pp} \bhat_p = \langle \m y, \z_p \rangle \>.$

g_{p p} = ‖ z_{p} ‖

$g_{pp} = \|\z_p\|$

z_{i}

$\z_i$

$\bhat_i$ $(p-1)$

g_{p - 1, p - 1} {\hat{β}}_{p - 1} + g_{p - 1, p} {\hat{β}}_{p} = ⟨ z_{p - 1}, y ⟩,

$g_{p-1,p-1} \bhat_{p-1} + g_{p-1,p} \bhat_p = \langle \m z_{p-1}, \m y \rangle \>,$

{\hat{β}}_{p - 1} = g_{p - 1, p - 1}^{- 1} ⟨ z_{p - 1}, y ⟩ - g_{p - 1, p - 1}^{- 1} g_{p - 1, p} {\hat{β}}_{p} .

$\bhat_{p-1} = g_{p-1,p-1}^{-1} \langle \m z_{p-1}, \m y \rangle \> - g_{p-1,p-1}^{-1} g_{p-1,p} \bhat_p .$

g_{i i}

$g_{ii}$

{\hat{β}}_{i}

$\bhat_i$

$\m X$ $\m X^{(r)}$ $r$ $\bhat_r$ $\bhat_r$ $\m y$ $\m x_r$

Descomposición general de QR

$\m X$

X = Q R,

$\m X = \m Q \m R \>,$

X

$\m X$

\hat{β}

$\bhat$

R^{T} R \hat{β} = R^{T} Q^{T} y,

$\m R^T \m R \bhat = \m R^T \m Q^T \m y \>,$

R \hat{β} = Q^{T} y .

$\m R \bhat = \m Q^T \m y \> .$

R

$\m R$

{\hat{β}}_{p}

$\bhat_p$

$\m X$ $\hat{\m y}$

— cardenal
fuente

$\beta_j$ $\beta_p$

Ejercicio 3.4 en ESL

$X$

Solución

$X$

X = Z Γ,

$X = Z \Gamma,$

Z

$Z$

z_{j}

$z_j$

Γ

$\Gamma$

γ_{i j} = \frac{⟨ z_{i}, x_{j} ⟩}{‖ z_{i} ‖^{2}}

$\gamma_{ij} = \frac{\langle z_i, x_j \rangle}{\| z_i \|^2}$

x_{j} = z_{j} + \sum_{k = 0}^{j - 1} γ_{k j} z_{k} .

$x_j = z_j + \sum_{k=0}^{j-1} \gamma_{kj} z_k.$

$QR$ $X = QR$ $Q$ $R$ $Q = Z D^{-1}$ $R = D\Gamma$ $D$ $D_{jj} = \| z_j \|$

$\hat \beta$

(X^{T} X) \hat{β} = X^{T} y .

$(X^T X) \hat \beta = X^T y.$

Q R

$QR$

\begin{aligned} (R^{T} Q^{T}) (Q R) \hat{β} & = R^{T} Q^{T} y \\ R \hat{β} & = Q^{T} y \end{aligned}

$\begin{align*} (R^T Q^T) (QR) \hat \beta &= R^T Q^T y \\ R \hat \beta &= Q^T y \end{align*}$

$R$

\begin{aligned} R_{p p} {\hat{β}}_{p} & = ⟨ q_{p}, y ⟩ \\ ‖ z_{p} ‖ {\hat{β}}_{p} & = ‖ z_{p} ‖^{- 1} ⟨ z_{p}, y ⟩ \\ {\hat{β}}_{p} & = \frac{⟨ z_{p}, y ⟩}{‖ z_{p} ‖^{2}} \end{aligned}

$\begin{align*} R_{pp} \hat \beta_p &= \langle q_p, y \rangle \\ \| z_p \| \hat \beta_p &= \| z_p \|^{-1} \langle z_p, y \rangle \\ \hat \beta_p &= \frac{\langle z_p, y \rangle}{\| z_p \|^2} \end{align*}$

{\hat{β}}_{j}

$\hat \beta_j$

{\hat{β}}_{p - 1}

$\hat \beta_{p-1}$

\begin{aligned} R_{p - 1, p - 1} {\hat{β}}_{p - 1} + R_{p - 1, p} {\hat{β}}_{p} & = ⟨ q_{p - 1}, y ⟩ \\ ‖ z_{p - 1} ‖ {\hat{β}}_{p - 1} + ‖ z_{p - 1} ‖ γ_{p - 1, p} {\hat{β}}_{p} & = ‖ z_{p - 1} ‖^{- 1} ⟨ z_{p - 1}, y ⟩ \end{aligned}

$\begin{align*} R_{p-1, p-1} \hat \beta_{p-1} + R_{p-1,p} \hat \beta_p &= \langle q_{p-1}, y \rangle \\ \| z_{p-1} \| \hat \beta_{p-1} + \| z_{p-1} \| \gamma_{p-1,p} \hat \beta_p &= \| z_{p-1} \|^{-1} \langle z_{p-1}, y \rangle \end{align*}$

{\hat{β}}_{p - 1}

$\hat \beta_{p-1}$

β_{j}

$\beta_j$

— Andrew Tulloch
fuente

¿Por qué no probarlo y comparar? Ajuste un conjunto de coeficientes de regresión, luego cambie el orden y vuelva a ajustarlos para ver si difieren (aparte del posible error de redondeo).

Como @mpiktas señala, no está exactamente claro lo que está haciendo.

$B$ $(x'x)B=(x'y)$ $(x'x)$

$x_1$ $x_2$ $x_1$ $y$ $x_2$ $y$ $x_1$ $x_2$ $y$ $x_1$ $x_1$ $x_2$

— Greg Snow
fuente

Creo que su último párrafo probablemente esté más cerca de la fuente de mi confusión: GS hace que el orden importe. Es lo que pensaba. Sin embargo, todavía estoy un poco confundido, porque el libro que estoy leyendo, llamado: "Los elementos del aprendizaje estadístico" (una publicación de Stanford que está disponible gratuitamente: www-stat.stanford.edu/~tibs/ElemStatLearn ) parece sugiera que GS es equivalente al enfoque estándar para calcular los coeficientes; es decir, B = (X'X) ^ - 1 X'y.

— Ryan Zotti el

Y parte de lo que dices también me confunde un poco: "Puedo ver el uso de GS para resolver B en la ecuación de mínimos cuadrados (x′x) ^ - 1 B = (x′y). Pero entonces estarías haciendo el GS en la matriz (x′x), no los datos originales ". ¿Pensé que la matriz x'x contenía los datos originales? ... Al menos eso es lo que dice Elementos de aprendizaje estadístico. Dice que x en x'x es una matriz N por p donde N es el número de entradas (observaciones) y p es el número de dimensiones.

— Ryan Zotti

Si GS no es el procedimiento estándar para calcular los coeficientes, ¿cómo se trata típicamente la colinealidad? ¿Cómo se distribuye típicamente la redundancia (colinealidad) entre las x? ¿La colinealidad tradicionalmente hace que los coeficientes sean inestables? Entonces, ¿eso no sugeriría que el proceso GS es el proceso estándar? Debido a que el proceso GS también hace que los coeficientes sean inestables, un vector residual más pequeño hace que el coeficiente sea inestable.

— Ryan Zotti

Al menos eso es lo que dice el texto: "Si xp está altamente correlacionado con algunas de las otras xk, el vector residual zp estará cerca de cero, y desde (3.28) el coeficiente βˆp será muy inestable".

— Ryan Zotti

Tenga en cuenta que GS es una forma de descomposición QR.

— Cardenal