¿Cómo derivar el estimador de mínimos cuadrados para la regresión lineal múltiple?


30

En el sencillo lineal caso de regresión y=β0+β1x , puede derivar el estimador de mínimos cuadrados β 1 = Σ ( x i - ˉ x ) ( y i - ˉ y )β^1=(xix¯)(yiy¯)(xix¯)2 de tal manera que usted no tiene que saber β 0para estimar β 1β^0β^1

Supongamos que tengo y=β1x1+β2x2 , ¿cómo derivo β 1 sin estimar β 2 ? ¿O esto no es posible?β^1β^2


1
Puede omitir una de las variables y aún obtener una estimación imparcial de la otra si son independientes.
david25272

Respuestas:


51

La derivación en notación matricial

A partir de y=Xb+ϵ , que realmente es lo mismo que

[y1y2yN]=[x11x12x1Kx21x22x2KxN1xN2xNK][b1b2bK]+[ϵ1ϵ2ϵN]

todo se reduce a minimizar :ee

ϵϵ=[e1e2eN][e1e2eN]=i=1Nei2

Entonces, minimizar nos da:ee

e e = ( y - X b ) ( y - X b )minb ee=(yXb)(yXb)

e e = y y - 2 b X y + b X X bminb ee=yy2bXy+bXXb

(ee)b=2Xy+2XXb=!0

XXb=Xy

b=(XX)1Xy

Una última cosa matemática, la condición de segundo orden para un mínimo requiere que la matriz sea ​​positiva definida. Este requisito se cumple en caso de que X tenga rango completo.XXX

La derivación más precisa que atraviesa todos los pasos en un departamento mayor se puede encontrar en http://economictheoryblog.com/2015/02/19/ols_estimator/


3
Esta derivación es precisamente lo que estaba buscando. SIN PASOS SALTADOS. Sorprendente lo difícil que es encontrar lo mismo.
javadba

1
En la ecuación matricial, ¿no debería ser el segundo *a +? Además, ¿no debería ser lugar de b N para que las dimensiones coincidan? bKbN
Alexis Olson

Alexis Olson, tienes razón! Edité mi respuesta.
Andreas Dibiasi

13

Es posible estimar solo un coeficiente en una regresión múltiple sin estimar los otros.

La estimación de se obtiene eliminando los efectos de x 2 de las otras variables y luego regresando los residuos de y contra los residuos de x 1 . Esto se explica e ilustra ¿Cómo controla exactamente uno para otras variables? y ¿Cómo normalizar (a) el coeficiente de regresión? . La belleza de este enfoque es que no requiere cálculo, ni álgebra lineal, puede visualizarse usando solo geometría bidimensional, es numéricamente estable y explota solo una idea fundamental de regresión múltiple: la de sacar (o "controlar para" ) los efectos de una sola variable.β1x2yx1


En el presente caso, la regresión múltiple se puede hacer usando tres pasos de regresión ordinarios:

  1. Regrese en x 2 (¡sin un término constante!). Deje que el ajuste sea y = α y , 2 x 2 + δ . La estimación es α y , 2 = i y i x 2 iyx2y=αy,2x2+δ Por lo tanto, los residuos sonδ=y-αy,2x2. Geométricamente,δes lo que queda deydespués derestarsu proyección sobrex2.

    αy,2=iyix2iix2i2.
    δ=yαy,2x2.
    δyx2
  2. Regresión en x 2 (sin un término constante). Deje que el ajuste sea x 1 = α 1 , 2 x 2 + γ . La estimación es α 1 , 2 = i x 1 i x 2 ix1x2x1=α1,2x2+γLos residuos sonγ=x1-α1,2x2. Geométricamente,γes lo que queda dex1después derestarsu proyección sobrex2.

    α1,2=ix1ix2iix2i2.
    γ=x1α1,2x2.
    γx1x2
  3. Regrese en γ (sin un término constante). La estimación es β 1 = Σ i δ i γ iδγEl ajuste seráδ= β 1γ+ε. Geométricamente, beta 1es el componente deδ(que representayconx2sacado) en laγdirección (que representax1conx2sacado).

    β^1=iδiγiiγi2.
    δ=β^1γ+εβ^1δyx2γx1x2

Observe que no se ha estimado. β2 Es fácilmente se puede recuperar de lo que se ha obtenido hasta el momento (tal como β 0 en el caso de regresión ordinaria se obtiene fácilmente a partir de la estimación de la pendiente β 1 ). Los ε son los residuos para la regresión bivariada de y en x 1 y x 2 .β^0β^1εyx1x2

El paralelo con la regresión ordinaria es fuerte: los pasos (1) y (2) son análogos de restar las medias en la fórmula habitual. Si deja que sea ​​un vector de unos, de hecho recuperará la fórmula habitual.x2

Este generaliza en la manera obvia de regresión con más de dos variables: para estimar β 1 , regresión y y x 1 por separado contra todas las otras variables, a continuación, regresar a sus residuos de uno contra el otro. En ese momento, ninguno de los otros coeficientes en la regresión múltiple de y aún se ha estimado.β^1yx1y


1
Great answer, here is a general theorem en.wikipedia.org/wiki/…
JohnK

4

The ordinary least squares estimate of β is a linear function of the response variable. Simply put, the OLS estimate of the coefficients, the β's, can be written using only the dependent variable (Yi's) and the independent variables (Xki's).

(β0,β1,...,βk) in a multiple regression model,

Yi=β0+β1X1i+...+βkXki+ϵi

where ϵiiidN(0,σ2) for i=1,...,n. The design matrix X is a n×k matrix where each column contains the n observations of the kth dependent variable Xk. You can find many explanations and derivations here of the formula used to calculate the estimated coefficients β^=(β^0,β^1,...,β^k), which is

β^=(XX)1XY

assuming that the inverse (XX)1 exists. The estimated coefficients are functions of the data, not of the other estimated coefficients.


I have a follow up question, on the simple regression case, you make yi=β0+β1x¯+β1(xix¯)+ei then X becomes a matrix of (1,...,1) and (x1x¯,...,xnx¯), then follow through the β^=(XX)(1)XY. How should I rewrite the equation in my case?
Saber CN

And 1 more question, does this apply to cases where x1 and x2 are not linear, but the model is still linear? For example the decay curve y=β1ex1t+β2ex2t, can I substitute the exponential with x1 and x2so it becomes my original question?
Saber CN

In your first comment, you can center the variable (subtract its mean from it) and use that is your independent variable. Search for "standardized regression". The formula you wrote in terms of matrices is not correct. For your second question, yes you may do that, a linear model is one that is linear in β, so as long as y equal to a linear combination of β's you are fine.
caburke

2
(+1). But shouldn't it be "n×k matrix" instead of k×n?
miura

3

One small minor note on theory vs. practice. Mathematically β0,β1,β2...βn can be estimated with the following formula:

β^=(XX)1XY

where X is the original input data and Y is the variable that we want to estimate. This follows from minimizing the error. I will proove this before making a small practical point.

Let ei be the error the linear regression makes at point i. Then:

ei=yiyi^

The total squared error we make is now:

i=1nei2=i=1n(yiyi^)2

Because we have a linear model we know that:

yi^=β0+β1x1,i+β2x2,i+...+βnxn,i

Which can be rewritten in matrix notation as:

Y^=Xβ

We know that

i=1nei2=EE

We want to minimize the total square error, such that the following expression should be as small as possible

EE=(YY^)(YY^)

This is equal to:

EE=(YXβ)(YXβ)

The rewriting might seem confusing but it follows from linear algebra. Notice that the matrices behave similar to variables when we are multiplying them in some regards.

We want to find the values of β such that this expression is as small as possible. We will need to differentiate and set the derivative equal to zero. We use the chain rule here.

dEEdβ=2XY+2XXβ=0

This gives:

XXβ=XY

Such that finally:

β=(XX)1XY

So mathematically we seem to have found a solution. There is one problem though, and that is that (XX)1 is very hard to calculate if the matrix X is very very large. This might give numerical accuracy issues. Another way to find the optimal values for β in this situation is to use a gradient descent type of method. The function that we want to optimize is unbounded and convex so we would also use a gradient method in practice if need be.


except that you don't actually need to compute (XX)1...
user603

valid point. one could also use the gram schmidt process, but I just wanted to remark that finding the optimal values for the β vector can also be done numerically because of the convexity.
Vincent Warmerdam

2

A simple derivation can be done just by using the geometric interpretation of LR.

Linear regression can be interpreted as the projection of Y onto the column space X. Thus, the error, ϵ^ is orthogonal to the column space of X.

Therefore, the inner product between X and the error must be 0, i.e.,

<X,yXβ^>=0

XyXXβ^=0

Xy=XXβ^

Which implies that,

(XX)1Xy=β^.

Now the same can be done by:

(1) Projecting Y onto X2 (error δ=YX2D^), D^=(X2X2)1X2y,

(2) Projecting X1 onto X2 (error γ=X1X2G^), G^=(X1X1)1X1X2,

and finally,

(3) Projecting δ onto γ, β^1

enter image description here

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.