¿Muestra que el estimador de MCO es equivalente a la escala?


11

No tengo una definición formal de equivalencia de escala, pero esto es lo que dice Introducción al aprendizaje estadístico sobre esto en la pág. 217:

Los coeficientes estándar de mínimos cuadrados ... son equivalentes de escala : multiplicar Xj por una constante c simplemente conduce a una escala de las estimaciones de coeficientes de mínimos cuadrados por un factor de 1/c .

Para simplificar, supongamos el modelo lineal general , donde , es una matriz (donde ) con todas las entradas en , y es un vector dimensional de variables aleatorias de valor real con .y=Xβ+ϵyRNXN×(p+1)p+1<NRβRp+1ϵNE[ϵ]=0N×1

Según la estimación de OLS, sabemos que si tiene rango completo (columna), Supongamos que multiplicamos una columna de , digamos para algunos , por una constante . Esto sería equivalente a la matriz β X = ( X T X ) - 1 X T y . X x k k { 1 , 2 , , p + 1 } c 0 X [ 1X

β^X=(XTX)1XTy.
Xxkk{1,2,,p+1}c0
X[111c11]S=[x1x2cxkxp+1]X~
donde todas las demás entradas de la matriz anteriores son , y está en la entrada de la diagonal de . Entonces, 0 c k S ˜ X ˜ XS0ckSX~X~como la nueva matriz de diseño es Después de un poco de trabajo, uno puede demostrar que ˜ X T ˜ X =[ x T 1 x 1 x T 1 x 2c x T 1 x kx T 1 x p + 1 x T 2 x 1 x T 2 x 2
β^X~=(X~TX~)1X~Ty.
X~TX~=[x1Tx1x1Tx2cx1Txkx1Txp+1x2Tx1x2Tx2cx2Txkx2Txp+1cxkTx1cxkTx2c2xkTxkcxkTxp+1xp+1Tx1xp+1Tx2cxp+1Txp+1xp+1Txp+1]
\ cdots & \ mathbf {x} _ {p + 1} ^ {T} \ mathbf {x} _ {p + 1} \\ \ end {bmatrix} y
X~Ty=[x1Tyx2TycxkTyxp+1Ty]
¿Cómo hago para mostrar el reclamo citado anteriormente (es decir, que β^X~=1cβ^X )? No tengo claro cómo calcular (X~TX~)1 .

Creo que su no es correcto, le falta un multiplicador en una fila completa. cX~TX~c
Firebug

1
Además, tenga en cuenta que el reclamo es , no todos . ββ^k,new=1cβ^k,oldβ
Firebug

@ Firebug Sí, lo descubrí. Estoy publicando una respuesta.
Clarinetista

2
Puede reemplazar todo este álgebra por un análisis de unidades mucho más simple, porque multiplicar por simplemente cambia su unidad de medida y, por lo tanto, el cambio correspondiente en las unidades asociadas con su coeficiente es dividirlo por . Eso no prueba que deba dividirse por , desafortunadamente. Sin embargo, esta cadena de pensamiento podría recordarnos que la regresión múltiple puede llevarse a cabo mediante una sucesión de regresiones contra un regresor a la vez, donde está claro que está dividido por , por lo que la prueba está completa. c β j c β j c β j cXjcβjcβ^jcβ^jc
whuber

@whuber, aunque la intuición para el resultado es clara, parece que simplemente debe haber un poco de álgebra para proporcionar una prueba. Después de todo, el factor de escala necesita ser invertido. c
user795305

Respuestas:


11

Dado que la afirmación en la cita es una colección de declaraciones sobre el cambio de escala de las columnas de , también podría probarlas todas a la vez. De hecho, no se necesita más trabajo para probar una generalización de la afirmación:X

Cuando se multiplica a la derecha por una matriz invertible , entonces el nuevo coeficiente estimado es igual a multiplicado a izquierda por .A β A β A - 1XAβ^Aβ^A1

Los únicos hechos algebraicos que necesita son los (fácilmente comprobados y conocidos) que para cualquier matriz y para las matrices invertibles y . (Se necesita una versión más sutil de este último cuando se trabaja con inversas generalizadas: para y invertibles y cualquier , . )(AB)=BAAB(AB)1=B1A1ABABX(AXB)=B1XA1


Prueba por álgebra :

β^A=((XA)((XA))(XA)y=A1(XX)(A)1Ay=A1β^,

QED (Para que esta prueba sea completamente general, el superíndice refiere a un inverso generalizado).


Prueba por geometría :

Dadas las bases y de y , respectivamente, representa una transformación lineal de a . puede considerar que la multiplicación a la derecha de por deja esta transformación fija pero cambia a (es decir, a las columnas de ). Bajo ese cambio de base, la representación de cualquier vector debe cambiar mediante la multiplicación a la izquierda por ,EpEnRnRpXRpRnXAEpAEpAβ^RpA1QED .

(Esta prueba funciona, sin modificaciones, incluso cuando no es invertible).XX


La cita se refiere específicamente al caso de las matrices diagonales con para y .AAii=1ijAjj=c


Conexión con mínimos cuadrados

El objetivo aquí es utilizar los primeros principios para obtener el resultado, siendo el principio el de los mínimos cuadrados: estimar los coeficientes que minimizan la suma de los cuadrados de los residuos.

Nuevamente, probar una generalización (enorme) no es más difícil y es más bien revelador. Suponga que es cualquier mapa (lineal o no) de espacios vectoriales reales y suponga que es cualquier función de valor real en . Deje que sea ​​el conjunto (posiblemente vacío) de puntos para los que está minimizado. Q W n U V p v Q ( ϕ ( v ) )

ϕ:VpWn
QWnUVpvQ(ϕ(v))

Resultado: , que está determinado únicamente por y , no depende de ninguna elección de base utilizada para representar vectores en .Q ϕ E p V pUQϕEpVp

Prueba: QED.

¡No hay nada que demostrar!

Aplicación del resultado: Sea una forma cuadrática semidefinida positiva en , deje , y suponga que es un mapa lineal representado por cuando las bases de y son elegidos. Defina . Elija una base de y suponga que es la representación de algunos en esa base. Esto es mínimos cuadrados : minimiza la distancia al cuadrado . PorqueR n y R n φ X V p = R p W n = R n Q ( x ) = F ( y , x ) R p β v U x = X β F ( y , x ) X R p X A β A - 1FRnyRnϕXVp=RpWn=RnQ(x)=F(y,x)Rpβ^vUx=Xβ^F(y,x)Xes un mapa lineal, el cambio de la base de corresponde a-multiplicando derecho por alguna matriz invertible . Eso multiplicará a la izquierda por , QED .RpXAβ^A1


6

Defina el estimador de mínimos cuadrados , donde la matriz de diseño es rango completo. Suponiendo que la matriz de escala es invertible.β^=argminβRpyXβ22XRn×pSRp×p

Defina este nuevo estimador escalado . Esto significa que para todos . Al definir , podemos reescribir esta desigualdad mostrada arriba como para todos . Por lo tanto, , y se deduce que el estimador de mínimos cuadrados Debido a la invertibilidad de la matriz de escalaα~=argminαRpyXSα22

yXSα~22<yXSα22
αα~β~=Sα~
yXβ~22<yXβ22
ββ~β~=argminβRpyXβ22
β^=β~=Sα~.
S, se deduce que . En nuestro caso, esto solo difiere de por la entrada que escala .α~=S1β^β^kth1c

1
No estoy familiarizado, ya que debería estar trabajando con y funciones similares. ¿Podría explicar la transición de su segunda a la tercera línea de ecuaciones? arg min
Clarinetista

Lo he escrito un poco diferente, lo que debería aclarar los pasos.
user795305

Esto es realmente inteligente. (+1)
Clarinetista el

4

Me di cuenta de esto después de publicar la pregunta. Sin embargo, si mi trabajo es correcto, interpreté mal el reclamo. La escala solo ocurre en el componente de correspondiente a la columna de se multiplica por .1cβXc

Observe que , en la notación anterior, es una matriz diagonal, simétrica y tiene inversa (porque es diagonal) Tenga en cuenta que es una matriz . Supongamos que S(p+1)×(p+1)

S1=[1111c11].
(X~TX~)1(p+1)×(p+1)
(XTX)1=[z1z2zkzp+1].
(X~TX~)1=[(XS)TXS]1=(STXTXS)1=(SXTXS)1=S1(XTX)1S1.
Por lo tanto, y multiplicando esto por tiene un efecto similar al multiplicado por por : sigue siendo el mismo, se multiplica por
S1(XTX)1=[z1z21czkzp+1]
S1XS1czk1c : Por lo tanto,
S1(XTX)1S1=[z1z21c2zkzp+1].
β^X~=S1(XTX)1S1(XS)Ty=[z1z21c2zkzp+1][x1Tyx2TycxkTyxp+1Ty]=[z1x1Tyz2x2Ty1czkxkTyzp+1xp+1Ty]
como se desee.

Hay un error tipográfico en . Necesita transponer . S1(XTX)1S1(XS)y(XS)
JohnK

3

La prueba más trivial jamás

Comienzas con tu ecuación lineal: Ahora quieres cambiar la escala de tus regresores, quizás convertir del sistema métrico a Imperial, sabes kilogramos a libras, metros a yardas, etc. Entonces, subes con la matriz de conversión donde cada es el coeficiente de conversión para variable (columna) en matriz de diseño .

Y=Xβ+ε
S=diag(s1,s1,,sn)siiX

Reescribamos la ecuación:

Y=(XS)(S1β)+ε

Ahora está muy claro que la escala es la propiedad de la linealidad de su ecuación, no el método OLS de estimación de coeficientes. Independientemente del método de estimación con ecuación lineal, usted tiene que cuando los regresores se escalan como sus nuevos coeficientes se deben escalar comoXSS1β

Prueba de álgebra solo para OLS

La escala es la siguiente: , donde factor de escala de cada variable (columna) y una versión a escala de . Llamemos a la matriz de escala diagonal . Su estimador de OLS es Conectemos la matriz escalada lugar de y usemos algo de álgebra matricial : Entonces, usted ve cómo el nuevo coeficiente es simplemente el coeficiente anterior reducido, como se esperaba.

Z=Xdiag(s1,s2,...,sn)
siZXSdiag(s1,s2,...,sn)
β^=(XTX)1XTY
ZX
(ZTZ)1ZTY=(STXTXS)1STXTY=S1(XTX)1S1SXTY=S1(XTX)1XTY=S1β^

2
Me gustan sus enfoques, pero no me convence "la prueba más trivial jamás vista". Usted ha asumido implícitamente, y aún necesita mostrar, que el modelo reescrito debe tener el mismo ajuste que el original. Para decirlo más rigurosamente: si vemos un procedimiento de ajuste como una función , donde es el conjunto de todos los datos posibles (que podríamos escribir como el par ordenado ) y es el conjunto de todas las estimaciones de coeficientes posibles, entonces debe demostrar que para todos invertible , todos los , y todos . (¡Esto no siempre es cierto!)δ:MRpM(X,Y)Rpδ(X,Y)=S1δ(XS,Y)SXY
whuber

@whuber, en realidad es al revés: el procedimiento de ajuste razonable debería satisfacer esta condición; de lo contrario, un simple cambio de unidad de medida producirá un pronóstico / estimación diferente. actualizaré mi respuesta, lo pensaré un poco
Aksakal

Estoy de acuerdo, pero puedo imaginar excepciones en los casos en que no es de rango completo. Eso es lo que me sugirió que la situación no es tan trivial como podría parecer. X
whuber

3
compañero imperial , no real ...: D (Buena respuesta, +1)
usεr11852

@ usεr11852, aprendí algo hoy :)
Aksakal

2

Una manera fácil de obtener este resultado es recordar que es la proyección de en el espacio de la columna de es el vector de coeficientes cuando se expresa como lineal combinación de las columnas de . Si alguna columna se escala por un factor , está claro que el coeficiente correspondiente en la combinación lineal debe escalarse por .y^yX. β^y^Xc1/c

Supongamos que son los valores de y los valores de la solución OLS cuando escala una columnabiβ^aic.

b1x1+...+bixi+...+bmxm=a1x1+...ai(cxi)+...+anxn

implica que donde y , suponiendo que las columnas de son linealmente independientes. j i b i = a i c Xbj=ajjibi=aicX

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.