Después de simplificar el problema mediante procedimientos de rutina, se puede resolver convirtiéndolo en un programa de minimización dual que tenga una respuesta bien conocida con una prueba elemental. Quizás esta dualización es el "paso sutil" al que se hace referencia en la pregunta. La desigualdad también se puede establecer de una manera puramente mecánica maximizandoa través de multiplicadores de Lagrange.|Ti|
Primero, sin embargo, ofrezco una solución más elegante basada en la geometría de mínimos cuadrados. No requiere una simplificación preliminar y es casi inmediato, lo que proporciona una intuición directa del resultado. Como se sugiere en la pregunta, el problema se reduce a la desigualdad de Cauchy-Schwarz.
Solución geométrica
Considere como un vector -dimensional en el espacio euclidiano con el producto de puntos habitual. Sea ser el vector base y . Escriba y para las proyecciones ortogonales de y en el complemento ortogonal de . (En terminología estadística, son los residuos con respecto a los medios). Entonces, dado que ynx=(X1,X2,…,Xn)ny=(0,0,…,0,1,0,…,0)ith1=(1,1,…,1)x^y^xy1Xi−X¯=x^⋅yS=||x^||/n−1−−−−−√ ,
|Ti|=n−1−−−−−√|x^⋅y|||x^||=n−1−−−−−√|x^⋅y^|||x^||
es el componente de en la dirección . Por Cauchy-Schwarz, se maximiza exactamente cuando es paralelo a , para los cuales QED.y^x^x^y^=(−1,−1,…,−1,n−1,−1,−1,…,−1)/n
Ti=±n−1−−−−−√y^⋅y^||y^||=±n−1−−−−−√||y^||=±n−1n−−√,
Por cierto, esta solución proporciona una caracterización exhaustiva de todos los casos dondeestá maximizado: son todos de la forma|Ti|
x=σy^+μ1=σ(−1,−1,…,−1,n−1,−1,−1,…,−1)+μ(1,1,…,1)
para todo real .μ,σ
Este análisis se generaliza fácilmente al caso donde se reemplaza por cualquier conjunto de regresores. Evidentemente, el máximo de es proporcional a la longitud del residuo de ,.{1}Tiy||y^||
Simplificación
Debido a que es invariante bajo los cambios de ubicación y escala, podemos suponer sin pérdida de generalidad que suma a cero y sus cuadrados suman . Esto identificacon, ya que (el cuadrado medio) es . Maximizarlo equivale a maximizar . Tampoco se pierde generalidad tomando , ya que son intercambiables.X i n - 1TiXin−1|Ti||Xi|S1|Ti|2=T2i=X2ii=1Xi
Solución a través de una formulación dual
Un doble problema es arreglar el valor de y preguntar qué valores de restantes se necesitan para minimizar la suma de cuadrados dado que . Como se da , este es el problema de minimizar dado que . X j , j ≠ 1 ∑ n j = 1 X 2 jX21Xj,j≠1∑nj=1X2j∑nj=1Xj=0X1∑nj=2X2j∑nj=2Xj=−X1
La solución se encuentra fácilmente de muchas maneras. Uno de los más elementales es escribir
Xj=−X1n−1+εj, j=2,3,…,n
para el cual . Expandir la función objetivo y usar esta identidad de suma a cero para simplificarla produce∑nj=2εj=0
∑j=2nX2j=∑j=2n(−X1n−1+εj)2=∑(−X1n−1)2−2X1n−1∑εj+∑ε2j=Constant+∑ε2j,
mostrar inmediatamente la solución única es para todo . Para esta soluciónεj=0j
(n−1)S2=X21+(n−1)(−X1n−1)2=(1+1n−1)X21=nn−1X21
y
|Ti|=|X1|S=|X1|n(n−1)2X21−−−−−−−√=n−1n−−√,
QED .
Solución a través de maquinaria
Regrese al programa simplificado con el que comenzamos:
Maximize X21
sujeto a
∑i=1nXi=0 and ∑i=1nX2i−(n−1)=0.
El método de los multiplicadores de Lagrange (que es casi puramente mecánico y directo) equipara a cero una combinación lineal no trivial de los gradientes de estas tres funciones:
(0,0,…,0)=λ1D(X21)+λ2D(∑i=1nXi)+λ3D(∑i=1nX2i−(n−1)).
Componente por componente, estas ecuaciones sonn
0000=2λ1X1+==⋯=λ2λ2λ2+2λ3X1+2λ3X2+2λ3Xn.
Los últimos de ellos implican o . (Podemos descartar el último caso porque la primera ecuación implica , trivializando la combinación lineal). La restricción de suma a cero produce . La restricción de la suma de cuadrados proporciona las dos solucionesn−1X2=X3=⋯=Xn=−λ2/(2λ3)λ2=λ3=0λ1=0X1=−(n−1)X2
X1=±n−1n−−√; X2=X3=⋯=Xn=∓1n−−√.
Ambos ceden
|Ti|=|X1|≤|±n−1n−−√|=n−1n−−√.