El modelo de regresión lineal.
ϵ ∼ N ( 0 , I σ 2 )Y=Xβ+ϵ , dondeϵ∼N(0,Iσ2)
X ∈ R n × p β ∈ R pY∈Rn , yX∈Rn×pβ∈Rp
Tenga en cuenta que nuestro error de modelo (residual) es . Nuestro objetivo es encontrar un vector de s que minimice la norma cuadrado de este error. β L 2ϵ=Y−XββL2
Mínimos cuadrados
Dados los datos donde cada es dimensional, buscamos encontrar:x i p(x1,y1),...,(xn,yn)xip
βˆLS=argminβ||ϵ||2=argminβ||Y−Xβ||2=argminβ∑i=1n(yi−xiβ)2
Máxima verosimilitud
Usando el modelo anterior, podemos configurar la probabilidad de los datos dados los parámetros como:β
L(Y|X,β)=∏i=1nf(yi|xi,β)
donde es el pdf de una distribución normal con media 0 y varianza . Enchufarlo:f(yi|xi,β)σ2
L(Y|X,β)=∏i=1n12πσ2−−−−√e−(yi−xiβ)22σ2
Ahora, generalmente, cuando se trata de probabilidades, es matemáticamente más fácil tomar el registro antes de continuar (los productos se convierten en sumas, los exponenciales desaparecen), así que hagamos eso.
logL(Y|X,β)=∑i=1nlog(12πσ2−−−−√)−(yi−xiβ)22σ2
Dado que queremos la estimación de máxima verosimilitud, queremos encontrar el máximo de la ecuación anterior, con respecto a . El primer término no afecta nuestra estimación de , por lo que podemos ignorarlo:ββ
βˆMLE=argmaxβ∑i=1n−(yi−xiβ)22σ2
Tenga en cuenta que el denominador es una constante con respecto a . Finalmente, observe que hay un signo negativo delante de la suma. Entonces encontrar el máximo de un número negativo es como encontrar el mínimo sin el negativo. En otras palabras:β
βˆMLE=argminβ∑i=1n(yi−xiβ)2=βˆLS
Recuerde que para que esto funcione, tuvimos que hacer ciertas suposiciones del modelo (normalidad de los términos de error, media 0, varianza constante). Esto hace que los mínimos cuadrados sean equivalentes a MLE bajo ciertas condiciones. Ver aquí y aquí para más discusión.
Para completar, tenga en cuenta que la solución se puede escribir como:
β=(XTX)−1XTy