Relación entre MLE y mínimos cuadrados en caso de regresión lineal

Hastie y Tibshirani mencionan en la sección 4.3.2 de su libro que en la configuración de regresión lineal, el enfoque de mínimos cuadrados es, de hecho, un caso especial de máxima verosimilitud. ¿Cómo podemos probar este resultado?

PD: no ahorres detalles matemáticos.

regression maximum-likelihood least-squares

— Pradnyesh Joshi
fuente

No es un caso especial: son idénticos cuando la distribución del error es normal.

— Zhanxiong

El modelo de regresión lineal.

$Y = X\beta + \epsilon$ , donde $\epsilon \sim N(0,I\sigma^2)$

$Y \in \mathbb{R}^{n}$ , y $X \in \mathbb{R}^{n \times p}$ $\beta \in \mathbb{R}^{p}$

Tenga en cuenta que nuestro error de modelo (residual) es . Nuestro objetivo es encontrar un vector de s que minimice la norma cuadrado de este error. ${\bf \epsilon = Y - X\beta}$ $\beta$ $L_2$

Mínimos cuadrados

Dados los datos donde cada es dimensional, buscamos encontrar: $(x_1,y_1),...,(x_n,y_n)$ $x_{i}$ $p$

{\hat{β}}_{L S} = \underset{β}{argmin} | | ϵ | |^{2} = \underset{β}{argmin} | | Y - X β | |^{2} = \underset{β}{argmin} \sum_{i = 1}^{n} (y_{i} - x_{i} β)^{2}

$\widehat{\beta}_{LS} = {\underset \beta {\text{argmin}}} ||{\bf \epsilon}||^2 = {\underset \beta {\text{argmin}}} ||{\bf Y - X\beta}||^2 = {\underset \beta {\text{argmin}}} \sum_{i=1}^{n} ( y_i - x_{i}\beta)^2$

Máxima verosimilitud

Usando el modelo anterior, podemos configurar la probabilidad de los datos dados los parámetros como: $\beta$

L (Y | X, β) = \prod_{i = 1}^{n} f (y_{i} | x_{i}, β)

$L(Y|X,\beta) = \prod_{i=1}^{n} f(y_i|x_i,\beta)$

donde es el pdf de una distribución normal con media 0 y varianza . Enchufarlo: $f(y_i|x_i,\beta)$ $\sigma^2$

L (Y | X, β) = \prod_{i = 1}^{n} \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{(y_{i} - x_{i} β)^{2}}{2 σ^{2}}}

$L(Y|X,\beta) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y_i - x_i\beta)^2}{2\sigma^2}}$

Ahora, generalmente, cuando se trata de probabilidades, es matemáticamente más fácil tomar el registro antes de continuar (los productos se convierten en sumas, los exponenciales desaparecen), así que hagamos eso.

\log L (Y | X, β) = \sum_{i = 1}^{n} \log (\frac{1}{\sqrt{2 π σ^{2}}}) - \frac{(y_{i} - x_{i} β)^{2}}{2 σ^{2}}

$\log L(Y|X,\beta) = \sum_{i=1}^{n} \log(\frac{1}{\sqrt{2\pi\sigma^2}}) -\frac{(y_i - x_i\beta)^2}{2\sigma^2}$

Dado que queremos la estimación de máxima verosimilitud, queremos encontrar el máximo de la ecuación anterior, con respecto a . El primer término no afecta nuestra estimación de , por lo que podemos ignorarlo: $\beta$ $\beta$

{\hat{β}}_{M L E} = \underset{β}{argmax} \sum_{i = 1}^{n} - \frac{(y_{i} - x_{i} β)^{2}}{2 σ^{2}}

$\widehat{\beta}_{MLE} = {\underset \beta {\text{argmax}}} \sum_{i=1}^{n} -\frac{(y_i - x_i\beta)^2}{2\sigma^2}$

Tenga en cuenta que el denominador es una constante con respecto a . Finalmente, observe que hay un signo negativo delante de la suma. Entonces encontrar el máximo de un número negativo es como encontrar el mínimo sin el negativo. En otras palabras: $\beta$

{\hat{β}}_{M L E} = \underset{β}{argmin} \sum_{i = 1}^{n} (y_{i} - x_{i} β)^{2} = {\hat{β}}_{L S}

$\widehat{\beta}_{MLE} = {\underset \beta {\text{argmin}}} \sum_{i=1}^{n} (y_i - x_i\beta)^2 = \widehat{\beta}_{LS}$

Recuerde que para que esto funcione, tuvimos que hacer ciertas suposiciones del modelo (normalidad de los términos de error, media 0, varianza constante). Esto hace que los mínimos cuadrados sean equivalentes a MLE bajo ciertas condiciones. Ver aquí y aquí para más discusión.

Para completar, tenga en cuenta que la solución se puede escribir como:

β = (X^{T} X)^{- 1} X^{T} y

${\bf \beta = (X^TX)^{-1}X^Ty}$

— ilanman
fuente