Me gustaría proporcionar una respuesta directa.
¿Cuál es la principal diferencia entre la estimación de máxima verosimilitud (MLE) y la estimación de mínimos cuadrados (LSE)?
Como comentó @ TrynnaDoStat, minimizar el error al cuadrado es equivalente a maximizar la probabilidad en este caso. Como se dijo en Wikipedia ,
En un modelo lineal, si los errores pertenecen a una distribución normal, los estimadores de mínimos cuadrados también son los estimadores de máxima verosimilitud.
se pueden ver igual en su caso,
Déjame detallarlo un poco. Como sabemos que la variable de respuesta ( y )
Yi=λ1Xi+λ2+ϵi where ϵ∼N(0,σ2)
tiene un modelo de distribución de error normal,
la función de probabilidad es,
L ( Y 1 , … , Y n ; λ 1 , λ 2 , σ 2 ) = 1
L(Y1,…,Yn;λ1,λ2,σ2)=1(2π)n2σnexp(−12σ2(∑i=1n(Yi−λ1Xi−λ2)2))
Obviamente, maximizar L es equivalente a minimizar
∑i=1n(Yi−λ1Xi−λ2)2
Eso es El método de los mínimos cuadrados.
¿Por qué no podemos usar MLE para predecir valores de y en regresión lineal y viceversa?
Como se explicó anteriormente, en realidad (de manera más precisa, equivalente) usamos el MLE para predecir los valores de y . Y si la variable de respuesta tiene distribuciones arbitrarias en lugar de una distribución normal, como la distribución de Bernoulli o cualquiera de la familia exponencial , asignamos el predictor lineal a la distribución de variable de respuesta usando una función de enlace (de acuerdo con la distribución de respuesta), entonces la función de probabilidad se convierte en El producto de todos los resultados (probabilidades entre 0 y 1) después de la transformación. Podemos tratar la función de enlace en la regresión lineal como la función de identidad (ya que la respuesta ya es una probabilidad).