Muy a menudo se afirma que se prefiere minimizar los residuos de mínimos cuadrados antes que minimizar los residuos absolutos debido a que es computacionalmente más simple . Sin embargo, puede también ser mejor por otras razones. Es decir, si las suposiciones son ciertas (y esto no es tan raro), entonces proporciona una solución que es (en promedio) más precisa.
Máxima verosimilitud
La regresión de mínimos cuadrados y la regresión cuantil (cuando se realiza minimizando los residuos absolutos) puede verse como la maximización de la función de probabilidad para los errores distribuidos de Gauss / Laplace, y en este sentido están muy relacionados.
Distribución gaussiana:
f(x)=12πσ2−−−−√e−(x−μ)22σ2
con la log-verosimilitud maximizada al minimizar la suma de los residuos al cuadrado
logL(x)=−n2log(2π)−nlog(σ)−12σ2∑i=1n(xi−μ)2sum of squared residuals
Distribución de Laplace:
f(x)=12be−|x−μ|b
con la log-verosimilitud maximizada al minimizar la suma de residuos absolutos
logL(x)=−nlog(2)−nlog(b)−1b∑i=1n|xi−μ|sum of absolute residuals
Nota: la distribución de Laplace y la suma de los residuos absolutos se relaciona con la mediana, pero se puede generalizar a otros cuantiles al dar diferentes pesos a los residuos negativos y positivos.
Distribución de error conocida
Cuando conocemos la distribución de errores (cuando las suposiciones son verdaderas) tiene sentido elegir la función de probabilidad asociada. Minimizar esa función es más óptimo.
μ
Entonces, cuando los errores están distribuidos normalmente, entonces la media de la muestra es un mejor estimador de la mediana de distribución que la mediana de la muestra . La regresión de mínimos cuadrados es un estimador más óptimo de los cuantiles. Es mejor que usar la menor suma de residuos absolutos.
Debido a que muchos problemas tratan con errores distribuidos normales, el uso del método de mínimos cuadrados es muy popular. Para trabajar con otro tipo de distribuciones, se puede usar el modelo lineal generalizado . Y, el método de mínimos cuadrados iterativos, que puede usarse para resolver GLM, también funciona para la distribución de Laplace (es decir, para desviaciones absolutas ), que es equivalente a encontrar la mediana (o en la versión generalizada otros cuantiles).
Distribución de error desconocida
Robustez
La mediana u otros cuantiles tienen la ventaja de que son muy robustos con respecto al tipo de distribución. Los valores reales no importan mucho y los cuantiles solo se preocupan por el orden. Entonces, sin importar cuál sea la distribución, minimizar los residuos absolutos (que es equivalente a encontrar los cuantiles) está funcionando muy bien.
La pregunta se vuelve compleja y amplia aquí y depende de qué tipo de conocimiento tenemos o no tenemos sobre la función de distribución. Por ejemplo, una distribución puede ser aproximadamente normal, pero solo con algunos valores atípicos adicionales. Esto se puede solucionar eliminando los valores externos. Esta eliminación de los valores extremos incluso funciona para estimar el parámetro de ubicación de la distribución de Cauchy donde la media truncada puede ser un mejor estimador que la mediana. Por lo tanto, no solo para la situación ideal cuando se cumplen los supuestos, sino también para algunas aplicaciones menos ideales (por ejemplo, valores atípicos adicionales), podría haber buenos métodos robustos que todavía usan alguna forma de suma de residuos cuadrados en lugar de la suma de residuos absolutos.
Me imagino que la regresión con residuos truncados podría ser computacionalmente mucho más compleja. Entonces, en realidad puede ser una regresión cuantil, que es el tipo de regresión que se realiza debido a la razón de que es computacionalmente más simple (no más simple que los mínimos cuadrados ordinarios, pero más simple que los mínimos cuadrados truncados ).
Sesgado / imparcial
Otra cuestión es sesgada frente a estimadores imparciales. En lo anterior describí la estimación de máxima verosimilitud para la media, es decir, la solución de mínimos cuadrados, como un estimador bueno o preferible porque a menudo tiene la varianza más baja de todos los estimadores insesgados (cuando los errores están distribuidos normalmente). Pero, los estimadores sesgados pueden ser mejores (menor suma esperada de error al cuadrado).
Esto vuelve a hacer la pregunta amplia y compleja. Hay muchos estimadores diferentes y muchas situaciones diferentes para aplicarlos. El uso de una suma adaptada de la función de pérdida de residuos al cuadrado a menudo funciona bien para reducir el error (por ejemplo, todo tipo de métodos de regularización), pero es posible que no tenga que funcionar bien en todos los casos. Intuitivamente, no es extraño imaginar que, dado que la función de suma de la pérdida de residuos al cuadrado a menudo funciona bien para todos los estimadores imparciales, los estimadores sesgados óptimos probablemente sean algo cercano a la función de la suma de la pérdida de residuos al cuadrado.