La pregunta es muy simple: ¿por qué, cuando tratamos de ajustar un modelo a nuestros datos, lineales o no lineales, generalmente tratamos de minimizar la suma de los cuadrados de errores para obtener nuestro estimador para el parámetro del modelo? ¿Por qué no elegir alguna otra función objetivo para minimizar? Entiendo que, por razones técnicas, la función cuadrática es mejor que algunas otras funciones, por ejemplo, la suma de la desviación absoluta. Pero esta todavía no es una respuesta muy convincente. Aparte de esta razón técnica, ¿por qué en particular las personas están a favor de este 'tipo euclidiano' de función de distancia? ¿Hay un significado o interpretación específica para eso?
La lógica detrás de mi pensamiento es la siguiente:
Cuando tiene un conjunto de datos, primero configura su modelo haciendo un conjunto de supuestos funcionales o de distribución (por ejemplo, alguna condición de momento pero no la distribución completa). En su modelo, hay algunos parámetros (suponga que es un modelo paramétrico), luego necesita encontrar una manera de estimar estos parámetros de manera consistente y, con suerte, su estimador tendrá una varianza baja y algunas otras propiedades agradables. Ya sea que minimice el SSE o LAD o alguna otra función objetivo, creo que son solo métodos diferentes para obtener un estimador consistente. Siguiendo esta lógica, pensé que la gente usa el mínimo cuadrado debe ser 1) produce un estimador consistente del modelo 2) algo más que no sé.
En econometría, sabemos que en el modelo de regresión lineal, si asume que los términos de error tienen 0 condicionamiento medio en los predictores y la homocedasticidad y los errores no están correlacionados entre sí, entonces minimizar la suma del error cuadrado le dará un estimador CONSISTENTE de su modelo parámetros y según el teorema de Gauss-Markov, este estimador es AZUL. Por lo tanto, esto sugeriría que si elige minimizar alguna otra función objetivo que no sea el SSE, entonces no hay garantía de que obtendrá un estimador consistente del parámetro de su modelo. ¿Es correcto mi entendimiento? Si es correcto, minimizar la SSE en lugar de alguna otra función objetiva puede justificarse por la consistencia, que es aceptable, de hecho, mejor que decir que la función cuadrática es más agradable.
En la práctica, en realidad vi muchos casos en los que las personas minimizan directamente la suma de los errores cuadrados sin especificar claramente primero el modelo completo, por ejemplo, los supuestos de distribución (supuestos de momento) en el término de error. Entonces esto me parece que el usuario de este método solo quiere ver qué tan cerca se ajustan los datos al 'modelo' (uso comillas, ya que los supuestos del modelo son probablemente incompletos) en términos de la función de distancia cuadrada.
Una pregunta relacionada (también relacionada con este sitio web) es: ¿por qué, cuando intentamos comparar diferentes modelos usando validación cruzada, usamos nuevamente el SSE como criterio de juicio? es decir, elija el modelo que tenga menos SSE? ¿Por qué no otro criterio?