Respuestas:
Esta pregunta es bastante antigua, pero en realidad tengo una respuesta que no aparece aquí, y una que da una razón convincente por la cual (bajo algunos supuestos razonables) el error al cuadrado es correcto, mientras que cualquier otro poder es incorrecto.
Digamos que tenemos algunos datos y desea encontrar la función lineal (o lo que sea) f que mejor predice los datos, en el sentido de que la densidad de probabilidad p f ( D ) para observar estos datos debe ser máxima con respecto a f (esto se llama el estimación de máxima verosimilitud ) Si suponemos que los datos están dados por más un término de error normalmente distribuido con desviación estándar , entonces p f ( D ) = n ∏ i = 1 1 Esto es equivalente a 1
No hay ninguna razón por la que no pueda intentar minimizar otras normas que no sean x ^ 2, por ejemplo, se han escrito libros completos sobre regresión cuantil, que es más o menos minimizar | x | si estás trabajando con la mediana. En general, es más difícil de hacer y, según el modelo de error, es posible que no proporcione buenos estimadores (dependiendo de si eso significa estimadores de baja varianza o de sesgo imparcial o bajo en el contexto).
En cuanto a por qué preferimos los momentos enteros en lugar de los momentos valorados con números reales, la razón principal es probable que, si bien las potencias enteras de los números reales siempre dan como resultado números reales, las potencias no enteras de los números reales negativos crean números complejos, lo que requiere el uso de Un valor absoluto. En otras palabras, mientras que el tercer momento de una variable aleatoria de valor real es real, el momento 3.2 no es necesariamente real, y por lo tanto causa problemas de interpretación.
Aparte de eso...
Intentamos minimizar la variación que queda dentro de los descriptores. ¿Por qué varianza? Lee esta pregunta ; Esto también viene junto con la suposición (en su mayoría silenciosa) de que los errores se distribuyen normalmente.
Extensión:
dos argumentos adicionales:
Para las variaciones, tenemos esta agradable "ley" de que la suma de las variaciones es igual a la variación de la suma, para muestras no correlacionadas. Si suponemos que el error no está correlacionado con el caso, minimizar el residual de los cuadrados funcionará directamente para maximizar la varianza explicada, lo que quizás sea una medida de calidad no tan buena pero aún popular.
Si suponemos la normalidad de un error, el estimador de error de mínimos cuadrados es uno de máxima probabilidad.
En los mínimos cuadrados ordinarios, la solución a (A'A) ^ (- 1) x = A'b minimiza la pérdida de error al cuadrado, y es la solución de máxima verosimilitud.
Entonces, en gran parte porque las matemáticas fueron fáciles en este caso histórico.
Pero en general, las personas minimizan muchas funciones de pérdida diferentes , como exponencial, logística, cauchy, laplace, huber, etc. Estas funciones de pérdida más exóticas generalmente requieren muchos recursos computacionales y no tienen soluciones de forma cerrada (en general), por lo que ahora solo comienzan a ser más populares.
Tengo entendido que debido a que estamos tratando de minimizar los errores, necesitamos encontrar una manera de no meternos en una situación en la que la suma de la diferencia negativa en los errores sea igual a la suma de la diferencia positiva en los errores, pero no hemos Encontré un buen ajuste. Hacemos esto al cuadrar la suma de la diferencia en los errores, lo que significa que la diferencia negativa y positiva en los errores se vuelve positiva () Si nosotros criamos al poder de cualquier otra cosa que no sea un entero positivo, no abordaríamos este problema porque los errores no tendrían el mismo signo, o si nos elevamos al poder de algo que no es un entero, entraríamos en los reinos de los complejos números.