Suponga que desea estimar un modelo lineal: ( observaciones de la respuesta y predictores )
Una forma de hacerlo es a través de la solución OLS, es decir, elegir los coeficientes para que la suma de los errores cuadrados sea mínima:
Alternativamente, podría usar otra función de pérdida, como la suma de las desviaciones absolutas, de modo que:
Suponga que ha encontrado los parámetros para los dos modelos y desea elegir el modelo con el valor más pequeño de la función de pérdida. ¿Cómo puede comparar los valores mínimos alcanzados por las funciones de pérdida en general? (es decir, no solo este caso específico; también podríamos probar otras funciones de pérdida basadas en ) Parece haber una diferencia en la escala de las funciones: una trata con cuadrados mientras que la otra no.