La medida de error en la función de pérdida es una 'distancia estadística'; en contraste con la comprensión popular y preliminar de la distancia entre dos vectores en el espacio euclidiano. Con 'distancia estadística' estamos tratando de mapear la 'disimilitud' entre el modelo estimado y el modelo óptimo al espacio euclidiano.
No existe una regla restrictiva con respecto a la formulación de esta 'distancia estadística', pero si la elección es apropiada, una reducción progresiva de esta 'distancia' durante la optimización se traduce en una estimación del modelo que mejora progresivamente. En consecuencia, la elección de 'distancia estadística' o medida de error está relacionada con la distribución de datos subyacente.
De hecho, hay varias medidas de distancia / error bien definidas para diferentes clases de distribuciones estadísticas. Es aconsejable seleccionar la medida de error en función de la distribución de los datos disponibles. Sucede que la distribución gaussiana es omnipresente y, en consecuencia, su medida de distancia asociada, la norma L2 es la medida de error más popular. Sin embargo, esto no es una regla y existen datos del mundo real para los cuales una implementación de optimización 'eficiente' * adoptaría una medida de error diferente a la norma L2.
Considere el conjunto de divergencias de Bregman . La representación canónica de esta medida de divergencia es la norma L2 (error al cuadrado). También incluye la entropía relativa (divergencia Kullback-Liebler), la distancia euclidiana generalizada (métrica de Mahalanobis) y la función Itakura-Saito. Puede leer más al respecto en este documento sobre Divergencia funcional de Bregman y Estimación bayesiana de distribuciones .
Para llevar: la norma L2 tiene un conjunto interesante de propiedades que la convierte en una opción popular para la medición de errores (otras respuestas aquí han mencionado algunas de estas, suficientes para el alcance de esta pregunta), y el error al cuadrado será el apropiado elección la mayor parte del tiempo. Sin embargo, cuando la distribución de datos lo requiere, hay medidas de error alternativas para elegir, y la elección depende en gran medida de la formulación de la rutina de optimización.
* La medida de error 'apropiada' haría que la función de pérdida sea convexa para la optimización, lo cual es muy útil, a diferencia de alguna otra medida de error en la que la función de pérdida no sea convexa y, por lo tanto, sea notoriamente difícil.