¿Cuál sería un ejemplo de cuando L2 es una buena función de pérdida para calcular una pérdida posterior?

La pérdida de L2, junto con la pérdida de L0 y L1, son tres funciones de pérdida "por defecto" muy comunes que se utilizan al resumir una pérdida posterior posterior mínima esperada. Una razón para esto es quizás que son relativamente fáciles de calcular (al menos para distribuciones 1d), L0 da como resultado el modo, L1 en la mediana y L2 da como resultado la media. Al enseñar, puedo encontrar escenarios en los que L0 y L1 son funciones de pérdida razonables (y no solo "predeterminadas"), pero estoy luchando con un escenario en el que L2 sería una función de pérdida razonable. Entonces mi pregunta:

Para fines pedagógicos, ¿cuál sería un ejemplo de cuando L2 es una buena función de pérdida para calcular una pérdida posterior mínima?

Para L0 es fácil encontrar escenarios de apuestas. Supongamos que calculó un posterior sobre el número total de goles en un próximo partido de fútbol y que va a hacer una apuesta en la que gana $$$ si adivina correctamente el número de goles y pierde de lo contrario. Entonces L0 es una función de pérdida razonable.

Mi ejemplo L1 es un poco artificial. Te encuentras con una amiga que llegará a uno de los muchos aeropuertos y luego viajará a ti en automóvil, el problema es que no sabes qué aeropuerto (y no puedes llamar a tu amiga porque está en el aire). Dado un posterior sobre el aeropuerto en el que podría aterrizar, ¿dónde es un buen lugar para posicionarse de modo que la distancia entre ella y usted sea pequeña cuando llegue? Aquí, el punto que minimiza la pérdida esperada de L1 parece razonable, si se hacen las suposiciones simplificadoras de que su automóvil viajará a velocidad constante directamente a su ubicación. Es decir, una espera de una hora es el doble de malo que una espera de 30 minutos.

— Rasmus Bååth
fuente

Advertencia: L0 no genera el modo para problemas continuos ...

— Xi'an

Hmm, sí, sé que es un poco descuidado decir L0 -> modo.

— Rasmus Bååth

Mirando la ley del cuadrado inverso, si tiene varias fuentes de luz colocadas de modo que cualquier punto en el espacio que podamos elegir obtenga luz insignificante de todas las fuentes excepto la más cercana, usar la pérdida L2 sería equivalente a desear minimizar, digamos, el número de segundos por lumen recibido. Sin embargo, no puedo pensar por qué querrías hacer eso, en lugar de maximizar lúmenes por segundo.

— Estadístico accidental

L2 es "fácil". Es lo que obtienes por defecto si haces métodos estándar de matriz como regresión lineal, SVD, etc. Hasta que teníamos computadoras, L2 era el único juego en la ciudad para muchos problemas, por lo que todos usan ANOVA, pruebas t, etc. También es más fácil obtener una respuesta exacta usando la pérdida de L2 con muchos métodos más sofisticados como los procesos gaussianos que obtener una respuesta exacta usando otras funciones de pérdida.
De manera relacionada, puede obtener la pérdida L2 exactamente usando una aproximación de Taylor de segundo orden, que no es el caso para la mayoría de las funciones de pérdida (por ejemplo, entropía cruzada). Esto facilita la optimización con métodos de segundo orden como el método de Newton. Muchos métodos para lidiar con otras funciones de pérdida todavía usan métodos para pérdida de L2 bajo el capó por la misma razón (por ejemplo, mínimos cuadrados repesados iterativamente, aproximaciones de Laplace anidadas integradas).
L2 está estrechamente relacionado con las distribuciones gaussianas, y el Teorema del límite central hace que las distribuciones gaussianas sean comunes. Si su proceso de generación de datos es (condicionalmente) gaussiano, entonces L2 es el estimador más eficiente.
La pérdida de L2 se descompone muy bien, debido a la ley de la varianza total. Eso hace que ciertos modelos gráficos con variables latentes sean especialmente fáciles de ajustar.
L2 penaliza predicciones terribles desproporcionadamente. Esto puede ser bueno o malo, pero a menudo es bastante razonable. Una espera de una hora puede ser cuatro veces más mala que una espera de 30 minutos, en promedio, si hace que muchas personas pierdan sus citas.

— David J. Harris
fuente

Hmm, lo que buscaba era más como una situación de decisión donde L2 sería una función de pérdida razonable. Como el escenario similar a los dos ejemplos en mi pregunta, pero para L2.

— Rasmus Bååth

@ RasmusBååth No estoy seguro acerca de un argumento para cuadrar exactamente la pérdida (aparte de su conexión con los procesos de generación de datos gaussianos en el n. ° 3), pero el n. ° 5 es un argumento para una función de pérdida acelerada de algún tipo. Para el segundo orden, cualquiera de esas funciones coincidirá con la pérdida de L2.

— David J. Harris

@ DavidJ.Harris En realidad, el # 5 es incorrecto. Lo que haría en ese caso es usar la pérdida L1 abs (xy) para minimizar la frustración = tiempo². Usar (xy) ² pérdida por tiempo, como has sugerido, en realidad te dará un resultado subóptimo.

— Íhor Mé

@ ÍhorMé Creo que debo estar malinterpretándote. Parece que estás diciendo que la mejor manera de minimizar el error al cuadrado es minimizar la pérdida absoluta , y no la norma L2.

— David J. Harris

@ DavidJ.Harris Sí, estaba tratando de aclarar que se trata de un problema para minimizar la "maldad" (= diferencia de tiempo) y no el tiempo que pasó esperando, esencialmente, pero creo que originalmente no entendí el experimento mental. Ahora que lo estoy releyendo, L2 es una forma legítima de pasar de minimizar la diferencia horaria a minimizar la "maldad". Sin embargo, debo decir que es mejor que un programador identifique primero correctamente qué "maldad" quiere minimizar, luego obtenga ese valor y luego minimice a través de L1. En este caso, obtienes (time diff) ² primero y luego minimizas la pérdida de L1. Vaya con L2 solo cuando sepa lo que está haciendo.

— Íhor Mé