Entiendo esta pregunta como pedir una idea de cómo se podría llegar a una función de pérdida que produzca un cuantil dado como un minimizador de pérdidas, sin importar cuál sea la distribución subyacente. No sería satisfactorio, entonces, simplemente repetir el análisis en Wikipedia o en otro lugar que muestre que esta función de pérdida en particular funciona.
Comencemos con algo familiar y simple.
Lo que estamos hablando es la búsqueda de una "localización" respecto a una distribución o conjunto de datos . Es bien sabido, por ejemplo, que la media minimiza el residual al cuadrado esperado; es decir, es un valor para el cual F ˉ xX∗FX¯
LF( x¯) = ∫R( x - x¯)2reF( x )
Es lo más pequeño posible. He usado esta notación para recordarnos que se deriva de una pérdida , que está determinada por , pero lo más importante depende del número .Lˉ xFX¯
La forma estándar de mostrar que minimiza cualquier función comienza demostrando que el valor de la función no disminuye cuando cambia un poco. Tal valor se llama un punto crítico de la función. x ∗X∗X∗
¿Qué tipo de función de pérdida daría como resultado un punto crítico ? La pérdida por ese valor seríaF - 1 ( α )ΛF- 1( α )
LF( F- 1( α ) ) = ∫RΛ ( x - F- 1( α ) ) dF( x ) = ∫10 0Λ ( F- 1( u ) - F- 1( α ) ) du .
Para que este sea un punto crítico, su derivada debe ser cero. Como solo estamos tratando de encontrar alguna solución, no haremos una pausa para ver si las manipulaciones son legítimas: planearemos verificar los detalles técnicos (como si realmente podemos diferenciar , etc. ) al final. AsíΛ
0 0= L′F( x∗) = L′F( F- 1( α ) ) = - ∫10 0Λ′( F- 1( u ) - F- 1( α ) ) dtu= - ∫α0 0Λ′( F- 1( u ) - F- 1( α ) ) du - ∫1αΛ′( F- 1( u ) - F- 1( α ) ) du .(1)
En el lado izquierdo, el argumento de es negativo, mientras que en el lado derecho es positivo. Aparte de eso, tenemos poco control sobre los valores de estas integrales porque podría ser cualquier función de distribución. En consecuencia, nuestra única esperanza es hacer que dependa solo del signo de su argumento, y de lo contrario debe ser constante.F Λ ′ΛFΛ′
Esto implica que será lineal por partes, potencialmente con diferentes pendientes a la izquierda y derecha de cero. Claramente, debería estar disminuyendo a medida que se acerca a cero; después de todo, es una pérdida y no una ganancia . Además, reescalar por una constante no cambiará sus propiedades, por lo que podemos sentirnos libres de establecer la pendiente de la izquierda a . Sea la pendiente de la derecha. Entonces simplifica aΛ - 1 τ > 0 ( 1 )ΛΛ- 1τ> 0( 1 )
0 = α - τ(1−α),
de donde es la solución única , hasta un múltiplo positivo,
Λ(x)={−x, x≤0α1−αx, x≥0.
Multiplicar esta solución (natural) por , para borrar el denominador, produce la función de pérdida presentada en la pregunta.1−α
Claramente, todas nuestras manipulaciones son matemáticamente legítimas cuando tiene esta forma. Λ