Es apropiado usar una regla de puntuación incorrecta cuando el propósito es realmente pronosticar, pero no inferencia. Realmente no me importa si otro pronosticador está haciendo trampa o no cuando soy yo quien va a hacer el pronóstico.
Las reglas de puntuación adecuadas aseguran que durante el proceso de estimación el modelo se acerque al proceso de generación de datos (DGP) verdadero. Esto suena prometedor porque a medida que nos acercamos al verdadero DGP también estaremos haciendo bien en términos de pronóstico bajo cualquier función de pérdida. El problema es que la mayoría de las veces (en realidad casi siempre) nuestro espacio de búsqueda de modelos no contiene el verdadero DGP. Terminamos aproximando el verdadero DGP con alguna forma funcional que proponemos.
En esta configuración más realista, si nuestra tarea de pronóstico es más fácil que calcular la densidad total del verdadero DGP, en realidad podríamos hacerlo mejor. Esto es especialmente cierto para la clasificación. Por ejemplo, el verdadero DGP puede ser muy complejo, pero la tarea de clasificación puede ser muy fácil.
Yaroslav Bulatov proporcionó el siguiente ejemplo en su blog:
http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html
x ≥ 0x<0
En lugar de igualar la densidad exacta anterior, proponemos el siguiente modelo bruto, que está bastante lejos del verdadero DGP. Sin embargo, hace una clasificación perfecta. Esto se encuentra usando la pérdida de la bisagra, que no es adecuada.
Por otro lado, si decide encontrar el DGP verdadero con pérdida de registro (lo cual es correcto), entonces comienza a ajustar algunos funcionales, ya que no sabe cuál es la forma funcional exacta que necesita a priori. Pero a medida que te esfuerzas más y más para igualarlo, comienzas a clasificar mal las cosas.
Tenga en cuenta que en ambos casos utilizamos las mismas formas funcionales. En el caso de pérdida inadecuada, degeneró en una función de paso que a su vez hizo una clasificación perfecta. En el caso apropiado, se volvió loco tratando de satisfacer cada región de la densidad.
Básicamente, no siempre necesitamos lograr el modelo verdadero para tener pronósticos precisos. O a veces realmente no necesitamos hacer el bien en todo el dominio de la densidad, sino ser muy buenos solo en ciertas partes.