Sin embargo, algunos de mis pensamientos pueden no ser correctos.
Entiendo que la razón por la que tenemos ese diseño (por pérdida de bisagra y logística) es que queremos que la función objetivo sea convexa.
La convexidad es seguramente una buena propiedad, pero creo que la razón más importante es que queremos que la función objetivo tenga derivadas distintas de cero , de modo que podamos utilizar las derivadas para resolverla. La función objetivo puede ser no convexa, en cuyo caso a menudo nos detenemos en algunos puntos óptimos o de silla de montar locales.
e interesantemente, también penaliza las instancias clasificadas correctamente si están clasificadas débilmente. Es un diseño realmente extraño.
Creo que este tipo de diseño aconseja al modelo no solo hacer las predicciones correctas, sino también tener confianza en las predicciones. Si no queremos que las instancias clasificadas correctamente sean castigadas, podemos, por ejemplo, mover la pérdida de la bisagra (azul) a la izquierda por 1, para que ya no pierdan nada. Pero creo que esto a menudo conduce a un peor resultado en la práctica.
¿Cuáles son los precios que tenemos que pagar mediante el uso de diferentes "funciones de pérdida de proxy", como la pérdida de bisagra y la pérdida logística?
OMI al elegir diferentes funciones de pérdida estamos aportando diferentes supuestos al modelo. Por ejemplo, la pérdida de regresión logística (rojo) supone una distribución de Bernoulli, la pérdida de MSE (verde) supone un ruido gaussiano.
Siguiendo el ejemplo de regresión logística de mínimos cuadrados versus PRML, agregué la pérdida de bisagra para comparar.
Como se muestra en la figura, la pérdida de bisagra y la regresión logística / entropía cruzada / log-verosimilitud / softplus tienen resultados muy cercanos, porque sus funciones objetivas son cercanas (figura a continuación), mientras que MSE es generalmente más sensible a los valores atípicos. La pérdida de la bisagra no siempre tiene una solución única porque no es estrictamente convexa.
Sin embargo, una propiedad importante de la pérdida de la bisagra es que los puntos de datos lejos del límite de decisión no contribuyen en nada a la pérdida, la solución será la misma con esos puntos eliminados.
Los puntos restantes se denominan vectores de soporte en el contexto de SVM. Mientras que SVM utiliza un término regularizador para garantizar la propiedad de margen máximo y una solución única.