A menudo puede escribir un modelo que corresponda a una función de pérdida (aquí voy a hablar sobre la regresión SVM en lugar de la clasificación SVM; es particularmente simple)
Por ejemplo, en un modelo lineal, si su función de pérdida es entonces minimizar eso corresponderá a la probabilidad máxima de f ∝ exp ( - a∑yosol( εyo) = ∑yosol( yyo- x′yoβ)= exp ( - aF∝ exp( - asol( ε ) ) . (Aquí tengo un núcleo lineal)= exp( - asol( y- x′β) )
Si recuerdo correctamente, la regresión SVM tiene una función de pérdida como esta:
Eso corresponde a una densidad que es uniforme en el medio con colas exponenciales (como vemos exponiendo su negativo, o algún múltiplo de su negativo).
Hay una familia de 3 parámetros: ubicación de esquina (umbral de insensibilidad relativa) más ubicación y escala.
Es una densidad interesante; Si recuerdo correctamente al mirar esa distribución en particular hace unas décadas, un buen estimador de ubicación es el promedio de dos cuantiles colocados simétricamente que corresponden a donde están las esquinas (por ejemplo, la bisagra media daría una buena aproximación a MLE para un particular elección de la constante en la pérdida SVM); un estimador similar para el parámetro de escala se basaría en su diferencia, mientras que el tercer parámetro corresponde básicamente a determinar en qué percentil se encuentran las esquinas (esto podría elegirse en lugar de estimarse, ya que a menudo es para SVM).
Entonces, al menos para la regresión SVM, parece bastante sencillo, al menos si elegimos obtener nuestros estimadores por máxima probabilidad.
(En caso de que esté a punto de preguntar ... No tengo ninguna referencia para esta conexión en particular con SVM: ya lo resolví ahora. Sin embargo, es tan simple que docenas de personas lo habrán resuelto antes que yo, así que sin duda no son referencias para ella - he visto nunca ninguna).