Mi comprensión de SVM es que es muy similar a una regresión logística (LR), es decir, se pasa una suma ponderada de características a la función sigmoidea para obtener una probabilidad de pertenecer a una clase, pero en lugar de la pérdida de entropía cruzada (logística) función, el entrenamiento se realiza utilizando la pérdida de la bisagra. El beneficio de usar la pérdida de bisagra es que uno puede hacer varios trucos numéricos para hacer que la kernelisation sea más eficiente. Sin embargo, un inconveniente es que el modelo resultante tiene menos información que un modelo LR correspondiente podría tener. Entonces, por ejemplo, sin la kernelisation (usando un kernel lineal) el límite de decisión SVM todavía estaría en el mismo lugar donde LR generaría una probabilidad de 0.5, PERO uno no puede decir qué tan rápido la probabilidad de pertenecer a una clase se desvanece de la límite de decisión.
Mis dos preguntas son:
- ¿Es correcta mi interpretación anterior?
- ¿Cómo el uso de la pérdida de la bisagra hace que sea inválido interpretar los resultados de SVM como probabilidades?