En realidad, es posible obtener probabilidades de una máquina de vectores de soporte, que podría ser más útil e interpretable que un valor arbitrario de "puntaje". Hay algunos enfoques para hacerlo: un lugar razonable para comenzar es Platt (1999) .
La mayoría de los paquetes / bibliotecas SVM implementan algo como esto (por ejemplo, la opción -b 1 hace que LibSVM produzca probabilidades). Si va a rodar el suyo, debe tener en cuenta que hay algunos problemas numéricos potenciales, resumidos en esta nota por Lin, Lin y Weng (2007) . También proporcionan algunos psuedocode, que también pueden ser útiles.
Edite en respuesta a su comentario : para mí no está claro por qué preferiría un puntaje a una probabilidad, especialmente porque puede obtener la probabilidad con un mínimo esfuerzo extra. Dicho todo esto, la mayoría de los cálculos de probabilidad parecen derivarse de la distancia entre el punto y el hiperplano. Si nos fijamos en la Sección 2 del documento de Platt, él analiza la motivación y dice:
Las densidades condicionales de clase entre los márgenes son aparentemente exponenciales. La regla de Bayes sobre dos exponenciales sugiere usar una forma paramétrica de un sigmoide:
Este modelo sigmoide es equivalente a asumir que la salida del SVM es proporcional a la probabilidad logarítmica de un ejemplo de entrenamiento positivo. [MK: se definió en otro lugar como la salida SVM sin procesar].
PAGS( y= 1 | F) =11 + exp( A f+ B )
F
El resto de la sección del método describe cómo ajustar los parámetros y de ese sigmoide. En la introducción (Sección 1.0 y 1.1), Platt revisa algunos otros enfoques de Vapnik, Wahba y Hasti & Tibshirani. Estos métodos también usan algo como la distancia al hiperplano, manipulado de varias maneras. Todo esto parece sugerir que la distancia al hiperplano contiene información útil, por lo que supongo que podría usar la distancia bruta como una medida de confianza (no lineal).AB