¿Las máquinas de vectores de soporte (SVM) son el límite de temperatura cero de la regresión logística?

Recientemente tuve una discusión rápida con un amigo experto que mencionó que las SVM son el límite de temperatura cero de la regresión logística. La justificación involucraba politopos marginales y dualidad fenchel. No pude seguir.

¿Es cierta esta afirmación sobre que las SVM son el límite de temperatura cero de la regresión logística? Y si es así, ¿alguien puede describir el argumento?

— ted
fuente

Ambos están relacionados, pero estaba acostumbrado a pensar en la regresión logística como mejor para obtener la probabilidad de cada clase, mientras que los SVM son mejores para decidir. Por lo tanto, la regresión logística encaja perfectamente con la inferencia bayesiana, proporcionando naturalmente un grado de confianza para cada clasificación. Los SVM, por otro lado, se escalarían mejor ya que solo los vectores de soporte afectan la clasificación. Estos son mis cinco centavos.

— Ailton Andrade de Oliveira

En el caso de SVM de margen rígido y datos separables linealmente, esto es cierto.

Un bosquejo intuitivo: la pérdida para cada punto de datos en la regresión logística se extingue casi como una curva de disminución exponencial a medida que se aleja del límite de decisión (en la dirección correcta, por supuesto). Esta disminución exponencial significa que los puntos más cercanos al límite incurren en mucha más pérdida. A medida que la temperatura cae a 0, los puntos más cercanos al límite dominan por completo la pérdida, y la pérdida se determina exactamente por qué tan cerca están los puntos más cercanos.

La regresión logística binaria tiene la pérdida de entropía cruzada: donde es la etiqueta y es la probabilidad predicha en . $- y \log p - (1-y)\log (1-p)$ $y$ $p$ $(0,1)$

Típicamente, donde es la función sigmoide. Basado en el parámetro de temperatura introducido en este artículo , sospecho que la temperatura se refiere a una modificación de la formulación: , donde es la temperatura y yo ' He eliminado el término sesgo para simplificar. $p = \sigma(w^Tx + b)$ $\sigma$ $p = \sigma(\frac{w^Tx}{\tau})$ $\tau$

Considerando solo el primer término de la pérdida, . Suponga que , porque cualquier otra cosa significaría que está en el lado equivocado del límite de decisión e incurrirá en una pérdida infinita como . Dado que el término exponencial se vuelve muy pequeño en el límite, usamos la expansión taylor de primer orden para para escribir $-y\log p = y\log(1+\exp{}(-\frac{w^Tx}{\tau}))$ $w^Tx > 0$ $x$ $\tau \rightarrow 0$ $\log(1+z)$ $-y\log p \approx y\exp{(-\frac{w^Tx}{\tau})}$

Hasta ahora, hemos estado utilizando solo la pérdida para un único punto de datos, pero la pérdida real es . Considere solo etiquetas positivas ( ). Entonces esta suma está dominada por el término donde es el más pequeño (más cercano al límite de decisión). $\sum_i y_i \exp{(-\frac{w^Tx_i}{\tau})}$ $y_i = 1$ $w^Tx_i$

Esto se puede ver porque la relación entre el término y el término es que va al infinito o 0 como , por lo que solo importa el término más grande . $i$ $j$ $\frac{\exp (-w^T x_i/\tau)}{\exp (-w^T x_j/\tau)} = \exp(\frac{w^T x_j-w^T x_i}{\tau})$ $\tau \rightarrow 0$ $w^T x_i$

Se puede usar un argumento simétrico en el segundo término de la pérdida.

Por lo tanto, la pérdida del problema de regresión logística a medida que la temperatura llega a 0 se minimiza maximizando la distancia mínima al límite de decisión.

— shimao
fuente