¿Cuál es la relación entre un SVM y la pérdida de bisagra?

Mi colega y yo estamos tratando de entender la diferencia entre la regresión logística y un SVM. Claramente están optimizando diferentes funciones objetivas. ¿Es un SVM tan simple como decir que es un clasificador discriminatorio que simplemente optimiza la pérdida de la bisagra? ¿O es más complejo que eso? ¿Cómo entran en juego los vectores de soporte? ¿Qué pasa con las variables flojas? ¿Por qué no puedes tener SVM profundos como no puedes tener una red neuronal profunda con funciones de activación sigmoidea?

— Simón
fuente

Aquí está mi intento de responder a sus preguntas:

¿Es un SVM tan simple como decir que es un clasificador discriminatorio que simplemente optimiza la pérdida de la bisagra? ¿O es más complejo que eso? Sí, puedes decir eso. Además, no olvide que también regulariza el modelo. No diría que SVM es más complejo que eso, sin embargo, es importante mencionar que todas esas opciones (por ejemplo, pérdida de bisagra y regularización ) tienen interpretaciones matemáticas precisas y no son arbitrarias. Eso es lo que hace que las SVM sean tan populares y poderosas. Por ejemplo, la pérdida de bisagra es un límite superior continuo y convexo a la pérdida de tarea que, para problemas de clasificación binaria, es la pérdida . Tenga en cuenta que $L_2$ $0/1$ $0/1$ la pérdida es no convexa y discontinua. La convexidad de la pérdida de la bisagra hace que todo el objetivo de entrenamiento de SVM sea convexo. El hecho de que sea un límite superior para la pérdida de la tarea garantiza que el minimizador del límite no tendrá un mal valor en la pérdida de la tarea. regularización puede interpretarse geométricamente como el tamaño del margen. $L_2$
¿Cómo entran en juego los vectores de soporte? Los vectores de soporte juegan un papel importante en la formación de SVM. Identifican el hiperplano de separación. Supongamos que denota un conjunto de entrenamiento y es el conjunto de vectores de soporte que obtiene al entrenar un SVM en (suponga que todos los hiperparámetros están fijados a priori). Si arrojamos todas las muestras que no sean SV de y entrenamos otro SVM (con los mismos valores de hiperparámetro) en las muestras restantes (es decir, en ) ¡obtenemos el mismo clasificador exacto que antes! $D$ $SV(D) \subseteq D$ $D$ $D$ $SV(D)$
¿Qué pasa con las variables flojas? SVM se diseñó originalmente para problemas en los que existe un hiperplano de separación (es decir, un hiperplano que separa perfectamente las muestras de entrenamiento de las dos clases), y el objetivo era encontrar, entre todos los hiperplanos de separación, el hiperplano con el mayor margen . El margen , denotado por , se define para un clasificador y un conjunto de entrenamiento . Suponiendo que separa perfectamente todos los ejemplos en , tenemos , que es la distancia del ejemplo de entrenamiento más cercano al hiperplano de separación $d(w, D)$ $w$ $D$ $w$ $D$ $d(w, D) = \min_{(x, y) \in D} y \frac{w^Tx}{||w||_2}$ $w$ . Tenga en cuenta que aquí. La introducción de variables de holgura hizo posible entrenar SVM en problemas donde 1) no existe un hiperplano de separación (es decir, los datos de entrenamiento no son linealmente separables), o 2) está contento (o le gustaría) sacrificar hacer algo error (mayor sesgo) para una mejor generalización (menor varianza). Sin embargo, esto tiene el precio de romper algunas de las interpretaciones matemáticas y geométricas concretas de SVM sin variables de holgura (por ejemplo, la interpretación geométrica del margen). $y \in \{+1, -1\}$
¿Por qué no puedes tener SVM profundos? El objetivo SVM es convexo. Más precisamente, es cuadrático por partes; esto se debe a que el regularizador es cuadrático y la pérdida de la bisagra es lineal por partes. Los objetivos de entrenamiento en modelos jerárquicos profundos, sin embargo, son mucho más complejos. En particular, no son convexos. Por supuesto, uno puede diseñar un modelo discriminatorio jerárquico con pérdida de bisagra y regularización , etc., pero no se llamaría SVM. De hecho, la pérdida de la bisagra se usa comúnmente en DNN (redes neuronales profundas) para problemas de clasificación. $L_2$ $L_2$

— Sobi
fuente