¿Por qué los multiplicadores de Lagrange son escasos para SVM?

He leído que para el SVM del clasificador de margen máximo, después de resolver el problema dual, la mayoría de los multiplicadores de lagrange resultan ser ceros. Solo los que corresponden a los vectores de soporte resultan ser positivos.

¿Porqué es eso?

svm lagrange-multipliers

— Michael Litvin
fuente

El artículo de Wikipedia sobre Support Vector Machines responde esto señalando que los multiplicadores de Lagrange distintos de cero corresponden a puntos en el margen, de los cuales normalmente habría muy pocos.

— whuber

Los multiplicadores de Lagrange en el contexto de SVM se denotan típicamente $\alpha_i$ . El hecho de que a menudo se observa que la mayoría $\alpha_i=0$ es una consecuencia directa de las condiciones de doble complementariedad de Karush-Kuhn-Tucker (KKT) :

Ya que $y_i(\mathbf{w}^T\mathbf{x}_i+b) = 1$ iff $\mathbf{x}_i$ está en el límite de decisión SVM, es decir, es un vector de soporte asumiendo $\mathbf{x}_i$ está en el conjunto de entrenamiento y, en la mayoría de los casos, pocos vectores de entrenamiento son vectores de soporte, como señaló Whuber en los comentarios, significa que la mayoría $\alpha_i$ son 0 o $C$ .

Las notas de la conferencia CS229 de Andrew Ng sobre SVM introducen las condiciones de complementariedad dual de Karush-Kuhn-Tucker (KKT):

Tenga en cuenta que podemos crear algún caso en el que todos los vectores en el conjunto de entrenamiento sean vectores de soporte: por ejemplo, vea esta Pregunta de máquina de vectores de soporte .

— Franck Dernoncourt
fuente