¿Cómo funciona la regresión vectorial de soporte de forma intuitiva?


25

Todos los ejemplos de SVM están relacionados con la clasificación. No entiendo cómo podría usarse un SVM para regresión (regresor de vectores de soporte) en la regresión.

Según tengo entendido, un SVM maximiza el margen entre dos clases para encontrar el hiperplano óptimo. ¿Cómo funcionaría esto en un problema de regresión?

Respuestas:


11

En resumen: maximizar el margen puede verse más generalmente como regularizar la solución minimizando (que esencialmente minimiza la complejidad del modelo), esto se hace tanto en la clasificación como en la regresión. Pero en el caso de la clasificación, esta minimización se realiza bajo la condición de que todos los ejemplos se clasifiquen correctamente y en el caso de la regresión bajo la condición de que el valor de todos los ejemplos se desvía menos que la precisión requerida de para la regresión .y ϵ f ( x )wyϵf(x)


Para comprender cómo se pasa de la clasificación a la regresión, es útil ver cómo en ambos casos se aplica la misma teoría SVM para formular el problema como un problema de optimización convexo. Trataré de poner ambos lado a lado.

(Ignoraré las variables de holgura que permiten clasificaciones erróneas y desviaciones por encima de la precisión )ϵ

Clasificación

En este caso, el objetivo es encontrar una función donde para ejemplos positivos y para ejemplos negativos. En estas condiciones, queremos maximizar el margen (distancia entre las 2 barras rojas) que no es más que minimizar la derivada de .f ( x ) 1 f ( x ) - 1 f = wf(x)=wx+bf(x)1f(x)1f=w

La intuición detrás de maximizar el margen es que esto nos dará una solución única al problema de encontrar (es decir, descartamos, por ejemplo, la línea azul) y también que esta solución es la más general en estas condiciones, es decir, actúa como una regularización . Esto se puede ver como, alrededor del límite de decisión (donde se cruzan las líneas rojas y negras) la incertidumbre de clasificación es la mayor y elegir el valor más bajo para en esta región dará la solución más general.f ( x )f(x)f(x)

ingrese la descripción de la imagen aquí

Los puntos de datos en las 2 barras rojas son los vectores de soporte en este caso, corresponden a los multiplicadores de Lagrange distintos de cero de la parte de la igualdad de las condiciones de desigualdad yf ( x ) - 1f(x)1f(x)1

Regresión

En este caso, el objetivo es encontrar una función (línea roja) bajo la condición de que esté dentro de una precisión requerida del valor del valor (barras negras) de cada punto de datos, es decir, donde es la distancia entre la línea roja y la gris. Bajo esta condición, nuevamente queremos minimizar , nuevamente por razones de regularización y para obtener una solución única como resultado del problema de optimización convexa. Uno puede ver cómo minimizar resulta en un caso más general ya que el valor extremo def(x)=wx+bf(x)ϵy(x)|y(x)f(x)|ϵepsilonf(x)=www=0 no significaría ninguna relación funcional, que es el resultado más general que se puede obtener de los datos.

ingrese la descripción de la imagen aquí

Los puntos de datos en las 2 barras rojas son los vectores de soporte en este caso, corresponden a los multiplicadores de Lagrange distintos de cero de la parte de igualdad de la condición de desigualdad .|yf(x)|ϵ

Conclusión

Ambos casos resultan en el siguiente problema:

min12w2

Bajo la condición de que:

  • Todos los ejemplos están clasificados correctamente (Clasificación)
  • El valor de todos los ejemplos se desvía menos de de . (Regresión)yϵf(x)

0

En SVM para el problema de clasificación, en realidad tratamos de separar la clase lo más lejos posible de la línea de separación (hiperplano) y, a diferencia de la regresión logística, creamos un límite de seguridad desde ambos lados del hiperplano (diferente entre la regresión logística y la clasificación SVM está en su función de pérdida). Eventualmente, tener puntos de datos diferentes separados lo más lejos posible del hiperplano.

En SVM para el problema de regresión, queremos ajustar un modelo para predecir una cantidad para el futuro. Por lo tanto, queremos que el punto de datos (observación) esté lo más cerca posible del hiperplano a diferencia de SVM para la clasificación. La regresión SVM heredada de la regresión simple como (Mínimo cuadrado ordinario) por esta diferencia que definimos un rango de épsilon de ambos lados del hiperplano para hacer que la función de regresión sea insensible al error a diferencia de SVM para la clasificación que definimos un límite que sea seguro para hacer La decisión futura (predicción). Finalmente,

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.