Diferencia entre ep-SVR y nu-SVR (y SVR de mínimos cuadrados)


11

Estoy tratando de averiguar qué SVR es adecuado para ese tipo de datos.

Conozco 4 tipos de SVR:

  • épsilon
  • nu
  • mínimos cuadrados y
  • lineal.

Entiendo que SVR lineal es más o menos como lazo con L1 Reg, pero ¿cuál es la diferencia entre las 3 técnicas restantes?

Respuestas:


11

En -SVR, el parámetro ν se usa para determinar la proporción del número de vectores de soporte que desea mantener en su solución con respecto al número total de muestras en el conjunto de datos. En ν -SVR, el parámetro ϵ se introduce en la formulación del problema de optimización y se estima automáticamente (de manera óptima) para usted.νννϵ

Sin embargo, en -SVR no tiene control sobre cuántos vectores de datos del conjunto de datos se convierten en vectores de soporte, podrían ser algunos, podrían ser muchos. No obstante, tendrá control total de la cantidad de error que permitirá que tenga su modelo, y cualquier cosa más allá del ϵ especificado será penalizado en proporción a C , que es el parámetro de regularización.ϵϵC

Dependiendo de lo que quiero, elijo entre los dos. Si estoy realmente desesperado por una solución pequeña (menos vectores de soporte), elijo -SVR y espero obtener un modelo decente. Pero si realmente quiero controlar la cantidad de error en mi modelo y obtener el mejor rendimiento, elijo ϵ -SVR y espero que el modelo no sea demasiado complejo (muchos vectores de soporte).νϵ


5

La diferencia entre -SVR y ν -SVR es cómo se parametriza el problema de entrenamiento. Ambos usan un tipo de pérdida de bisagra en la función de costo. El parámetro ν en ν -SVM puede usarse para controlar la cantidad de vectores de soporte en el modelo resultante. Dados los parámetros apropiados, se resuelve exactamente el mismo problema. 1ϵννν

El SVR de mínimos cuadrados difiere de los otros dos al usar residuos al cuadrado en la función de costo en lugar de la pérdida de bisagra.

1 : C.-C. Chang y C.-J. Lin Entrenamiento -soporte regresión vectorial: Teoría y algoritmosν . Computación neuronal, 14 (8): 1959-1977, 2002.


Gracias por tu respuesta Marc. Entonces, ¿podemos distinguir el método adecuado en función del conjunto de datos que tenemos? Si es así, ¿puedes darme algunos consejos? Tengo 40000 muestras con 200 salidas distintas. Por lo tanto, puede considerarse como 200 conjuntos de 200 muestras únicas. Sin embargo, la entrada para todos los 40000 es diferente, solo la salida es única para 200 muestras.
Sharath Chandra

0

Me gustan las respuestas de Pablo y Marc. Un punto adicional:

En el artículo citado por Marc hay escrito (sección 4)

νϵϵϵy

[...]

ϵyϵ[1,+1]ϵ[0,1]νϵ

ϵϵν

¿Qué piensas?

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.