Uso del parámetro Gamma con máquinas de vectores de soporte

9

Cuando se usa libsvm, el parámetro es un parámetro para la función del núcleo. Su valor predeterminado se configura como $\gamma$

γ = \frac{1}{Número de características.}

$\gamma = \frac{1}{\text{number of features.}}$

¿Existe alguna guía teórica para configurar este parámetro además de los métodos existentes, por ejemplo, la búsqueda de cuadrícula?

— user3269
fuente

8

Sugeriría la siguiente guía teórica. Cuando utiliza el núcleo Gaussian RBF, su superficie de separación se basará en una combinación de superficies en forma de campana centradas en cada vector de soporte. El ancho de cada superficie en forma de campana será inversamente proporcional a . Si este ancho es menor que la distancia mínima por pares para sus datos, esencialmente tiene un sobreajuste. Si este ancho es mayor que la distancia máxima por pares para sus datos, todos sus puntos caen en una clase y tampoco tiene un buen rendimiento. Entonces, el ancho óptimo debe estar en algún lugar entre estos dos extremos. $\gamma$

— León
fuente

pair-wise distance for your data= distancia euclidiana simple después de escalar?

— ihadanny

5

No, es esencialmente dependiente de los datos. La búsqueda de cuadrícula (sobre hiperparámetros transformados logarítmicamente) es un método muy bueno si solo tiene un pequeño número de hiperparámetros para ajustar, pero no haga que la resolución de la cuadrícula sea demasiado fina o es probable que ajuste demasiado la afinación criterio. Para problemas con una mayor cantidad de parámetros del núcleo, encuentro que el método simplex de Nelder-Mead funciona bien.

— Dikran Marsupial
fuente

Dikran, gracias por la respuesta. ¿Puede elaborar más sobre el "dependiente de datos"? ¿Cuál es la relación entre r y un conjunto de datos? O, en otras palabras, dado un conjunto de datos, ¿hay alguna manera de definir r en función de estos datos?

— user3269

1

Esencialmente "dependiente de los datos" solo significa que la mejor configuración variará de acuerdo con la estructura particular de los datos y generalmente no hay una mejor manera de configurarlos que minimizar el error de validación cruzada. Los métodos del kernel realmente podrían funcionar con un análisis más teórico de cómo aprender a aprender el kernel, pero desafortunadamente esto es matemáticamente muy difícil.

— Dikran Marsupial