Consulte la sección 2.3.2 de este documento por Chapelle y Zien. Tienen una buena heurística para seleccionar un buen rango de búsqueda para del kernel RBF y C para el SVM. Yo citoσdo
Para determinar buenos valores de los parámetros libres restantes (por ejemplo, por CV), es importante buscar en la escala correcta. Por lo tanto, fijamos valores predeterminados para y σ que tienen el orden de magnitud correcto. En un problema de clase c , usamos el cuantil 1 / c de las distancias por pares D ρ i j de todos los puntos de datos como valor predeterminado para σ . El valor predeterminado para C son las inversas de la varianza empírica s 2 en el espacio de características, que puede calcularse mediante s 2 = 1doσdo1 / creρyo jσdos2
de unn×nkernel matrizK.s2= 1norte∑yoKyo i- 1norte2∑i , jKyo jn × nK
Posteriormente, utilizan múltiplos (por ejemplo, para k ∈ { - 2 , . . . , 2 } ) del valor predeterminado como rango de búsqueda en una cuadrícula de búsqueda usando la validación cruzada. Eso siempre funcionó muy bien para mí.2kk ∈ { - 2 , . . . , 2 }
Por supuesto, @ciri dijimos, normalizar los datos, etc. siempre es una buena idea.