Cómo entender el efecto de RBF SVM

¿Cómo puedo entender lo que hace el Kernel RBF en SVM? Quiero decir que entiendo las matemáticas, pero ¿hay alguna manera de tener una idea de cuándo será útil este núcleo?

¿Los resultados de kNN estarían relacionados con SVM / RBF ya que el RBF contiene distancias vectoriales?

¿Hay alguna manera de tener una idea del núcleo polinomial? Sé que cuanto mayor es la dimensión, más wigglier es. Pero me gustaría tener una idea de lo que hacen los núcleos en lugar de probar todos los núcleos posibles y elegir el más exitoso.

svm kernel-trick

— Gerenuk
fuente

Puede comenzar mirando una de mis respuestas aquí:
Clasificación SVM no lineal con kernel RBF

En esa respuesta, intento explicar qué intenta hacer una función del núcleo. Una vez que tenga una idea de lo que intenta hacer, como seguimiento, puede leer mi respuesta a una pregunta sobre Quora: https://www.quora.com/Machine-Learning/Why-does-the-RBF- radial-base-función-kernel-map-into-infinite-dimensional-space / answer / Arun-Iyer-1

Reproducir el contenido de la respuesta en Quora, en caso de que no tenga una cuenta de Quora.

Pregunta: ¿Por qué el núcleo RBF (función de base radial) se asigna al espacio dimensional infinito? Respuesta: Considere el núcleo polinomial de grado 2 definido por, donde y .
$k (x, y) = (x^{T} y)^{2}$ $k(x, y) = (x^Ty)^2$ $x, y \in \mathbb{R}^2$ $x = (x_1, x_2), y = (y_1, y_2)$
De este modo, la función del núcleo se puede escribir como, Ahora, tratemos de llegar a un mapa de características tal que la función del núcleo se pueda escribir como
$k (X, y) = (X_{1} y_{1} + X_{2} y_{2})^{2} = X_{1}^{2} y_{1}^{2} + 2 X_{1} X_{2} y_{1} y_{2} + X_{2}^{2} y_{2}^{2}$ $k(x, y) = (x_1y_1 + x_2y_2)^2 = x_{1}^2y_{1}^2 + 2x_1x_2y_1y_2 + x_{2}^2y_{2}^2$ $\Phi$ . $k(x, y) = \Phi(x)^T\Phi(y)$
Considere el siguiente mapa de características, Básicamente, este mapa de características está asignando los puntos ena los puntos en . Además, observe que, que es esencialmente nuestra función del núcleo.
$Φ (X) = (X_{1}^{2}, \sqrt{2} X_{1} X_{2}, X_{2}^{2})$ $\Phi(x) = (x_1^2, \sqrt{2}x_1x_2, x_2^2)$ $\mathbb{R}^2$ $\mathbb{R}^3$ $Φ (X)^{T} Φ (y) = X_{1}^{2} y_{1}^{2} + 2 X_{1} X_{2} y_{1} y_{2} + X_{2}^{2} y_{2}^{2}$ $\Phi(x)^T\Phi(y) = x_1^2y_1^2 + 2x_1x_2y_1y_2 + x_2^2y_2^2$
$\mathbb{R}^3$ $\mathbb{R}^2$ $\mathbb{R}^3$

$\mathbb{R}^n$

Ahora, llegando a RBF.

$\mathbb{R}^2$
$k (X, y) = Exp (- ‖ X - y ‖^{2}) = Exp (- (X_{1} - y_{1})^{2} - (X_{2} - y_{2})^{2})$ $k(x, y) = \exp(-\|x - y\|^2) = \exp(- (x_1 - y_1)^2 - (x_2 - y_2)^2)$ $= Exp (- X_{1}^{2} + 2 X_{1} y_{1} - y_{1}^{2} - X_{2}^{2} + 2 X_{2} y_{2} - y_{2}^{2})$ $= \exp(- x_1^2 + 2x_1y_1 - y_1^2 - x_2^2 + 2x_2y_2 - y_2^2)$ $= Exp (- ‖ X ‖^{2}) Exp (- ‖ y ‖^{2}) Exp (2 X^{T} y)$ $= \exp(-\|x\|^2) \exp(-\|y\|^2) \exp(2x^Ty)$ (suponiendo gamma = 1). Usando la serie taylor puedes escribir esto como, $k (X, y) = Exp (- ‖ X ‖^{2}) Exp (- ‖ y ‖^{2}) \sum_{norte = 0 0}^{\infty} \frac{(2 X^{T} y)^{norte}}{norte!}$ $k(x, y) = \exp(-\|x\|^2) \exp(-\|y\|^2) \sum_{n = 0}^{\infty} \frac{(2x^Ty)^n}{n!}$ Ahora, si tuviéramos que elaborar un mapa de características $\Phi$ tal como lo hicimos para el núcleo polinomial, se daría cuenta de que el mapa de características mapearía cada punto de nuestro $\mathbb{R}^2$ a un vector infinito Por lo tanto, RBF asigna implícitamente cada punto a un espacio dimensional infinito.
Pregunta de ejercicio : ¿Obtenga los primeros elementos vectoriales del mapa de características para RBF para el caso anterior?

Ahora, de la respuesta anterior, podemos concluir algo:

Puede ser bastante difícil predecir en general cuál es la función de mapeo $\Phi$ parece un kernel arbitrario. Sin embargo, para algunos casos como polinomio y RBF podemos ver cómo se ve.
Incluso cuando conocemos la función de mapeo, el efecto exacto que tendrá el núcleo en nuestro conjunto de puntos puede ser difícil de predecir. Sin embargo, en ciertos casos podemos decir algunas cosas. Por ejemplo, mira el $\Phi$ mapa dado anteriormente para el núcleo polinomial de grado 2 para $\mathbb{R}^2$ . Parece que $\Phi(x) = (x_1^2, \sqrt{2}x_1x_2, x_2^2)$ . A partir de esto, podemos determinar que este mapa colapsa cuadrantes diametralmente opuestos, es decir, el primer y tercer cuadrante se asignan al mismo conjunto de puntos y el segundo y cuarto cuadrante se asignan al mismo conjunto de puntos. ¡Por lo tanto, este núcleo nos permite resolver el problema XOR! En general, sin embargo, podría ser más difícil predecir tal comportamiento para espacios multidimensionales. Y se vuelve más difícil en el caso de los núcleos RBF.

— TenaliRaman
fuente