Clasificación SVM no lineal con núcleo RBF

Estoy implementando un clasificador SVM no lineal con kernel RBF. Me dijeron que la única diferencia con respecto a un SVM normal era que simplemente tenía que reemplazar el producto de puntos con una función del núcleo: Sé cómo funciona un SVM lineal normal, es decir, después de resolver el problema de optimización cuadrática (tarea dual), calculo el hiperplano de división óptimo como y el desplazamiento del hiperplano respectivamente, donde es una lista de mis vectores de entrenamiento, son sus respectivas etiquetas ( ),

K (x_{i}, x_{j}) = \exp (- \frac{| | x_{i} - x_{j} | |^{2}}{2 σ^{2}})

$K(x_i,x_j)=\exp\left(-\frac{||x_i-x_j||^2}{2\sigma^2}\right)$

w^{*} = \sum_{i \in S V} h_{i} y_{i} x_{i}

$w^*=\sum_{i \in SV} h_i y_i x_i$

b^{*} = \frac{1}{| S V |} \sum_{i \in S V} (y_{i} - \sum_{j = 1}^{N} (h_{j} y_{j} x_{j}^{T} x_{i}))

$b^*=\frac{1}{|SV|}\sum_{i \in SV}\left(y_i - \sum_{j=1}^N\left(h_j y_j x_j^T x_i\right)\right)$

x

$x$

y

$y$

y_{i} \in {- 1, 1}

$y_i \in \{-1,1\}$

h

$h$ son los coeficientes lagrangianos y es un conjunto de vectores de soporte. Después de eso, puedo usar y solo para clasificar fácilmente: .

S V

$SV$

w^{*}

$w^*$

b^{*}

$b^*$

c_{x} = sign (w^{T} x + b)

$c_x=\text{sign}(w^Tx+b)$

Sin embargo, no creo que pueda hacer tal cosa con un núcleo RBF. Encontré algunos materiales que sugieren que $K(x,y)=\phi(x)\phi(y)$ . Eso lo facilitaría. Sin embargo, no creo que exista tal descomposición para este núcleo y no se menciona en ninguna parte. ¿Es la situación para que todos los vectores de soporte sean necesarios para la clasificación? Si es así, ¿cómo clasifico en ese caso?

— Jan Hadáček
fuente

No es una respuesta completa, pero tuve estas diapositivas en uni: patterns.enm.bris.ac.uk/files/lecture10-2010.pdf

— tristan

Deje que represente su espacio de entrada, es decir, el espacio donde residen sus puntos de datos. Considere una función tal que tome un punto de su espacio de entrada y lo asigne a un punto en . Ahora, digamos que hemos asignado todos sus puntos de datos desde a este nuevo espacio . Ahora, si intenta resolver el svm lineal normal en este nuevo espacio lugar de , notará que todo el trabajo anterior simplemente se ve igual, excepto que todos los puntos están representados como $\mathcal{X}$ $\Phi:\mathcal{X} \rightarrow \mathcal{F}$ $\mathcal{X}$ $\mathcal{F}$ $\mathcal{X}$ $\mathcal{F}$ $\mathcal{F}$ $\mathcal{X}$ $x_i$ $\Phi(x_i)$ y en lugar de usar (producto de puntos) que es el producto interno natural para el espacio euclidiano, lo reemplazamos con que representa el producto interno natural en el nuevo espacio . Entonces, al final, tu se vería así, $x^Ty$ $\langle \Phi(x), \Phi(y) \rangle$ $\mathcal{F}$ $w^*$

w^{*} = \sum_{yo \in S V} h_{yo} y_{yo} Φ (X_{yo})

$w^*=\sum_{i \in SV} h_i y_i \Phi(x_i)$

y por lo tanto,

⟨ w^{*}, Φ (X) ⟩ = \sum_{yo \in S V} h_{yo} y_{yo} ⟨ Φ (X_{yo}), Φ (X) ⟩

$\langle w^*, \Phi(x) \rangle = \sum_{i \in SV} h_i y_i \langle \Phi(x_i), \Phi(x) \rangle$

Del mismo modo,

{si}^{*} = \frac{1}{El | S V El |} \sum_{yo \in S V} (y_{yo} - \sum_{j = 1}^{norte} (h_{j} y_{j} ⟨ Φ (X_{j}), Φ (X_{yo}) ⟩))

$b^*=\frac{1}{|SV|}\sum_{i \in SV}\left(y_i - \sum_{j=1}^N\left(h_j y_j \langle \Phi(x_j), \Phi(x_i)\rangle\right)\right)$

y su regla de clasificación se ve así: . $c_x=\text{sign}(\langle w, \Phi(x) \rangle+b)$

Hasta ahora todo bien, no hay nada nuevo, ya que simplemente hemos aplicado el SVM lineal normal a un espacio diferente. Sin embargo, la parte mágica es esta:

Digamos que existe una función tal que . Luego, podemos reemplazar todos los productos de puntos anteriores con . Tal se llama función del núcleo. $k:\mathcal{X}\times\mathcal{X}\rightarrow \mathbb{R}$ $k(x_i, x_j) = \langle \Phi(x_i), \Phi(x_j) \rangle$ $k(x_i, x_j)$ $k$

Por lo tanto, su y parecen, $w^*$ $b^*$

⟨ w^{*}, Φ (X) ⟩ = \sum_{yo \in S V} h_{yo} y_{yo} k (X_{yo}, X)

$\langle w^*, \Phi(x) \rangle = \sum_{i \in SV} h_i y_i k(x_i, x)$

{si}^{*} = \frac{1}{El | S V El |} \sum_{yo \in S V} (y_{yo} - \sum_{j = 1}^{norte} (h_{j} y_{j} k (X_{j}, X_{yo})))

$b^*=\frac{1}{|SV|}\sum_{i \in SV}\left(y_i - \sum_{j=1}^N\left(h_j y_j k(x_j, x_i)\right)\right)$

¿Para qué funciones del núcleo es válida la sustitución anterior? Bueno, esa es una pregunta un poco complicada y es posible que desee tomar material de lectura adecuado para comprender esas implicaciones. Sin embargo, solo agregaré que lo anterior es válido para RBF Kernel.

Para responder a su pregunta, "¿Es la situación para que todos los vectores de soporte sean necesarios para la clasificación?" Si. Como puede observar anteriormente, calculamos el producto interno de con lugar de calcular explícitamente. Esto requiere que retengamos todos los vectores de soporte para la clasificación. $w$ $x$ $w$

Nota: Las en la sección final aquí son la solución a la dual del SVM en el espacio y no . ¿Eso significa que necesitamos saber explícitamente la función ? Por suerte no. Si observa el doble objetivo, consiste solo en un producto interno y dado que tenemos que nos permite calcular el producto interno directamente, no necesitamos saber explícitamente. El objetivo dual simplemente se ve como $h_i$ $\mathcal{F}$ $\mathcal{X}$ $\Phi$ $k$ $\Phi$

max \sum_{yo} h_{yo} - \sum_{yo, j} y_{yo} y_{j} h_{yo} h_{j} k (X_{yo}, X_{j}) sujeto a: \sum_{yo} y_{yo} h_{yo} = 0 0, h_{yo} \geq 0 0

$\max \sum_i h_i - \sum_{i,j} y_i y_j h_i h_j k(x_i, x_j) \\ \text{subject to : } \sum_i y_i h_i = 0, h_i \geq 0$

— TenaliRaman
fuente

@ JanHadáček ¡De nada! Es bueno saber que mi respuesta es comprensible, me preocupaba que pudiera estar demasiado condensada :-)

— TenaliRaman

Muy buena explicación

— chico de Londres el