En el algoritmo SVM, ¿por qué el vector w es ortogonal al hiperplano de separación?


13

Soy un principiante en Machine Learning. En SVM, el hiperplano de separación se define como . Por eso decimos vector ortogonal al hiperplano que separa?wy=wTx+bw


3
Una respuesta a una pregunta similar (para redes neuronales) está aquí .
bogatron

@bogatron - Estoy completamente de acuerdo contigo. Pero mis solo una respuesta específica de SVM .
sin título

2
Excepto que no lo es. Su respuesta es correcta, pero no hay nada que sea específico para SVM (ni debería haberla). es simplemente una ecuación vectorial que define un hiperplano. wTx=b
bogatron

Respuestas:


10

Geométricamente, el vector w se dirige ortogonal a la línea definida por . Esto se puede entender de la siguiente manera:wTx=b

Primero toma . Ahora está claro que todos los vectores, , con un producto interno que desaparece con satisfacen esta ecuación, es decir, todos los vectores ortogonales a w satisfacen esta ecuación.x wb=0xw

Ahora traduzca el hiperplano lejos del origen sobre un vector a. La ecuación para el plano ahora se convierte en: , es decir, encontramos que para el desplazamiento , que es la proyección del vector sobre el vector .b = a T w a w(xa)Tw=0b=aTwaw

Sin pérdida de generalidad, podemos elegir una perpendicular al plano, en cuyo caso la longitud que representa el más corto, ortogonal distancia entre el origen y el hiperplano.||a||=|b|/||w||

Por lo tanto, se dice que el vector es ortogonal al hiperplano de separación.w


4

La razón por la cual es normal para el hiperplano es porque lo definimos así:w

Supongamos que tenemos un (hiper) plano en el espacio 3d. Sea un punto en este plano, es decir, . Por lo tanto, el vector desde el origen hasta este punto es solo . Supongamos que tenemos un punto arbitrario en el plano. El vector que une y viene dado por: Tenga en cuenta que este vector se encuentra en el plano.P0P0=x0,y0,z0(0,0,0)<x0,y0,z0>P(x,y,z)PP0

PP0=<xx0,yy0,zz0>

Ahora dejemos que sea ​​el vector normal (ortogonal) del plano. Por lo tanto: Por lo tanto: Tenga en cuenta que es solo un número y es igual a en nuestro caso, mientras que es solo y es . Entonces, por definición, es ortogonal al hiperplano.n^

n^(PP0)=0
n^Pn^P0=0
n^P0bn^wPxw

2

Deje que el límite de decisión se defina como . Considere los puntos y , que se encuentran en el límite de decisión. Esto nos da dos ecuaciones:wTx+b=0xaxb

wTxa+b=0wTxb+b=0

Restar estas dos ecuaciones nos da . Tenga en cuenta que el vector encuentra en el límite de decisión, y se dirige de a . Dado que el producto punto es cero, debe ser ortogonal a y, a su vez, al límite de decisión.wT.(xaxb)=0xaxbxbxawT.(xaxb)wTxaxb


0

Usando la definición algebraica de un vector que es ortogonal a un hiperplano:

 x1,x2 en el hiperplano de separación,

wT(x1x2)=(wTx1+b)(wTx2+b)=00=0 .
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.