¿Por qué la escala es importante para la clasificación lineal SVM?


15

Al realizar la clasificación SVM lineal, a menudo es útil normalizar los datos de entrenamiento, por ejemplo restando la media y dividiendo por la desviación estándar, y luego escalar los datos de prueba con la media y la desviación estándar de los datos de entrenamiento. ¿Por qué este proceso cambia dramáticamente el rendimiento de la clasificación?



Gracias juampa! Sin embargo, todavía no estoy del todo claro por qué el conjunto de pruebas necesita ser escalado con la media y estándar del conjunto de entrenamiento en lugar de la suya. En algunos casos, el último parece funcionar bien o incluso mejor cuando las dos clases de muestras están bien equilibradas en el conjunto de prueba.
Qinghua

1
porque entonces no estás siendo consistente. Estás probando en diferentes datos. Imagine que extrae las muestras de una N gaussiana (mu, sigma). Entrenaste con N (0,1) (después de centrar y escalar) pero
probaste

Respuestas:


12

Creo que puede hacerse más claro a través de un ejemplo. Digamos que tiene dos vectores de entrada: X1 y X2. y digamos que X1 tiene rango (0.1 a 0.8) y X2 tiene rango (3000 a 50000). Ahora su clasificador SVM será un límite lineal en el plano X1-X2. Mi afirmación es que la pendiente del límite de decisión lineal no debe depender del rango de X1 y X2, sino de la distribución de puntos.

Ahora hagamos una predicción sobre el punto (0.1, 4000) y (0.8, 4000). Casi no habrá diferencia en el valor de la función, lo que hace que SVM sea menos preciso, ya que tendrá menos sensibilidad a los puntos en la dirección X1.


7

SVM intenta maximizar la distancia entre el plano de separación y los vectores de soporte. Si una entidad (es decir, una dimensión en este espacio) tiene valores muy grandes, dominará a las otras entidades al calcular la distancia. Si cambia la escala de todas las características (por ejemplo, a [0, 1]), todas tienen la misma influencia en la métrica de distancia.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.