Estoy interesado en los resultados teóricos para la capacidad de generalización de las máquinas de vectores de soporte, por ejemplo, límites en la probabilidad de error de clasificación y en la dimensión Vapnik-Chervonenkis (VC) de estas máquinas. Sin embargo, al leer la literatura he tenido la impresión de que algunos resultados recurrentes similares tienden a diferir ligeramente de un autor a otro, en particular con respecto a las condiciones técnicas requeridas para un determinado límite.
A continuación recordaré la estructura del problema SVM y declararé 3 de los principales resultados de generalización que he encontrado de forma recurrente de una forma u otra doy 3 referencias principales a lo largo de la exposición.
Configuración del problema :
Supongamos que tenemos una muestra de datos de pares independientes e idénticamente distribuidos (iid) donde para todo , y . Construimos una máquina de vectores de soporte (SVM) que maximiza el margen mínimo entre el hiperplano de separación definido por , y , y el punto más cercano entre para separar las dos clases definidas por e . Dejamos que el SVM admita algunos errores a través de un margen blando introduciendo variables de holgura pero por simplicidad de notación ignoramos la posibilidad de núcleos. Los parámetros de la solución y se obtienen resolviendo el siguiente programa de optimización cuadrática convexa:
Estamos interesados en la capacidad de generalización de esta máquina.
Vapnik-Chervonenkis dimensión :
Un primer resultado se debe a (Vapnik, 2000), en el que limita la dimensión VC de un hiperplano de separación, teorema 5.1. Dejar que , tenemos:
Este resultado se puede encontrar nuevamente en (Burges, 1998), teorema 6. Sin embargo, parece que el teorema de Burges es más restrictivo que el mismo resultado de Vapnik, ya que necesita definir una categoría especial de clasificadores, conocidos como clasificadores tolerantes a huecos. a la que pertenece el SVM , para establecer el teorema.
Límites en la probabilidad de errores :
En (Vapnik, 2000), el teorema 5.2 en la página 139 da el siguiente límite en la capacidad de generalización SVM:
donde es el número de vectores de soporte de la SVM. Este resultado parece encontrarse nuevamente en (Burges, 1998), ecuaciones (86) y (93) respectivamente. Pero de nuevo, Burges parece diferir de Vapnik ya que separa los componentes dentro de la función mínima anterior en diferentes teoremas, con diferentes condiciones.
Otro resultado que aparece en (Vapnik, 2000), p.133, es el siguiente. Suponiendo nuevamente que, para todo , y dejando que y , definimos para que sea igual a:
También definimos como el número de ejemplos de entrenamiento mal clasificados por el SVM. Luego, con probabilidad podemos afirmar que la probabilidad de que un ejemplo de ensayo no se separa correctamente por el -margin hiperplano es decir, SVM con el margen ha unido el:
Sin embargo, en (Hastie, Tibshirani y Friedman, 2009), p.438, se encuentra un resultado muy similar:
conclusión :
Me parece que hay un cierto grado de conflicto entre estos resultados. Por otro lado, dos de estas referencias, aunque canónicas en la literatura SVM, comienzan a ser un poco antiguas (1998 y 2000), especialmente si consideramos que la investigación sobre el algoritmo SVM comenzó a mediados de los noventa.
Mis preguntas son:
- ¿Estos resultados siguen siendo válidos hoy o se ha demostrado que están equivocados?
- ¿Se han derivado límites más estrechos con condiciones relativamente flojas desde entonces? Si es así, ¿por quién y dónde puedo encontrarlos?
- Finalmente, ¿hay algún material de referencia que sintetice los principales resultados de generalización sobre la SVM?
referencias :
Vapnik, VN (1998). Teoría del aprendizaje estadístico , primera edición, John Wiley & Sons