En la práctica, la razón por la que los SVM tienden a ser resistentes al sobreajuste, incluso en los casos en que el número de atributos es mayor que el número de observaciones, es que utiliza la regularización. La clave para evitar el ajuste excesivo radica en el ajuste cuidadoso del parámetro de regularización, , y en el caso de SVM no lineales, la elección cuidadosa del núcleo y el ajuste de los parámetros del núcleo.do
El SVM es una implementación aproximada de un límite en el error de generalización, que depende del margen (esencialmente la distancia desde el límite de decisión al patrón más cercano de cada clase), pero es independiente de la dimensionalidad del espacio de características (razón por la cual usar el truco del núcleo para mapear los datos en un espacio dimensional muy alto no es una mala idea como podría parecer). Entonces, en principio, los SVM deben ser altamente resistentes al sobreajuste, pero en la práctica esto depende de la elección cuidadosa de y los parámetros del núcleo. Lamentablemente, el sobreajuste también puede ocurrir con bastante facilidad al ajustar los hiperparámetros también, que es mi área principal de investigación, veado
GC Cawley y NLC Talbot, Prevención del sobreajuste en la selección del modelo mediante la regularización bayesiana de los hiperparámetros, Journal of Machine Learning Research, volumen 8, páginas 841-861, abril de 2007. ( www )
y
GC Cawley y NLC Talbot, Ajuste excesivo en la selección del modelo y posterior sesgo de selección en la evaluación del rendimiento, Journal of Machine Learning Research, 2010. Research, vol. 11, págs. 2079-2107, julio de 2010. ( www )
Ambos documentos utilizan la regresión de cresta del núcleo, en lugar del SVM, pero el mismo problema surge con la misma facilidad con los SVM (también se aplican límites similares a KRR, por lo que no hay mucho para elegir entre ellos en la práctica). Entonces, en cierto modo, los SVM realmente no resuelven el problema del sobreajuste, simplemente cambian el problema del ajuste del modelo a la selección del modelo.
A menudo es una tentación hacer la vida un poco más fácil para el SVM realizando primero algún tipo de selección de características. Esto generalmente empeora las cosas, ya que, a diferencia del SVM, los algoritmos de selección de características tienden a exhibir un ajuste excesivo a medida que aumenta el número de atributos. A menos que desee saber cuáles son los atributos informativos, generalmente es mejor omitir el paso de selección de características y simplemente usar la regularización para evitar un ajuste excesivo de los datos.
En resumen, no hay ningún problema inherente con el uso de un SVM (u otro modelo regularizado como la regresión de crestas, LARS, Lasso, red elástica, etc.) en un problema con 120 observaciones y miles de atributos, siempre que los parámetros de regularización estén ajustados correctamente .