¿Cuál es la diferencia entre hacer una regresión lineal con una función de base radial gaussiana (RBF) y hacer una regresión lineal con un núcleo gaussiano?
¿Cuál es la diferencia entre hacer una regresión lineal con una función de base radial gaussiana (RBF) y hacer una regresión lineal con un núcleo gaussiano?
Respuestas:
La única diferencia real está en la regularización que se aplica. Una red RBF regularizada generalmente usa una penalización basada en la norma al cuadrado de los pesos. Para la versión del kernel, la penalización está típicamente en la norma al cuadrado de los pesos del modelo lineal construido implícitamente en el espacio de características inducido por el kernel. La diferencia práctica clave que esto hace es que la penalización para la red RBF depende de los centros de la red RBF (y, por lo tanto, de la muestra de datos utilizados), mientras que para el núcleo RBF, el espacio de características inducidas es el mismo independientemente de la muestra de datos, por lo que la penalización es una penalización en la función del modelo, más que en su parametrización .
En otras palabras, para ambos modelos tenemos
Para el enfoque de red RBF, el criterio de capacitación es
Para el método de kernel RBF, tenemos que y . Esto significa que una penalización de norma al cuadrado en los pesos del modelo en el espacio de características inducidas, se puede escribir en términos de los parámetros duales, como
donde es la combinación de evaluaciones por pares del núcleo para todos los patrones de entrenamiento. El criterio de entrenamiento es entonces
.
La única diferencia entre los dos modelos es la en el término de regularización.
La ventaja teórica clave del enfoque del núcleo es que le permite interpretar un modelo no lineal como un modelo lineal que sigue una transformación no lineal fija que no depende de la muestra de datos. Por lo tanto, cualquier teoría de aprendizaje estadístico que exista para modelos lineales se transfiere automáticamente a la versión no lineal. Sin embargo, todo esto se rompe tan pronto como intenta ajustar los parámetros del kernel, momento en el que volvemos al mismo punto teóricamente hablando que con las redes neuronales RBF (y MLP). Entonces, la ventaja teórica quizás no sea tan grande como nos gustaría.
¿Es probable que haga alguna diferencia real en términos de rendimiento? Probablemente no mucho. Los teoremas de "no almuerzo gratis" sugieren que no existe una superioridad a priori de ningún algoritmo sobre todos los demás, y la diferencia en la regularización es bastante sutil, por lo que, en caso de duda, intente ambos y elija el mejor según, por ejemplo, la validación cruzada.