Como @lacerbi sugiere que una función del núcleo (o función de covarianza en un entorno de proceso gaussiano) es esencialmente una métrica de similitud, de modo que el valor del núcleo es alto si los dos vectores de entrada se consideran "similares" de acuerdo con las necesidades de la aplicación y más bajo si son diferentes. Sin embargo, no todas las métricas de similitud son funciones válidas del núcleo. Para ser un núcleo válido, la función debe ser interpretable como calcular un producto interno en algún espacio de características transformado, es decir, donde es una función que asigna los vectores de entrada al espacio de características.ϕ ( ⋅ )K(x,x′)=ϕ(x)⋅ϕ(x′)ϕ(⋅)
Entonces, ¿por qué el núcleo debe ser interpretable como un producto interno en algún espacio de características? La razón es que es mucho más fácil idear límites teóricos en el rendimiento de generalización para modelos lineales (como la regresión logística) que para modelos no lineales (como una red neuronal). La mayoría de los modelos lineales se pueden escribir para que los vectores de entrada solo aparezcan en forma de productos internos. Esto significa que podemos construir un modelo no lineal construyendo un modelo lineal en el espacio de características del núcleo. Esta es una transformación fija de los datos, por lo que todos los límites de rendimiento teórico para el modelo lineal se aplican automáticamente al nuevo modelo no lineal del núcleo *.
Un punto importante que es difícil de comprender al principio es que tendemos a no pensar en un espacio de características que sería bueno para nuestra aplicación particular y luego diseñar un núcleo que dé lugar a ese espacio de características. En general, obtenemos una buena métrica de similitud y luego vemos si es un núcleo (la prueba es sencilla, si alguna matriz de evaluaciones por pares de la función del núcleo en puntos en posición general es positiva definida, entonces es un núcleo válido) .
∗ Por supuesto, si ajusta los parámetros del kernel para optimizar el rendimiento de la generalización, por ejemplo, minimizando el error de validación cruzada, ya no es una transformación fija, sino una que se ha aprendido de los datos y gran parte de la hermosa teoría simplemente ha sido invalidado Entonces, en la práctica, aunque el diseño de los métodos del núcleo tiene mucha teoría tranquilizadora detrás de ellos, los límites en sí mismos generalmente no se aplican a las aplicaciones prácticas, pero aún así es tranquilizador ya que existen principios sólidos que sustentan el modelo.