Creo que la clave de la magia es la suavidad. Mi larga respuesta que sigue es simplemente explicar sobre esta suavidad. Puede o no ser una respuesta que espera.
Respuesta corta:
Dado un kernel definido positivo , existe su espacio correspondiente de funciones . Las propiedades de las funciones están determinadas por el núcleo. Resulta que si es un núcleo gaussiano, las funciones en son muy suaves. Entonces, una función aprendida (por ejemplo, una función de regresión, componentes principales en RKHS como en el núcleo PCA) es muy suave. Por lo general, la suposición de suavidad es sensata para la mayoría de los conjuntos de datos que queremos abordar. Esto explica por qué un núcleo gaussiano es mágico.H k HkHkH
Respuesta larga de por qué un núcleo gaussiano ofrece funciones suaves:
Un núcleo positivo definido define (implícitamente) un producto interno
para el vector de características construido a partir de su entrada , y
es un espacio de Hilbert. La notación
significa un producto interno entre y . Para nuestro propósito, puede imaginar que es el espacio euclidiano habitual pero posiblemente con un número infinito de dimensiones. Imagine el vector habitual que es infinitamente largo comok ( x , y ) = ⟨ φ ( x ) , φ ( y ) ⟩ H φ ( x ) x H ⟨ φ ( x ) , φ ( y ) ⟩ φ ( x ) φ ( y ) H ϕ ( x ) = ( ϕ 1 ( xk(x,y)k(x,y)=⟨ϕ(x),ϕ(y)⟩Hϕ(x)xH⟨ϕ(x),ϕ(y)⟩ϕ(x)ϕ(y)H H f ( x ) = ⟨ f , φ ( x ) ⟩ f ( x ) f x φ ( x ) f ( x ) kϕ(x)=(ϕ1(x),ϕ2(x),…). En los métodos del kernel, es un espacio de funciones llamado reproducción del espacio Hilbert del kernel (RKHS). Este espacio tiene una propiedad especial llamada `` propiedad de reproducción '' que es que . Esto dice que para evaluar , primero se construye un vector de características (infinitamente largo como se mencionó) para . Luego construyes tu vector de características para denotado por (infinitamente largo). La evaluación de se obtiene tomando un producto interno de los dos. Obviamente, en la práctica, nadie construirá un vector infinitamente largo. Como solo nos importa su producto interno, solo evaluamos directamente el núcleoHf(x)=⟨f,ϕ(x)⟩f(x)fxϕ(x)f(x)k. Eludir el cálculo de características explícitas y calcular directamente su producto interno se conoce como el "truco del núcleo".
¿Cuáles son las características?
diciendo características sin especificar cuáles son. Dado un núcleo , las características no son únicas. Pero
se determina de manera única. Para explicar la suavidad de las funciones, consideremos las características de Fourier. Suponga una traducción invariante kernel , que significa
, es decir, el kernel solo depende de la diferencia de los dos argumentos. El núcleo gaussiano tiene esta propiedad. Deje que denote la transformada de Fourier de .k ⟨ φ ( x ) , φ ( y ) ⟩ k k ( x , y ) = k ( x - y ) k kϕ1(x),ϕ2(x),…k⟨ϕ(x),ϕ(y)⟩kk(x,y)=k(x−y)k^k
En este punto de vista de Fourier, las características de
están dadas por . Esto significa que la representación de características de su función
está dada por su transformada de Fourier dividida por la transformada de Fourer del núcleo . La representación de características de , que es
es
donde . Se puede demostrar que la propiedad de reproducción es válida (un ejercicio para los lectores).f : = ( ⋯ , f l / √ffkxφ(x)(⋯,√f:=(⋯,f^l/k^l−−√,⋯)fkxϕ(x)i=√(⋯,k^l−−√exp(−ilx),⋯)i=−1−−−√
Como en cualquier espacio de Hilbert, todos los elementos que pertenecen al espacio deben tener una norma finita. Consideremos la norma al cuadrado de una :f∈H
∥f∥2H=⟨f,f⟩H=∑∞l=−∞f^2lk^l.
Entonces, ¿cuándo es esta norma finita, es decir, pertenece al espacio? Es cuando cae más rápido que para que la suma converja. Ahora, la transformada de Fourier de un núcleo gaussianoff^2lk^l k(x,y)=exp(−∥x−y∥2σ2)
es otro gaussiano donde disminuye exponencialmente rápido con . Entonces, si va a estar en este espacio, su transformación de Fourier debe caer aún más rápido que el de . Esto significa que la función tendrá efectivamente solo unos pocos componentes de baja frecuencia con altos pesos. Una señal con solo componentes de baja frecuencia no se `` mueve '' mucho. Esto explica por qué un núcleo gaussiano le da una función suave.k^llfk
Extra: ¿Qué pasa con un kernel de Laplace?
Si considera un núcleo de Laplace ,
su transformada de Fourier es una distribución de Cauchy que cae mucho más lento que el exponencial funcionan en la transformada de Fourier de un núcleo gaussiano. Esto significa que una función tendrá más componentes de alta frecuencia. Como resultado, la función dada por un núcleo de Laplace es `` más áspera '' que la dada por un núcleo gaussiano.k(x,y)=exp(−∥x−y∥σ)f
¿Cuál es una propiedad del núcleo gaussiano que otros núcleos no tienen?
Independientemente del ancho gaussiano, una propiedad es que el núcleo gaussiano es `` universal ''. Intuitivamente, esto significa que, dada una función continua limitada (arbitraria), existe una función tal que y
están cerca (en el sentido de hasta la precisión arbitraria necesaria. Básicamente, esto significa que el núcleo gaussiano proporciona funciones que pueden aproximarse a las funciones "agradables" (acotadas, continuas) arbitrariamente bien. Los granos gaussianos y de Laplace son universales. Un núcleo polinomial, por ejemplo, no lo es.gf∈Hfg∥⋅∥∞)
¿Por qué no pasamos la norma, digamos, un PDF Cauchy y esperamos los mismos resultados?
En general, puede hacer lo que quiera siempre que el resultante
sea definitivo positivo. La definición positiva se define como
para todos , y todos
(conjunto de números naturales) . Si no es positivo definido, entonces no corresponde a un espacio interno del producto. Todo el análisis se rompe porque ni siquiera tiene un espacio de funciones
como se mencionó. No obstante, puede funcionar empíricamente. Por ejemplo, el núcleo de la tangente hiperbólica (vea el número 7 en esta página )k∑Ni=1∑Nj=1k(xi,xj)αiαj>0αi∈R{xi}Ni=1N∈NkH
k(x,y)=tanh(αx⊤y+c)
que pretende imitar unidades de activación sigmoideas en redes neuronales, solo es positivo definido para algunos ajustes de y . Aún así se informó que funciona en la práctica.αc
¿Qué pasa con otros tipos de características?
Dije que las características no son únicas. Para el kernel gaussiano, la expansión de Mercer proporciona otro conjunto de características . Consulte la Sección 4.3.1 del famoso libro de procesos gaussiano . En este caso, las características son polinomios de Hermite evaluados en .ϕ(x)x