Derivemos la aproximación de Nyström de una manera que aclare las respuestas a sus preguntas.
La suposición clave en Nyström es que la función del núcleo es de rango . (Realmente suponemos que es aproximadamente de rango m , pero por simplicidad, supongamos que es exactamente rango m por ahora). Eso significa que cualquier matriz del núcleo tendrá rango como máximo m , y en particular
K = [ k ( x 1 , x 1 ) … k ( x 1 , x n ) ⋮ ⋱ ⋮ k ( x nmetrometrometrometro
es el rangom. Por lo tanto, haymvalores propios distintos de cero, y podemos escribir la descomposición propia deKcomo
K=UΛUT
con vectores propios almacenados enU, de forman×m, y valores propios dispuestos enΛ, unamatriz diagonalm×m.
K= ⎡⎣⎢⎢k ( x1, x1)⋮k ( xnorte, x1)...⋱...k ( x1, xnorte)⋮k ( xnorte, xnorte)⎤⎦⎥⎥,
metrometroKK= UΛ UT
Un × mΛm × m
Entonces, escojamos elementos, generalmente de manera uniforme al azar, pero posiblemente de acuerdo con otros esquemas; todo lo que importa en esta versión simplificada es que K 11 sea de rango completo. Una vez que lo hagamos, simplemente vuelva a etiquetar los puntos para que terminemos con la matriz del núcleo en bloques:
K = [ K 11 K T 21 K 21 K 22 ] ,
donde evaluamos cada entrada en K 11 (que es m × m ) y K 21 ( ( n - m ) × mmetroK11
K= [ K11K21KT21K22] ,
K11m × mK21( n - m ) × m), pero no desea evaluar ninguna entrada en
.
K22
Ahora, también podemos dividir la descomposición propia de acuerdo con esta estructura de bloques:
dondeU1esm×myT2es(n-m)×m. Pero tenga en cuenta que ahora tenemosK11=U1ΛU T 1 . Para que podamos encontrar
K= UΛ UT= [ U1U2] Λ [ U1U2]T= [ U1Λ UT1U2Λ UT1U1Λ UT2U2Λ UT2] ,
U1m × mU2( n - m ) × mK11= U1Λ UT1 y
Λ por descomposición de la matriz conocida
K 11 .
U1ΛK11
También sabemos que . Aquí, sabemos todo en esta ecuación excepto U 2 , por lo que podemos resolver qué valores propios implica: multiplicar a la derecha ambos lados por ( Λ U T 1 ) - 1 = U 1 Λ - 1 para obtener
U 2 = K 21 U 1 Λ - 1 .
Ahora tenemos todo lo que necesitamos para evaluar K 22 :
K 22K21= U2Λ UT1U2( Λ UT1)- 1= U1Λ- 1
U2= K21U1Λ- 1.
K22K22= U2Λ UT2= ( K21U1Λ- 1) Λ ( K21U1Λ- 1)T= K21U1( Λ- 1Λ ) Λ- 1UT1KT21= K21U1Λ- 1UT1KT21= K21K- 111KT21= ( K21K- 1211) ( K21K- 1211)T.(*)(**)
En (*), encontramos una versión de la incrustación de Nyström que podría haber visto simplemente como la definición. Esto nos dice los valores efectivos del núcleo que estamos imputando para el bloque .K22
En (**), vemos que la matriz de características , que es forma(n-m)×m, corresponde a estos valores de núcleo imputados. Si usamosK1K21K- 1211( n - m ) × mpara lospuntosm, tenemos un conjunto decaracterísticasm-dimensionales
Φ=[K 1K1211metrometro
Podemos verificar rápidamente queΦcorresponde a la matriz correcta del núcleo:
ΦΦT
Φ = ⎡⎣⎢K1211K21K- 1211⎤⎦⎥.
ΦΦ ΦT= ⎡⎣⎢K1211K21K- 1211⎤⎦⎥⎡⎣⎢K1211K21K- 1211⎤⎦⎥T= ⎡⎣⎢K1211K1211K21K- 1211K1211K1211K- 1211KT21K21K- 1211K- 1211KT21⎤⎦⎥= [ K11K21KT21K21K- 111KT21]= K.
metroΦK
XΦ
ϕ ( x ) = [ k ( x , x1)...k ( x , xmetro)] K- 1211.
X[ k ( x , x1)...k ( x , xmetro)]K21K21K- 1211ϕ ( x )K11K11K- 1211= K1211ΦXnuevoΦprueba= Kprueba , 1K- 1211.
metro[ KtrenKprueba, trenKentrenar, probarKprueba]metroKpruebaK22
Arriba, supusimos que la matriz del núcleo
tenía
exactamente el rango
m . Este no suele ser el caso; para un núcleo gaussiano, por ejemplo,
K siempre es de rango
n , pero los últimos valores propios generalmente disminuyen bastante rápido, por lo que va a estar
cerca de una matriz de rango
m , y nuestras reconstrucciones de
K 21 o
K test , 1 van estar
cerca de los valores verdaderos pero no exactamente lo mismo. Serán mejores reconstrucciones cuanto más se acerque el espacio propio de
K 11 al de
KmetroKnortemetroK21Kprueba , 1K11 general, por lo que elegir lospuntos
m correctoses importante en la práctica.
Kmetro
Tenga en cuenta también que si tiene valores propios cero, puede reemplazar los inversos con pseudoinversiones y todo sigue funcionando; simplemente reemplaza K 21 en la reconstrucción con K 21 K † 11 K 11 .K11K21K21K†11K11
Kmax ( λyo, 10- 12)