Como está confundido, permítame comenzar señalando el problema y respondiendo sus preguntas una por una. Tiene un tamaño de muestra de 10,000 y cada muestra se describe mediante un vector de características . Si desea realizar una regresión utilizando funciones de base radial gaussianas, entonces está buscando una función de la forma donde son sus funciones . Específicamente, necesita encontrar los pesos para que para los parámetros dados y minimice el error entre y la predicción correspondiente = f ( x ) = Σ j w j * g j ( x ; μ j , σ j ) , j = 1 .. m g i m w j μ j σ j y y f ( x )x∈R31
f(x)=∑jwj∗gj(x;μj,σj),j=1..m
gimwjμjσjyy^f(x^) - normalmente minimizará el error de mínimos cuadrados.
¿Qué es exactamente el parámetro Mu subíndice j?
Necesita encontrar funciones . (Aún debe determinar el número ) Cada función básica tendrá un y un (también desconocido). El subíndice varía de a .g j m μ j σ j j 1 mmgjmμjσjj1m
¿Es un vector?μj
Sí, es un punto en . En otras palabras, es un punto en algún lugar de su espacio de características y se debe determinar a para cada una de las funciones básicas de . μmR31μm
He leído que esto gobierna las ubicaciones de las funciones básicas. Entonces, ¿no es esto el significado de algo?
La función de base se centra en . Tendrá que decidir dónde están estas ubicaciones. Entonces, no, no es necesariamente el significado de nada (pero vea más abajo para conocer las formas de determinarlo) μ jjthμj
Ahora para la sigma que "gobierna la escala espacial". ¿Qué es eso exactamente?
σ es más fácil de entender si nos centramos en las funciones básicas.
Es útil pensar en las funciones de la base radial gaussiana en las dimensiones inferiores, digamos o . En la función de base radial gaussiana es solo la curva de campana conocida. La campana puede, por supuesto, ser estrecha o ancha. El ancho está determinado por : cuanto mayor sea más estrecha será la forma de la campana. En otras palabras, escala el ancho de la forma de la campana. Entonces, para = 1 no tenemos escala. Para grandes tenemos una escala sustancial.R 2 R 1 σσσσσR1R2R1σσσσσ
Puede preguntar cuál es el propósito de esto. Si piensa en la campana que cubre una parte del espacio (una línea en ), una campana estrecha solo cubrirá una pequeña parte de la línea *. Los puntos cerca del centro de la campana tendrán un valor mayor de . Los puntos alejados del centro tendrán un valor menor de . El escalado tiene el efecto de empujar los puntos más lejos del centro, ya que la campana estrecha los puntos se ubicarán más lejos del centro, reduciendo el valor de x g j (x) g j (x) g j (x)R1xgj(x)gj(x)gj(x)
Cada función base convierte el vector de entrada x en un valor escalar
Sí, está evaluando las funciones básicas en algún momento .x∈R31
exp(−∥x−μj∥222∗σ2j)
Obtienes un escalar como resultado. El resultado escalar depende de la distancia del punto desde el centro dado pory el escalar .x ‖ x - μ j ‖ σ jμj∥x−μj∥σj
He visto algunas implementaciones que prueban valores como .1, .5, 2.5 para este parámetro. ¿Cómo se calculan estos valores?
Por supuesto, este es uno de los aspectos interesantes y difíciles del uso de funciones de base radial gaussianas. si busca en la web, encontrará muchas sugerencias sobre cómo se determinan estos parámetros. Esbozaré en términos muy simples una posibilidad basada en la agrupación. Puede encontrar esta y otras sugerencias en línea.
Comience agrupando sus 10000 muestras (primero puede usar PCA para reducir las dimensiones seguidas de la agrupación de k-medias). Puede dejar que sea el número de clústeres que encuentre (generalmente, empleando validación cruzada para determinar el mejor ). Ahora, cree una función de base radial para cada grupo. Para cada función de base radial, sea el centro (p. Ej., La media, el centroide, etc.) del grupo. Deje que refleje el ancho del clúster (p. Ej., Radio ...) Ahora continúe y realice su regresión (esta descripción simple es solo una descripción general: ¡necesita mucho trabajo en cada paso!)m g j μ j σ jmmgjμjσj
* Por supuesto, la curva de campana se define de - a por lo que tendrá un valor en todas partes en la línea. Sin embargo, los valores lejos del centro son insignificantes.∞∞∞