Comprender los parámetros de la función de base gaussiana que se utilizarán en la regresión lineal

12

Me gustaría aplicar la función de base gaussiana en una implementación de regresión lineal. Lamentablemente, me está costando entender un par de parámetros en la función base. Específicamente y . $\mu$ $\sigma$

Mi conjunto de datos es una matriz de 10,000 x 31. 10.000 muestras y 31 características. He leído que "Cada función base convierte el vector de entrada x en un valor escalar". Así que supongo que x es 1 muestra, por lo que es un vector 1 x 31. Desde aquí estoy confundido. ¿Qué es exactamente el parámetro ? He leído que esto gobierna las ubicaciones de las funciones básicas. Entonces, ¿no es esto el significado de algo? También estoy desilusionado por el subíndice j ( y ), esto me hace pensar en la fila j. Pero eso no parece tener sentido. ¿Es un vector? Ahora para la $\mu_j$ $\mu$ $\phi$ $\mu_j$ $\sigma$ que "gobierna la escala espacial". ¿Qué es eso exactamente? He visto algunas implementaciones que prueban valores como .1, .5, 2.5 para este parámetro. ¿Cómo se calculan estos valores? He estado investigando y buscando ejemplos para aprender, pero hasta ahora no he podido encontrar ninguno. Cualquier ayuda o dirección es muy apreciada! Gracias.

regression machine-learning basis-function

— usuario2743
fuente

11

Como está confundido, permítame comenzar señalando el problema y respondiendo sus preguntas una por una. Tiene un tamaño de muestra de 10,000 y cada muestra se describe mediante un vector de características . Si desea realizar una regresión utilizando funciones de base radial gaussianas, entonces está buscando una función de la forma donde son sus funciones . Específicamente, necesita encontrar los pesos para que para los parámetros dados y minimice el error entre y la predicción correspondiente = $x\in\mathbb{R}^{31}$

f (x) = \sum_{j} w_{j} * g_{j} (x; μ_{j}, σ_{j}), j = 1.. m

$f(x) = \sum_{j}{w_j * g_j(x; \mu_j,\sigma_j}), j=1..m$

g_{i}

$g_i$

m

$m$

w_{j}

$w_j$

μ_{j}

$\mu_j$

σ_{j}

$\sigma_j$

y

$y$

\hat{y}

$\hat{y}$

f (\hat{x})

$f(\hat{x})$ - normalmente minimizará el error de mínimos cuadrados.

¿Qué es exactamente el parámetro Mu subíndice j?

Necesita encontrar funciones . (Aún debe determinar el número ) Cada función básica tendrá un y un (también desconocido). El subíndice varía de a . $m$ $g_j$ $m$ $\mu_j$ $\sigma_j$ $j$ $1$ $m$

¿Es un vector? $\mu_j$

Sí, es un punto en . En otras palabras, es un punto en algún lugar de su espacio de características y se debe determinar a para cada una de las funciones básicas de . $\mathbb{R}^{31}$ $\mu$ $m$

He leído que esto gobierna las ubicaciones de las funciones básicas. Entonces, ¿no es esto el significado de algo?

La función de base se centra en . Tendrá que decidir dónde están estas ubicaciones. Entonces, no, no es necesariamente el significado de nada (pero vea más abajo para conocer las formas de determinarlo) $j^{th}$ $\mu_j$

Ahora para la sigma que "gobierna la escala espacial". ¿Qué es eso exactamente?

$\sigma$ es más fácil de entender si nos centramos en las funciones básicas.

Es útil pensar en las funciones de la base radial gaussiana en las dimensiones inferiores, digamos o . En la función de base radial gaussiana es solo la curva de campana conocida. La campana puede, por supuesto, ser estrecha o ancha. El ancho está determinado por : cuanto mayor sea más estrecha será la forma de la campana. En otras palabras, escala el ancho de la forma de la campana. Entonces, para = 1 no tenemos escala. Para grandes tenemos una escala sustancial. $\mathbb{R}^{1}$ $\mathbb{R}^{2}$ $\mathbb{R}^{1}$ $\sigma$ $\sigma$ $\sigma$ $\sigma$ $\sigma$

Puede preguntar cuál es el propósito de esto. Si piensa en la campana que cubre una parte del espacio (una línea en ), una campana estrecha solo cubrirá una pequeña parte de la línea *. Los puntos cerca del centro de la campana tendrán un valor mayor de . Los puntos alejados del centro tendrán un valor menor de . El escalado tiene el efecto de empujar los puntos más lejos del centro, ya que la campana estrecha los puntos se ubicarán más lejos del centro, reduciendo el valor de $\mathbb{R}^{1}$ $x$ $g_j(x)$ $g_j(x)$ $g_j(x)$

Cada función base convierte el vector de entrada x en un valor escalar

Sí, está evaluando las funciones básicas en algún momento . $\mathbf{x}\in\mathbb{R}^{31}$

\exp (- \frac{‖ x - μ_{j} ‖_{2}^{2}}{2 * σ_{j}^{2}})

$\exp\left({-\frac{\|\mathbf{x}-\mu_j\|_2^2}{2*\sigma_j^2}}\right)$

Obtienes un escalar como resultado. El resultado escalar depende de la distancia del punto desde el centro dado pory el escalar . $\mathbf{x}$ $\mu_j$ $\|\mathbf{x}-\mu_j\|$ $\sigma_j$

He visto algunas implementaciones que prueban valores como .1, .5, 2.5 para este parámetro. ¿Cómo se calculan estos valores?

Por supuesto, este es uno de los aspectos interesantes y difíciles del uso de funciones de base radial gaussianas. si busca en la web, encontrará muchas sugerencias sobre cómo se determinan estos parámetros. Esbozaré en términos muy simples una posibilidad basada en la agrupación. Puede encontrar esta y otras sugerencias en línea.

Comience agrupando sus 10000 muestras (primero puede usar PCA para reducir las dimensiones seguidas de la agrupación de k-medias). Puede dejar que sea el número de clústeres que encuentre (generalmente, empleando validación cruzada para determinar el mejor ). Ahora, cree una función de base radial para cada grupo. Para cada función de base radial, sea el centro (p. Ej., La media, el centroide, etc.) del grupo. Deje que refleje el ancho del clúster (p. Ej., Radio ...) Ahora continúe y realice su regresión (esta descripción simple es solo una descripción general: ¡necesita mucho trabajo en cada paso!) $m$ $m$ $g_j$ $\mu_j$ $\sigma_j$

* Por supuesto, la curva de campana se define de - a por lo que tendrá un valor en todas partes en la línea. Sin embargo, los valores lejos del centro son insignificantes. $\infty$ $\infty$

— martino
fuente

¡Buena respuesta! Sin embargo, al buscar , ¿no terminamos con la regresión de máquina de vectores de soporte (con núcleo gaussiano)?

μ

$\mu$

— O_Devinyak

@ O_Devinyak: muchos métodos de expansión base requerirán algún tipo de estimación de parámetros. Hay muchas formas de encontrar así que no creo que esto necesariamente signifique que estamos reduciendo el problema a SVR. Para ser honesto, no soy un experto en SVR, pero la función de pérdida que se minimiza es ciertamente diferente y estoy seguro de que muchas de las características se ignoran, esa es la forma de Vector de soporte. Con las funciones básicas usamos todas las funciones para la evaluación, pero afortunadamente el soporte compacto significa que muchas de las funciones básicas devuelven valores insignificantes o cero. De todos modos, sería una buena pregunta en este foro

μ

$\mu$

— martino

¿Por qué necesitamos una escala lugar de una matriz de covarianza que haga que la función base se vea como la parte exponencial de un gaussiano multivariado?

σ_{j}

$\sigma_j$

— stackunderflow

1

Déjame intentar dar una explicación simple. En dicha notación, puede ser un número de fila, pero también puede ser un número de característica. Si escribimos entonces denota el número de característica, es columna-vector, es escalar y es una columna -vector. Si escribimos entonces denota el número de fila, es escalar, es vector de columna y es un vector de fila. La notación donde denota fila y denota columna es más común, así que usemos la primera variante. $j$ $y=\beta_0+\sum_{j=1:31}{\beta_j\phi_j(x)}$ $j$ $y$ $\beta_j$ $\phi_j(x)$ $y_j=\beta\phi_j(x)$ $j$ $y_j$ $\beta$ $\phi_j(x)$ $i$ $j$

Al introducir la función de base gaussiana en la regresión lineal, (escalar) ahora no depende de los valores numéricos de las (vector), sino de las distancias entre y el centro de todos los demás puntos . En tal modo no depende de si valor de la característica -ésimo de -ésima observación es alta o pequeña, pero depende de si valor de la característica-ésimo está cerca o lejos de la media para que -feature . Entonces no es un parámetro, ya que no se puede ajustar. Es solo una propiedad de un conjunto de datos. El parámetro $y_i$ $x_i$ $x_i$ $\mu_i$ $y_i$ $j$ $i$ $j$ $j$ $\mu_{ij}$ $\mu_j$ $\sigma^2$ es un valor escalar, controla la suavidad y se puede ajustar. Si es pequeño, los pequeños cambios en la distancia tendrán un gran efecto (recuerde el fuerte gaussiano: todos los puntos ubicados ya a poca distancia del centro tienen pequeños valores ). Si es grande, los pequeños cambios en la distancia tendrán un efecto bajo (recuerde gaussiano plano: la disminución de con el aumento de la distancia desde el centro es lenta). Se debe buscar el valor óptimo de (generalmente se encuentra con validación cruzada). $y$ $y$ $\sigma^2$

— O_Devinyak
fuente

0

Las funciones de base gaussianas en las configuraciones multivariadas tienen centros multivariados. Suponiendo que su , entonces también. El gaussiano tiene que ser multivariado, es decir, donde es Una matriz de covarianza. El índice no es un componente de un vector, es solo el vector . Del mismo modo, es la ésima matriz. $x\in\mathbb{R}^{31}$ $\mu_j\in\mathbb{R}^{31}$ $e^{(x-\mu_j)'\Sigma_j^{-1}(x-\mu_j)}$ $\Sigma_j\in\mathbb{R}^{31\times 31}$ $j$ $j$ $\Sigma_j$ $j$

— Karel Macek
fuente