"Teorema del profundo Noether": Construyendo restricciones de simetría

Si tengo un problema de aprendizaje que debería tener una simetría inherente, ¿hay alguna forma de someter mi problema de aprendizaje a una restricción de simetría para mejorar el aprendizaje?

Por ejemplo, si estoy haciendo reconocimiento de imagen, podría querer simetría rotacional 2D. Lo que significa que la versión girada de una imagen debería obtener el mismo resultado que la original.

O si estoy aprendiendo a jugar al tic-tac-toe, entonces girar 90 grados debería producir el mismo juego.

¿Se ha hecho alguna investigación sobre esto?

machine-learning

— aidan.plenert.macdonald
fuente

Sí, algo; por ejemplo, Grupo equivariante convolucional Redes ( código ), armónicas Redes: Profundo traslación y rotación Equivariance , profunda rotación Red equivariante , Explotando cíclica Simetría en convolucionales redes neuronales , etc Usted simplemente no ver mucho en la naturaleza todavía.

— Emre

@ Emre Gracias! ¿Conoces algún trabajo fuera de CNN?

— aidan.plenert.macdonald

No, solo tengo un conocimiento superficial de este nicho. No obstante, las CNN parecen un entorno natural ...

— Emre

También debo mencionar la tesis doctoral de Risi Kondor, Métodos teóricos grupales en aprendizaje automático (pdf)

— Emre

Del comentario anterior de Emre, la Sección 4.4 de Métodos teóricos grupales en aprendizaje automático de Risi Kondor tiene información detallada y pruebas sobre la creación de métodos de núcleo que tienen simetrías inherentemente. Lo resumiré de una forma esperanzadora e intuitiva (¡soy un físico, no un matemático!).

La mayoría de los algoritmos de ML tienen una matriz de multiplicación como,

\begin{aligned} s_{yo} & = \sum_{j} W_{yo j} X_{j} \\ = \sum_{j} W_{yo j} ({\vec{mi}}_{j} \cdot \vec{X}) \end{aligned}

$\begin{align} s_i &= \sum_j W_{ij}~x_j \\ &= \sum_j W_{ij}~(\vec{e}_j \cdot \vec{x}) \end{align}$ con

\vec{x}

$\vec{x}$ como entrada y

W_{i j}

$W_{ij}$ como los pesos que deseamos entrenar.

Método Kernel

Ingrese al reino de los métodos del núcleo y deje que el algoritmo maneje la entrada a través de,

\begin{aligned} s_{yo} & = \sum_{j} W_{yo j} k ({mi}_{j}, X) \end{aligned}

$\begin{align} s_i &= \sum_j W_{ij}~k(e_j,~x) \end{align}$ donde ahora generalizamos a

x, e_{j} \in X

$x, e_j \in \mathcal{X}$ .

Considere un grupo $G$ que actúa sobre $\mathcal{X}$ a través de $x \rightarrow T_g(x)$ para $g \in G$ . Una manera simple de hacer que nuestro algoritmo sea invariable en este grupo es hacer un núcleo,

\begin{aligned} k^{sol} (X, y) & = \frac{1}{El | sol El |} \sum_{sol \in sol} k (X, T_{sol} (y)) \end{aligned}

$\begin{align} k^G(x, y) &= \frac{1}{|G|} \sum_{g \in G} k(x, T_g(y)) \end{align}$ con

k (x, y) = k (T_{g} (x), T_{g} (y))

$k(x, y) = k(T_g(x), T_g(y))$ .

Entonces,

\begin{aligned} k^{sol} (X, T_{h} (y)) & = \frac{1}{El | sol El |} \sum_{sol \in sol} k (X, T_{sol h} (y)) \\ = \frac{1}{El | sol El |} \sum_{sol \in sol} k (X, T_{sol} (y)) \\ = \frac{1}{El | sol El |} \sum_{sol \in sol} k (T_{sol} (X), y) \end{aligned}

$\begin{align} k^G(x, T_h(y)) &= \frac{1}{|G|} \sum_{g \in G} k(x, T_{gh}(y)) \\ &= \frac{1}{|G|} \sum_{g \in G} k(x, T_{g}(y)) \\ &= \frac{1}{|G|} \sum_{g \in G} k(T_{g}(x), y) \end{align}$

Para $k(x, y) = x \cdot y$ que funciona para todas las representaciones unitarias,

\begin{aligned} k^{sol} (X, T_{h} (y)) & = [\frac{1}{El | sol El |} \sum_{sol \in sol} T_{sol} (X)] \cdot y \end{aligned}

$\begin{align} k^G(x, T_h(y)) &= \left[ \frac{1}{|G|} \sum_{g \in G} T_{g}(x) \right] \cdot y \end{align}$

Que ofrece una matriz de transformación que puede simimentar la entrada en el algoritmo.

SO (2) Ejemplo

En realidad, solo el grupo que se asigna a $\frac{\pi}{2}$ rotaciones para simplicidad.

Ejecutemos una regresión lineal en los datos $(\vec{x}_i, y_i) \in \mathbb{R}^2 \times \mathbb{R}$ donde esperamos una simetría rotacional.

Nuestro problema de optimización se convierte,

\begin{aligned} min_{W_{j}} & \sum_{yo} \frac{1}{2} (y_{yo} - {\tilde{y}}_{yo})^{2} \\ {\tilde{y}}_{yo} & = \sum_{j} W_{j} k_{sol} ({mi}_{j}, X_{yo}) + {si}_{yo} \end{aligned}

$\begin{align} \min_{W_{j}} &\sum_i \frac{1}{2} (y_i - \tilde{y}_i)^2 \\ \tilde{y}_i &= \sum_j W_{j} k_G(e_j, x_i) + b_i \end{align}$

$k(x, y) = \| x - y \|^2$ $k(x, y) = k(T_g(x), T_g(y))$ $k(x, y) = x \cdot y$ y una variedad de núcleos.

\begin{aligned} k_{sol} ({mi}_{j}, X_{yo}) & = \frac{1}{4 4} \sum_{norte = 1}^{4 4} ‖ R (norte π / / 2) {\vec{mi}}_{j} - {\vec{X}}_{yo} ‖^{2} \\ = \frac{1}{4 4} \sum_{norte = 1}^{4 4} (\cos (norte π / / 2) - {\vec{X}}_{yo 1})^{2} + (pecado (norte π / / 2) - {\vec{X}}_{yo 2})^{2} \\ = \frac{1}{4 4} [2 {\vec{X}}_{yo 1}^{2} + 2 {\vec{X}}_{yo 2}^{2} + (1 - {\vec{X}}_{yo 1})^{2} + (1 - {\vec{X}}_{yo 2})^{2} + (1 + {\vec{X}}_{yo 1})^{2} + (1 + {\vec{X}}_{yo 2})^{2}] \\ = {\vec{X}}_{yo 1}^{2} + {\vec{X}}_{yo 2}^{2} + 1 \end{aligned}

$\begin{align} k_G(e_j, x_i) &= \frac{1}{4} \sum_{n=1}^4 \| R(n\pi/2)~\vec{e}_j - \vec{x}_i \|^2 \\ &= \frac{1}{4} \sum_{n=1}^4 ( \cos(n\pi/2) - \vec{x}_{i1} )^2 + ( \sin(n\pi/2) - \vec{x}_{i2} )^2 \\ &= \frac{1}{4} \left[ 2 \vec{x}_{i1}^2 + 2 \vec{x}_{i2}^2 + (1 - \vec{x}_{i1} )^2 + (1 - \vec{x}_{i2} )^2 + (1 + \vec{x}_{i1} )^2 + (1 + \vec{x}_{i2} )^2 \right] \\ &= \vec{x}_{i1}^2 + \vec{x}_{i2}^2 + 1 \end{align}$

Tenga en cuenta que no necesitamos sumar más de $j$ porque es lo mismo para ambos. Entonces nuestro problema se convierte,

\begin{aligned} min_{W} & \sum_{yo} \frac{1}{2} (y_{yo} - {\tilde{y}}_{yo})^{2} \\ {\tilde{y}}_{yo} & = W [{\vec{X}}_{yo 1}^{2} + {\vec{X}}_{yo 2}^{2} + 1] + {si}_{yo} \end{aligned}

$\begin{align} \min_{W} &\sum_i \frac{1}{2} (y_i - \tilde{y}_i)^2 \\ \tilde{y}_i &= W \left[ \vec{x}_{i1}^2 + \vec{x}_{i2}^2 + 1 \right] + b_i \end{align}$

¡Lo que produce la simetría esférica esperada!

Tic-Tac-Toe

El código de ejemplo se puede ver aquí . Muestra cómo podemos crear una matriz que codifique la simetría y usarla. Tenga en cuenta que esto es realmente malo cuando realmente lo ejecuto. Trabajando con otros núcleos en este momento.

— aidan.plenert.macdonald
fuente

Buen trabajo, Aidan! Si tiene tiempo, puede escribir una publicación de blog más detallada. La comunidad estará más interesada.

— Emre

Not sure what community you are referring to, but I started writing more. I wanted to find a way to estimate the optimal kernel given a set of data. So I optimized entropy on kernel space to intuitively get a new set of features that are symmetrically constrained and also maximally entropic (ie. informative). Now whether that it the right approach. I can't say. Just a warning, the math is a bit of a hack job right now and kind of straight out of stat mech. overleaf.com/read/kdfzdbyhpbbq

— aidan.plenert.macdonald

Is there any meaningful approach when the symmetry group is not known?

— leitasat

@leitasat How do you know it's symmetric if you don't know the group?

— aidan.plenert.macdonald

@aidan.plenert.macdonald from the data. Let's say we have 1000 sets of 100 pictures each, and within each set there are pictures of one object from different viewpoints. Can any algorithm "learn the idea" of SO(3) symmetry and use it on previously unseen objects?

— leitasat

Turns out this is just the study of Invariant Theory applied to Machine Learning

— aidan.plenert.macdonald
fuente