¿Cuál es el supuesto múltiple en el aprendizaje semi-supervisado?

20

Estoy tratando de entender qué significa la suposición múltiple en el aprendizaje semi-supervisado. ¿Alguien puede explicar de una manera simple? No puedo tener la intuición detrás de esto.

Dice que sus datos se encuentran en una variedad de baja dimensión incrustada en un espacio de mayor dimensión. No entendí lo que eso significa.

— usuario34790
fuente

Relacionado: youtube.com/watch?v=C2_5QFQZGvM

— Benjamin Crouzier

38

Imagine que tiene un montón de semillas aseguradas en una placa de vidrio, que descansa horizontalmente sobre una mesa. Debido a la forma en que normalmente pensamos sobre el espacio, sería seguro decir que estas semillas viven en un espacio bidimensional, más o menos, porque cada semilla puede identificarse por los dos números que dan las coordenadas de esa semilla en la superficie de el cristal.

Ahora imagine que toma la placa y la inclina diagonalmente hacia arriba, de modo que la superficie del vidrio ya no sea horizontal con respecto al suelo. Ahora, si desea ubicar una de las semillas, tiene un par de opciones. Si decide ignorar el vidrio, entonces cada semilla parecería estar flotando en el espacio tridimensional sobre la mesa, por lo que necesitaría describir la ubicación de cada semilla usando tres números, uno para cada dirección espacial. Pero con solo inclinar el vidrio, no ha cambiado el hecho de que las semillas aún viven en una superficie bidimensional. Entonces, podría describir cómo se encuentra la superficie del vidrio en el espacio tridimensional, y luego podría describir las ubicaciones de las semillas en el vidrio utilizando sus dos dimensiones originales.

En este experimento mental, la superficie de vidrio es similar a una variedad de baja dimensión que existe en un espacio de dimensión superior: no importa cómo se rota la placa en tres dimensiones, las semillas aún viven a lo largo de la superficie de un plano bidimensional.

Ejemplos

En términos más generales, una variedad de baja dimensión incrustada en un espacio de mayor dimensión es solo un conjunto de puntos que, por cualquier razón, se consideran conectados o son parte del mismo conjunto. En particular, el colector podría estar deformado de alguna manera en el espacio de dimensiones superiores (por ejemplo, tal vez la superficie del vidrio está deformada en forma de cuenco en lugar de forma de placa), pero el colector sigue siendo básicamente de baja dimensión. Especialmente en el espacio de alta dimensión, esta variedad podría tomar muchas formas y formas diferentes, pero debido a que vivimos en un mundo tridimensional, es difícil imaginar ejemplos que tengan más de tres dimensiones. Sin embargo, solo como muestra, considere estos ejemplos:

Un trozo de vidrio (plano, bidimensional) en el espacio físico (tridimensional)
un solo hilo (unidimensional) en una pieza de tela (bidimensional)
un trozo de tela (bidimensional) arrugado en la lavadora (tridimensional)

Los ejemplos comunes de variedades en el aprendizaje automático (o al menos conjuntos hipotéticos para vivir en variedades de baja dimensión) incluyen:

imágenes de escenas naturales (por lo general, no ve imágenes de ruido blanco, por ejemplo, lo que significa que las imágenes "naturales" no ocupan todo el espacio de posibles configuraciones de píxeles)
sonidos naturales (argumento similar)
movimientos humanos (el cuerpo humano tiene cientos de grados de libertad, pero los movimientos parecen vivir en un espacio que se puede representar de manera efectiva utilizando ~ 10 dimensiones)

Aprendiendo lo múltiple

La suposición múltiple en el aprendizaje automático es que, en lugar de suponer que los datos en el mundo podrían provenir de cada parte del espacio posible (por ejemplo, el espacio de todas las imágenes posibles de 1 megapíxel, incluido el ruido blanco), tiene más sentido suponer que los datos de entrenamiento provienen de múltiples dimensiones relativamente bajas (como la placa de vidrio con las semillas). Entonces aprender la estructura de la variedad se convierte en una tarea importante; Además, esta tarea de aprendizaje parece posible sin el uso de datos de entrenamiento etiquetados.

Hay muchas, muchas formas diferentes de aprender la estructura de una variedad de baja dimensión. Uno de los enfoques más utilizados es el PCA, que supone que el colector consiste en una sola "gota" elipsoidal como una forma de panqueque o cigarro, incrustada en un espacio de dimensiones superiores. Técnicas más complicadas como isomap, ICA o codificación dispersa relajan algunos de estos supuestos de varias maneras.

Aprendizaje semi-supervisado

La razón por la cual el supuesto múltiple es importante en el aprendizaje semi-supervisado es doble. Para muchas tareas realistas (por ejemplo, determinar si los píxeles de una imagen muestran un 4 o un 5), hay muchos más datos disponibles en el mundo sin etiquetas (por ejemplo, imágenes que pueden tener dígitos) que con etiquetas (por ejemplo, imágenes que están explícitamente etiquetadas como "4" o "5"). Además, hay muchos órdenes de magnitud más información disponible en los píxeles de las imágenes que en las etiquetas de las imágenes que tienen etiquetas. Pero, como describí anteriormente, las imágenes naturales en realidad no se muestrean a partir de la distribución uniforme sobre las configuraciones de píxeles, por lo que parece probable que haya una variedad que capture la estructura de las imágenes naturales.colector, mientras que las imágenes que contienen 5 también se encuentran en un colector diferente pero cercano, entonces podemos tratar de desarrollar representaciones para cada uno de estos colectores usando solo los datos de píxeles, con la esperanza de que los diferentes colectores se representen usando diferentes características aprendidas de los datos. Luego, más tarde, cuando tengamos algunos bits de datos de etiquetas disponibles, podemos usar esos bits para simplemente aplicar etiquetas a los múltiples ya identificados.

La mayor parte de esta explicación proviene del trabajo en la literatura de aprendizaje profundo y característico. Yoshua Bengio y Yann LeCun - vea el Tutorial de Aprendizaje Basado en Energía tienen argumentos particularmente accesibles en esta área.

— lmjohns3
fuente

1

Esto no responde la pregunta: no está explicando por qué se necesitan múltiples, básicamente está explicando por qué no se necesitan incrustaciones de dimensiones superiores (un subconjunto de incrustaciones de dimensiones superiores no necesita ser una variedad para adaptarse a sus ejemplos).

— Gented

5

Primero, asegúrese de comprender qué es una incrustación. Es prestado de las matemáticas . En términos generales, es un mapeo de los datos en otro espacio (a menudo llamado espacio de incrustación o espacio de características ), conservando cierta estructura o propiedades de los datos. Tenga en cuenta que su dimensionalidad puede ser mayor o menor que el espacio de entrada. En la práctica, el mapeo es complejo y altamente no lineal. Algunos ejemplos:

Un "vector de palabras" con valor real para representar una palabra, como word2vec
Las activaciones de una capa de una red de conexión, como la capa FC7 AlexNet (FC7 es la séptima capa completamente conectada)

Para ilustrar, tomaré un ejemplo de este artículo de Josh Tenenbaum:

La figura 1 ilustra el problema de descubrimiento de características con un ejemplo de percepción visual. El conjunto de vistas de una cara desde todos los puntos de vista posibles es un conjunto de datos de dimensiones extremadamente altas cuando se representa como conjuntos de imágenes en una computadora o en una retina; por ejemplo, las imágenes en escala de grises de 32 x 32 píxeles pueden considerarse como puntos en un espacio de observación de 1.024 dimensiones [espacio de entrada] . La estructura perceptivamente significativa de estas imágenes [espacio de características] , sin embargo, tiene una dimensionalidad mucho menor; Todas las imágenes de la Fig. 1 se encuentran en un colector bidimensional parametrizado por el ángulo de visión.

Josh Tenenbaum luego analiza las dificultades de aprender tal mapeo desde la entrada hasta el espacio de características. Pero volvamos a la pregunta: estamos interesados en cómo se relacionan los espacios de entrada y función.

El 32*32 array of grey pixel valueses el espacio de entrada
El [x1=elevation, x2=azimuth]espacio es el espacio de características (aunque simplista, puede considerarse como un espacio de inserción válido).

Reexpresando la hipótesis múltiple (citando este gran artículo ):

La hipótesis múltiple es que los datos naturales forman múltiples dimensiones inferiores en su espacio de inclusión

Con este ejemplo, queda claro que la dimensionalidad del espacio de inclusión es mucho menor que el espacio de entrada: 2 frente a 1024. (Esta distinción se mantendrá incluso para las opciones de mayor dimensión, espacios de inclusión menos simplistas).

Para convencerse de que la incrustación forma una variedad, los invito a leer el resto del artículo en papel de Tenenbaum o el artículo de Colah .

Nota: esto es solo una ilustración de lo que significa la hipótesis múltiple, no un argumento de por qué sucede .

Relacionado: Explicación de vectores de palabras , papel de word2vec

— Benjamin Crouzier
fuente