¿Cómo utilizar GAN para la extracción de funciones sin supervisión de imágenes?


10

He entendido cómo funciona GAN, mientras que dos redes (generativa y discriminativa) compiten entre sí. He creado un DCGAN (GAN con discriminador convolucional y generador desconvolucional) que ahora genera con éxito dígitos escritos a mano similares a los del conjunto de datos MNIST.

He leído mucho sobre las aplicaciones de GAN para extraer características de las imágenes. ¿Cómo puedo usar mi modelo GAN entrenado (en el conjunto de datos MNIST) para extraer la función de las imágenes escritas a mano MNIST?


Para la extracción de características, obtengo el tamaño de la característica de 128 * 120 (es decir, 64 + 32 + 16 + 8) = 15360. Estoy seguro de que me falta algo. Tengo otra pregunta con respecto a la elección del vector de características. ¿Debo considerar los pesos (conv2d + batchnorm + activación) o solo los pesos conv2d durante la extracción de características?
Tanmoy Dam el

Respuestas:


4

Por lo general, para extraer funciones, puede usar la capa superior de la red antes de la salida. La intuición es que estas características son linealmente separables porque la capa superior es solo una regresión logística.

Para las GAN, puede usar las funciones del discriminador. Se supone que estas características dan una probabilidad si la entrada proviene del conjunto de datos de entrenamiento, "imágenes reales". En el documento DCGAN de Radford , utilizan todas las capas convolucionales del discriminador y ejecutan un extracto de capa de agrupación máxima para CIFAR-10.

Para evaluar la calidad de las representaciones aprendidas por DCGAN para tareas supervisadas, entrenamos en Imagenet-1k y luego usamos las características convolucionales del discriminador de todas las capas, agrupando cada representación de capas para producir una cuadrícula espacial de 4 × 4. Estas características se aplanan y concatenan para formar un vector dimensional 28672 y un clasificador lineal regular L2-SVM se entrena encima de ellas.


1

La respuesta de Kenny es correcta: si está utilizando D convolucional , la salida de capas antes de densas puede servir como características. Mi intuición es que funcionará mejor para AC-GAN (o arquitecturas similares, que hacen que D clasifique la entrada además de determinar si es falsa o real).

Existe un enfoque llamado BiGAN que agrega un componente Encoder capaz de mapear muestras generadas y de entrenamiento a la distribución latente z utilizada para "inicializar" el generador. Los autores muestran que puede usarse efectivamente como un conjunto de características para el aprendizaje de transferencia y otras tareas.


0

Como la GAN consta de dos partes: el generador y el discriminador, hay dos formas de utilizar GAN como extractor de funciones:

  1. Generador basado en la forma presentada por Mikhail Yurasov.
  2. Discriminador basado en la forma presentada por Kenny.

La segunda forma es más controvertida. Algunos estudios [1] pensaron que, intuitivamente, como el objetivo del discriminador es distinguir las muestras generadas de las muestras reales, solo se centrará en la diferencia entre estos dos tipos de muestras. Pero lo que tiene sentido es la diferencia entre las muestras reales, que son las muestras utilizadas por las tareas posteriores.

Intenté estudiar esto y descubrí que la característica extraída se puede factorizar en dos subespacios ortogonales . El primer espacio contribuye a la tarea discriminadora, mientras que el segundo está libre de ella. Como en la mayoría de los casos, las características utilizadas para distinguir las muestras reales de las generadas son ruido, el segundo espacio de características estará libre de ruido. Desde esta perspectiva, aunque la tarea del discriminador no se centrará en la diferencia entre muestras reales, que son útiles para las tareas posteriores, las funciones libres de ruido contenidas en el segundo subespacio funcionarán.

[1] Jost Tobias Springenberg. Aprendizaje no supervisado y semi-supervisado con redes adversas generativas categóricas. arXiv: 1511.06390 [cs, stat], abril de 2016. preimpresión de arXiv. arXiv: 1511.06390 [stat.ML]. Ithaca, Nueva York: Biblioteca de la Universidad de Cornell.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.