¿Pre-entrenamiento en redes neuronales convolucionales profundas?

33

¿Alguien ha visto alguna literatura sobre pre-entrenamiento en redes neuronales convolucionales profundas? Solo he visto pre-entrenamiento sin supervisión en autoencoder o máquinas boltzman restringidas.

— RockTheStar
fuente

39

No estoy seguro de si esto responde exactamente a su pregunta, pero por lo que entiendo la razón por la que no ve a la gente entrenando ( quiero decir esto en un sentido de entrenamiento no supervisado ) las redes se deben a que ha habido varias innovaciones en la capacitación supervisada puramente. han hecho innecesaria la capacitación sin supervisión (por ahora, ¿quién sabe qué problemas y problemas tendrá el futuro?).

Una de las principales innovaciones fue alejarse de las unidades de activación sigmoideas (sigmoides, tanh), que pueden saturar / tener regiones de curvatura casi plana y, por lo tanto, muy poco gradiente se propaga hacia atrás, por lo que el aprendizaje es increíblemente lento si no se detiene por completo para todos los intentos prácticos. y propósitos. El artículo de Glorot, Bordes y Bengio Las Redes Neurales del Rectificador Profundo Escaso utilizaron unidades lineales rectificadas (ReLU) como funciones de activación en lugar de las unidades sigmoidales tradicionales. Las ReLU tienen la siguiente forma: . Tenga en cuenta que son ilimitados y para la parte positiva, tiene un gradiente constante 1. $f(x) = \max(0, x)$

$f(x) = |\tanh(x)|$

Otra innovación es que hemos descubierto inicializaciones mucho mejores para redes profundas. Utilizando la idea de estandarizar la varianza entre las capas de una red, a lo largo de los años se han establecido buenas reglas generales. Uno de los primeros y más populares fue por Glorot y Bengio Comprender la dificultad de entrenar redes de alimentación profunda que proporcionaron una forma de inicializar redes profundas bajo una hipótesis de activación lineal y más adelante Profundizando en rectificadorespor un grupo de miembros del equipo de Microsoft Research que modifica la inicialización de peso Glorot y Bengio para dar cuenta de las no linealidades rectificadoras. La inicialización del peso es un gran problema para las redes extremadamente profundas. Para una red de 30 capas, la inicialización de peso de MSR se desempeñó mucho mejor que la inicialización de peso de Glorot. Tenga en cuenta que el documento Glorot salió en 2010 y el documento MSR salió en 2015.

No estoy seguro de si el documento de Clasificación de ImageNet con redes neuronales convolucionales profundas de Alex Krizhevsky, Ilya Sutskever y Geoff Hinton fue el primero en usar ReLU para redes de comunicación, pero tuvo el mayor impacto. En este artículo, vemos que las ReLU para redes aceleran el aprendizaje, como lo demuestra uno de sus gráficos CIFAR-10 que muestra que las redes ReLU pueden lograr tasas de error de entrenamiento más bajas que las redes que no son ReLU. Estas ReLU no sufren el gradiente de fuga / problemas sigmoidales de saturación y pueden usarse para entrenar redes mucho más profundas. Una de las otras grandes innovaciones ha sido el uso del entrenamiento Dropout, una inyección de ruido estocástico o una técnica de promediación de modelos (dependiendo de su punto de vista) que nos permite entrenar redes neuronales más grandes y profundas por más tiempo sin sobreajustar.

Y la innovación de la red continua continuó a un ritmo vertiginoso, casi todos los métodos que utilizan ReLU (o alguna modificación como PReLU de Microsoft Research), abandono y capacitación puramente supervisada (SGD + Momentum, posiblemente algunas técnicas de tasa de aprendizaje adaptativo como RMSProp o ADAGrad )

Por lo tanto, a partir de ahora, muchas de las redes de alto rendimiento parecen ser de naturaleza puramente supervisada. Eso no quiere decir que el entrenamiento previo sin supervisión o el uso de técnicas sin supervisión pueden no ser importantes en el futuro. Pero algunas redes increíblemente profundas han sido entrenadas, han igualado o superado el rendimiento a nivel humano en conjuntos de datos muy ricos, solo usando entrenamiento supervisado. De hecho, creo que la última presentación de Microsoft Research para el concurso ImageNet 2015 tenía 150 capas. Eso no es un error tipográfico. 150

Si desea utilizar el entrenamiento previo sin supervisión para redes de convivencia, creo que sería mejor encontrar una tarea en la que el entrenamiento supervisado "estándar" de redes de convivencia no funcione tan bien e intente el entrenamiento previo sin supervisión.

A diferencia del modelado en lenguaje natural, parece ser difícil encontrar una tarea sin supervisión que ayude a una tarea supervisada correspondiente cuando se trata de datos de imágenes. Pero si mira lo suficiente en Internet, verá que algunos de los pioneros del aprendizaje profundo (Yoshua Bengio, Yann LeCun, por nombrar algunos) hablan sobre lo importante que creen que es y será el aprendizaje no supervisado.

— AI independiente
fuente

1

He visto en el tutorial de Stanford en ConvNet que hay capacitación previa en redes neuronales convolucionales. aquí está el enlace: cs231n.github.io/transfer-learning ¿Son diferentes? ya que en realidad están haciendo lo mismo ¿verdad?

— Rika

2

Hola, lamento la respuesta tardía. El aprendizaje de transferencia se hace mucho. Se utiliza para evitar la tediosa tarea de entrenar desde cero y, en su lugar, usar características formadas en un gran conjunto de datos como ImageNet, y en su lugar solo entrenamos un clasificador además de esas características. He actualizado mi respuesta para especificar que en estos días no se ve mucha capacitación previa sin supervisión , que no es lo mismo que el aprendizaje de transferencia. Gracias por el comentario.

— Indie AI

+1. Muy buena respuesta. Lo que me estoy perdiendo es una discusión o comentario sobre si lo que está diciendo (es decir, que no hay necesidad de entrenar previamente) se aplica específicamente a las redes neuronales convolucionales (si es así, ¿por qué?) Oa redes profundas, incluidas las no convolucionales

— ameba dice Reinstate Monica

14

Como se puede entender a partir de las respuestas anteriores, el pre-entrenamiento fue 'diseñado' cuando sucedieron múltiples cosas. Sin embargo, quiero destilar mi comprensión al respecto:

Hace mucho tiempo, en 2010, todos se preocupaban por la capacitación previa. Aquí hay un gran artículo sobre el tema que no vi mencionado.
Un poco antes de que Alex Krizhevsky, Ilya Sutskever y Geoff Hinton publicaran su documento de imagen, las personas todavía creían que las características importaban, pero se centraron principalmente en el aprendizaje no supervisado e incluso en el aprendizaje autodidacta para fabricar esas características.
No es difícil ver por qué: los componentes básicos de las redes neuronales en ese momento no eran tan robustos y convergían muy lentamente a características útiles. Muchas veces incluso fallaron espectacularmente. La capacitación previa fue útil cuando tenía suficientes datos para obtener una buena inicialización de SGD.
Cuando surgió relu, las redes convergieron más rápido. Cuando surgieron relu fugas y soluciones más recientes, las redes neuronales se convirtieron en máquinas más robustas a la hora de converger a un resultado viable. Te recomiendo que juegues con una excelente demostración de redes neuronales que escribió este talentoso googler , verás de lo que estoy hablando.
Llegar a nuestro punto principal, eso no quiere decir que alguna forma de Pre-entrenamiento no es importante en el aprendizaje profundo. Si desea obtener resultados de última generación, debe realizar el preprocesamiento de los datos (ZCA, por ejemplo) y elegir adecuadamente los pesos iniciales; este es un documento muy bueno sobre el tema .

Como puede ver, el entrenamiento previo cambió de forma a preprocesamiento e inicialización de pesos, pero permaneció en funcionamiento y se volvió más elegante.

Como nota final, el aprendizaje automático está muy de moda. Estoy personalmente apostando como Andrew Ng a que el aprendizaje no supervisado y autodidacta será dominante en el futuro, así que no hagas de esto una religión :)

— rhadar
fuente

13

Hay algunos documentos pero no tanto como autoencoders o RBM. Creo que la razón es la línea de tiempo de NN. RBM apilado y autoencoder se introducen en 2006 y 2007 , respectivamente. Después del empleo de ReLU en 2009, el aprendizaje no supervisado se abandona parcialmente (cuando hay suficientes datos para aprender en el aprendizaje supervisado directo). A pesar de que Convolution net (o LeNet) se inventó en 1989 , no pudo entrenarse como estructura profunda hasta 2012, que es después de la popularización del aprendizaje supervisado directo con ReLU. Entonces, los investigadores, supongo, lo han entrenado principalmente mediante el aprendizaje directo supervisado.

— yasin.yazici
fuente

Entonces, ¿está de acuerdo en que todavía no hay capacitación previa en una red neuronal convolucional profunda?

— RockTheStar

44

@RockTheStar no, hay pero no tanto como los dos anteriores. research.microsoft.com/pubs/200804/CNN-Interspeech2013_pub.pdf esta investigación lo ha utilizado. Aquí hay una breve cita; "Observamos que el entrenamiento previo mejora tanto el DNN como el CNN, excepto el CNN en TIMIT donde el entrenamiento previo no ayudó. En general, la mejora relativa del uso del entrenamiento previo para el CNN es menor que eso en el DNN".

— yasin.yazici