Documento: ¿Cuál es la diferencia entre Normalización de capa, Normalización de lote recurrente (2016) y RNN normalizado de lote (2015)?

Entonces, recientemente hay un documento de Normalización de capa . También hay una implementación en Keras.

Pero recuerdo que hay documentos titulados Recurrent Batch Normalization (Cooijmans, 2016) y Batch Normalized Recurrent Neural Networks (Laurent, 2015). ¿Cuál es la diferencia entre esos tres?

Existe esta sección de Trabajo relacionado que no entiendo:

La normalización por lotes se ha extendido previamente a redes neuronales recurrentes [Laurent et al., 2015, Amodei et al., 2015, Cooijmans et al., 2016]. El trabajo anterior [Cooijmans et al., 2016] sugiere que el mejor rendimiento de la normalización recurrente de lotes se obtiene al mantener estadísticas de normalización independientes para cada paso de tiempo. Los autores muestran que inicializar el parámetro de ganancia en la capa de normalización de lote recurrente a 0.1 hace una diferencia significativa en el rendimiento final del modelo. Nuestro trabajo también está relacionado con la normalización del peso [Salimans y Kingma, 2016]. En la normalización del peso, en lugar de la varianza, la norma L2 de los pesos entrantes se utiliza para normalizar las entradas sumadas a una neurona.. La aplicación de la normalización de peso o la normalización por lotes utilizando las estadísticas esperadas es equivalente a tener una parametrización diferente de la red neuronal de alimentación original. La re-parametrización en la red ReLU se estudió en el SGD Pathnormalized [Neyshabur et al., 2015]. Nuestro método de normalización de capa propuesto, sin embargo, no es una re-parametrización de la red neuronal original. El modelo de capa normalizada, por lo tanto, tiene diferentes propiedades de invariancia que los otros métodos , que estudiaremos en la siguiente sección

— rilut
fuente

Normalización de capa ( Ba 2016 ): no utiliza estadísticas de lote. Normalice utilizando las estadísticas recopiladas de todas las unidades dentro de una capa de la muestra actual. No funciona bien con ConvNets.
Normalización por lotes recurrente (BN) ( Cooijmans, 2016 ; también propuesto simultáneamente por Qianli Liao y Tomaso Poggio , pero probado en ConvNets recurrentes, en lugar de RNN / LSTM): igual que la normalización por lotes. Utilice diferentes estadísticas de normalización para cada paso de tiempo. Debe almacenar un conjunto de desviaciones medias y estándar para cada paso de tiempo.
Redes neuronales recurrentes normalizadas por lotes ( Laurent, 2015 ): la normalización por lotes solo se aplica entre la entrada y el estado oculto, pero no entre los estados ocultos. es decir, la normalización no se aplica con el tiempo.
Streaming Normalization ( Liao et al.2016 ): resume las normalizaciones existentes y supera la mayoría de los problemas mencionados anteriormente. Funciona bien con ConvNets, aprendizaje recurrente y aprendizaje en línea (es decir, mini-lote pequeño o una muestra a la vez):
Normalización del peso ( Salimans y Kingma 2016 ): cada vez que se usa un peso, se divide primero por su norma , de modo que el peso resultante tenga la norma . Es decir, salida , donde y denotan la entrada y el peso respectivamente. Luego se multiplica un factor de escala escalar a la salida . Pero en mi experiencia, no parece esencial para el rendimiento (de todos modos, las capas que se pueden aprender aguas abajo pueden aprender esto de todos modos). $L2$ $L2$ $1$ $y = x*(w/|w|)$ $x$ $w$ $g$ $y = y*g$ $g$
Normalización del coseno ( Luo et al.2017 ): la normalización del peso es muy similar a la normalización del coseno, donde se aplica la misma normalización tanto al peso como a la entrada: . Una vez más, la diferenciación manual o automático puede calcular gradientes apropiados de y . $L2$ $y = (x/|x|)*(w/|w|)$ $x$ $w$

Tenga en cuenta que tanto la Normalización del peso como el Coseno se han utilizado ampliamente (llamado producto de punto normalizado) en la década de 2000 en una clase de ConvNets llamada HMAX (Riesenhuber 1999) para modelar la visión biológica. Puedes encontrarlos interesantes.

Ref: La referencia del modelo HMAX

Ref: Referencia del simulador de red cortical

Ref: Normalización del coseno: uso de la similitud del coseno en lugar del producto de puntos en las redes neuronales , Luo Chunjie, Zhan jianfeng, Wang lei, Yang Qiang

— NeuralWorks
fuente