¿Una red neuronal de diseño óptimo contiene cero neuronas ReLU "muertas" cuando se entrena?

En general, ¿debería volver a entrenar mi red neuronal con menos neuronas para que tenga menos neuronas ReLU muertas? He leído opiniones contradictorias sobre ReLU muertos. Algunas fuentes dicen que los ReLU muertos son buenos porque fomentan la escasez. Otros dicen que son malos porque los ReLU muertos están muertos para siempre e inhiben el aprendizaje. Hay un termino medio?

machine-learning neural-networks conv-neural-network

— Ryan Zotti
fuente

Hay una diferencia entre las ReLU muertas y las ReLU que son silenciosas en muchas, pero no en todas, las entradas. Las ReLU muertas deben evitarse, mientras que las ReLU en su mayor parte silenciosas pueden ser útiles debido a la escasez que inducen.

Las ReLU muertas han ingresado en un régimen de parámetros donde siempre están en el dominio negativo de la función de activación. Esto podría suceder, por ejemplo, si el sesgo se establece en un valor negativo grande. Debido a que la función de activación es cero para valores negativos, estas unidades son silenciosas para todas las entradas. Cuando un ReLU está en silencio, el gradiente de la función de pérdida con respecto a los parámetros es cero, por lo que no se producirán actualizaciones de parámetros con el aprendizaje basado en gradiente. Debido a que los ReLU muertos son silenciosos para todas las entradas, están atrapados en este régimen.

Contraste esto con un ReLU que es silencioso en muchas pero no en todas las entradas. En este caso, el gradiente sigue siendo cero cuando la unidad está en silencio. Si estamos utilizando un procedimiento de aprendizaje en línea como el descenso de gradiente minibatch / estocástico, no se realizarán actualizaciones de parámetros para las entradas que hacen que la unidad esté en silencio. Pero, las actualizaciones aún son posibles para otras entradas, donde la unidad está activa y el gradiente no es cero.

Debido a que las ReLU muertas son silenciosas para todas las entradas, no contribuyen en nada a la red y se desperdician. Desde una perspectiva teórica de la información, cualquier unidad que tenga el mismo valor de salida para todas las entradas (ya sea cero o no) no lleva información sobre la entrada. Las ReLU en su mayoría silenciosas se comportan de manera diferente para diferentes entradas y, por lo tanto, mantienen la capacidad de transportar información útil.

— usuario20160
fuente