Propósito y determinar cuándo usar capas ocultas

9

Continuando con esta pregunta ...

Estoy tratando de aprender a usar y crear redes neuronales para mi investigación, y un punto se me escapa. Me doy cuenta de que las capas ocultas son una parte algo necesaria de esto, sin embargo, estoy atascado en dos puntos que mis referencias no explican a mi satisfacción:

¿Cuál es el propósito exacto de la capa oculta?
¿Cómo se determina cuántas capas ocultas usar?

Por lo que deduzco, es para "modelar" la funcionalidad del mundo real, pero si es posible me gustaría un poco más de explicación.

ne.neural-evol

— El e
fuente

pero en algún momento me enfrento a que si aumenta las capas ocultas, entonces el problema del sobreajuste viene, por lo que es muy difícil decir cuántas capas ocultas podemos usar. Puede ser un método exitoso y de prueba.

9

Una capa oculta se utiliza para aumentar la expresividad de la red. Permite que la red represente modelos más complejos de lo posible sin la capa oculta.

Elegir la cantidad de capas ocultas, o más generalmente elegir la arquitectura de su red, incluida la cantidad de unidades ocultas en capas ocultas, son decisiones que deben basarse en sus datos de capacitación y validación cruzada. Debe entrenar la red con una cantidad establecida de nodos (para comenzar, pruebe con una capa oculta, con una unidad por unidad de entrada) y pruebe el modelo.

Consulte este enlace para obtener más ayuda: http://www.faqs.org/faqs/ai-faq/neural-nets/part3/section-10.html

— Neal Tibrewala
fuente

1

ese enlace es bastante útil

— the_e

6

Supongo que estamos discutiendo redes neuronales simples de alimentación hacia adelante, es decir, perceptrones multicapa.

La capa oculta es necesaria para capturar dependencias no lineales entre las características de sus datos y la variable que está tratando de predecir. Si no usa una capa oculta, también podría usar regresión lineal (para regresión) o regresión logística (para clasificación).
Al probar varios números de capas ocultas y evaluar qué tan bien funcionan, por ejemplo, en una configuración de validación cruzada. Comúnmente, una capa oculta será suficiente y el rendimiento de NN se optimiza variando su tamaño y la regularización.

Tenga en cuenta que con más de dos capas ocultas, está en un terreno de aprendizaje profundo y probablemente necesite algoritmos personalizados para entrenar su red. La razón es que la retropropagación de vainilla sufre el problema del "gradiente de fuga" en las redes profundas: el gradiente de la función de error se apaga en las capas cercanas a la entrada, y esas capas difícilmente serán entrenadas.

— Fred Foo
fuente