Los autoencoders apilados y las redes neuronales multicapa son diferentes. En la práctica, las dos redes compartirán pesos y posiblemente compartirán memorias intermedias. Entonces, en su implementación, las dos redes se entrelazan.
Por lo general, los codificadores automáticos se entrenan de manera no supervisada, codiciosa y en capas. (Sin etiquetas, comience a entrenar solo con la primera capa de la red y luego agregue nuevas capas a medida que avanza). Los pesos se pueden aprender usando una variedad de técnicas que van desde el descenso de gradiente "por lotes" (no haga eso), al descenso de gradiente estocástico mini-lote (SGD), a métodos cuasi-Newton como L-BFGS.
La idea es que los pesos aprendidos de manera no supervisada para minimizar el error de reconstrucción para la tarea de aprendizaje de representación ofrecen un buen punto de partida para inicializar una red para una tarea discriminatoria supervisada como la clasificación o similitud. Es decir, la red aprende algo sobre la distribución subyacente al observar los datos no etiquetados, lo que le permite discriminar entre datos etiquetados. Sin embargo, los pesos aún deben "ajustarse" para esta nueva tarea. Por lo tanto, agregue una capa de regresión logística en la parte superior de la red y luego realice el aprendizaje supervisado con un conjunto de datos etiquetado. El paso de ajuste fino hará un descenso de gradiente y ajustará los pesos para todos capas en la red simultáneamente.
Las ventajas de esta forma de entrenar redes neuronales son:
- La capacitación no supervisada le permite mostrar a la red más datos porque es mucho más fácil obtener grandes conjuntos de datos no supervisados que obtener etiquetas.
- Puede utilizar la red pre-entrenada como un "punto de partida" para entrenar a nuevos clasificadores para que no tenga que comenzar desde cero cada vez.
Para el artículo, vea Autoencoders de eliminación de ruido apilados: Aprendizaje de representaciones útiles en una red profunda con un criterio de eliminación de ruido local .