¿Qué es el entrenamiento previo y cómo se entrena una red neuronal?

10

Entiendo que el entrenamiento previo se usa para evitar algunos de los problemas con la capacitación convencional. Si uso la retropropagación con, por ejemplo, un codificador automático, sé que voy a encontrar problemas de tiempo porque la retropropagación es lenta, y también que puedo quedar atrapado en los óptimos locales y no aprender ciertas características.

Lo que no entiendo es cómo preentrenamos una red y qué hacemos específicamente para preentrenar. Por ejemplo, si nos dan una pila de máquinas Boltzmann restringidas, ¿cómo podríamos entrenar esta red?

— Michael Yousef
fuente

2

A menos que se encuentre en un entorno con solo unas pocas muestras etiquetadas y muchas no etiquetadas, el entrenamiento previo se considera obsoleto. Si ese no es el caso, el uso de una función de transferencia de rectificador y optimizadores avanzados (rmsprop, adadelta, adam) funciona igualmente bien para redes neuronales profundas.

f (x) = max (x, 0)

$f(x) = \max(x, 0)$

— bayerj

Sí, estoy trabajando bajo la suposición de que hay una gran cantidad de muestras sin etiquetar y pocas o ninguna.

— Michael Yousef

2

Comienza entrenando cada RBM en la pila por separado y luego se combina en un nuevo modelo que se puede ajustar aún más.

Supongamos que tiene 3 RBM, entrena RBM1 con sus datos (por ejemplo, un montón de imágenes). RBM2 está entrenado con la salida de RBM1. RBM3 está entrenado con la salida de RBM2. La idea es que cada modelo RBM tenga características representativas de las imágenes y los pesos que aprenden al hacerlo son útiles en otras tareas discriminatorias como la clasificación.

— mnagaraj
fuente

0

El entrenamiento previo de un RBM apilado es minimizar con avidez la energía definida, es decir, maximizar la probabilidad. G. Hinton propuso el algoritmo CD-k, que puede verse como una única iteración del muestreo de Gibbs.

— Mou
fuente

Por lo tanto, el entrenamiento previo de la RBM apilada nos permite minimizar la energía definida y obtener mejores resultados. Y luego el algoritmo de divergencia contrastante de Hinton es cómo preentrenaríamos realmente. ¿Cómo influye exactamente la capacitación previa en el aprendizaje de funciones adicionales? Supongo que para el problema de la velocidad, el algoritmo de CD es mucho más rápido que la retropropagación.

— Michael Yousef