Entiendo que el entrenamiento previo se usa para evitar algunos de los problemas con la capacitación convencional. Si uso la retropropagación con, por ejemplo, un codificador automático, sé que voy a encontrar problemas de tiempo porque la retropropagación es lenta, y también que puedo quedar atrapado en los óptimos locales y no aprender ciertas características.
Lo que no entiendo es cómo preentrenamos una red y qué hacemos específicamente para preentrenar. Por ejemplo, si nos dan una pila de máquinas Boltzmann restringidas, ¿cómo podríamos entrenar esta red?