Estoy viendo cómo implementar el abandono en la red neuronal profunda, y encontré algo contradictorio. En la fase de avance, las activaciones de máscara de abandono con un tensor aleatorio de 1s y 0s obligan a net a aprender el promedio de los pesos. Esto ayuda a la red a generalizar mejor. Pero durante la fase de actualización del descenso del gradiente, las activaciones no están enmascaradas. Esto para mí parece contrario a la intuición. Si enmascaro las activaciones de conexiones con desconexión, ¿por qué no debería enmascarar la fase de descenso del gradiente?