He estado leyendo mucho sobre redes neuronales convolucionales y me preguntaba cómo evitan el problema del gradiente de fuga. Sé que las redes de creencias profundas apilan codificadores automáticos de un solo nivel u otras redes poco profundas previamente entrenadas y, por lo tanto, puedo evitar este problema, pero no sé cómo se evita en las CNN.
De acuerdo con Wikipedia :
"a pesar del" problema de gradiente de fuga "mencionado anteriormente, la potencia de procesamiento superior de las GPU hace posible la propagación inversa simple para redes neuronales de alimentación profunda con muchas capas".
No entiendo por qué el procesamiento de GPU eliminaría este problema.
GPU's are fast correlated with vanishing gradients
, puedo entender la lógica rápida con gran ancho de banda de memoria para procesar múltiples multiplicaciones de matriz! pero, ¿podría explicar qué tiene que ver con los derivados? El problema del gradiente de fuga parece hacer más con la inicialización del peso , ¿no es así?