Respuestas:
¡En su mayoría tienes razón! ReLU tiene un problema con la desaparición del gradiente, pero solo en un lado, por lo que lo llamamos de otra manera: el 'problema de muerte de ReLU'. Consulte esta respuesta de desbordamiento de pila para obtener más información: ¿Cuál es el problema de "muerte de ReLU" en las redes neuronales?
Es una pequeña diferencia semántica. Muchas funciones (tanh y logistic / sigmoid) tienen derivados muy cercanos a cero cuando estás fuera del rango operativo estándar. Este es el problema del 'gradiente de fuga'. Cuanto peor se vuelve, más difícil es volver a la zona buena. ReLU no empeora cuanto más lejos está en la dirección positiva, por lo que no hay problema de gradiente de fuga (en ese lado). Esta asimetría podría ser suficiente para justificar llamarlo algo diferente, pero las ideas son bastante similares.
Desaparecer significa que va hacia 0 pero nunca será realmente 0. Tener gradientes de 0 hace cálculos muy fáciles, tener gradientes cercanos a 0 significa que hay cambios, solo muy pequeños, lo que significa aprendizaje lento y problemas numéricos. 1 y 0 son dos de los números más fáciles de calcular en este tipo de problemas de optimización.