Estaba leyendo sobre el optimizador Adam para Deep Learning y encontré la siguiente oración en el nuevo libro Deep Learning de Bengio, Goodfellow y Courville:
En general, se considera que Adam es bastante robusto para la elección de hiperparámetros, aunque a veces la tasa de aprendizaje debe cambiarse del valor predeterminado sugerido.
si esto es cierto, es un gran problema porque la búsqueda de hiperparámetros puede ser realmente importante (al menos en mi experiencia) en el rendimiento estadístico de un sistema de aprendizaje profundo. Por lo tanto, mi pregunta es, ¿por qué Adam Robust tiene parámetros tan importantes? ¿Especialmente y β 2 ?
He leído el artículo de Adam y no proporciona ninguna explicación de por qué funciona con esos parámetros o por qué es robusto. ¿Justifican eso en otra parte?
Además, mientras leo el artículo, parece que el número de hiperparámetros que probaron era muy pequeño, para solo 2 y para β 2 solo 3. ¿Cómo puede ser un estudio empírico exhaustivo si solo funciona en hiperparámetros 2x3? ?