Escuché a Andrew Ng (en un video que desafortunadamente ya no puedo encontrar) hablar sobre cómo la comprensión de los mínimos locales en problemas de aprendizaje profundo ha cambiado en el sentido de que ahora se consideran menos problemáticos porque en espacios de alta dimensión (encontrados en aprendizaje profundo) es más probable que los puntos críticos sean puntos de silla de montar o mesetas en lugar de mínimos locales.
He visto documentos (por ejemplo, este ) que discuten supuestos bajo los cuales "cada mínimo local es un mínimo global". Estos supuestos son bastante técnicos, pero por lo que entiendo, tienden a imponer una estructura en la red neuronal que la hace algo lineal.
¿Es una afirmación válida que, en el aprendizaje profundo (incl. Arquitecturas no lineales), las mesetas son más probables que los mínimos locales? Y si es así, ¿hay una intuición (posiblemente matemática) detrás de esto?
¿Hay algo en particular sobre el aprendizaje profundo y los puntos de silla?