¿Cómo se puede determinar la tasa de aprendizaje óptima para el descenso de gradiente? Estoy pensando que podría ajustarlo automáticamente si la función de costo devuelve un valor mayor que en la iteración anterior (el algoritmo no convergerá), pero no estoy realmente seguro de qué nuevo valor debería tomar.