La razón por la que el gradiente en línea es útil es para aplicaciones a gran escala. En cualquier caso, ahora hay bibliotecas que lo implementan para que no necesite programarlo. Es una buena manera de aprender cómo funcionan las cosas.
En palabras de Leon Bottou:
El aprendizaje automático a gran escala se abordó por primera vez como un problema de ingeniería. Por ejemplo, para aprovechar un conjunto de entrenamiento más grande, podemos usar una computadora paralela para ejecutar un algoritmo de aprendizaje automático conocido o adaptar métodos numéricos más avanzados para optimizar una función objetivo de aprendizaje automático conocida. Tales enfoques se basan en la suposición atractiva de que uno puede desacoplar los aspectos estadísticos de los aspectos computacionales del problema de aprendizaje automático.
Este trabajo muestra que esta suposición es incorrecta y que abandonarla conduce a algoritmos de aprendizaje considerablemente más efectivos. Un nuevo marco teórico tiene en cuenta el efecto de la optimización aproximada en los algoritmos de aprendizaje.
El análisis muestra compensaciones distintas para el caso de problemas de aprendizaje a pequeña y gran escala. Los problemas de aprendizaje a pequeña escala están sujetos a la aproximación habitual de estimación-compensación. Los problemas de aprendizaje a gran escala están sujetos a una compensación cualitativamente diferente que involucra la complejidad computacional de los algoritmos de optimización subyacentes de manera no trivial. Por ejemplo, los algoritmos de Descenso de gradiente estocástico (SGD) parecen ser algoritmos de optimización mediocres y, sin embargo, muestran un rendimiento extremadamente bueno en problemas de aprendizaje a gran escala.
Aprendizaje a gran escala
proyecto sgd