3
Descenso de gradiente por lotes versus descenso de gradiente estocástico
Supongamos que tenemos un conjunto de entrenamiento para . Supongamos también que ejecutamos algún tipo de algoritmo de aprendizaje supervisado en el conjunto de entrenamiento. Las hipótesis se representan como . Necesitamos encontrar los parámetros que minimicen la "distancia" entre y . Deje(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,metroi = 1, \dots, mhθ( x( i …