Aproximación de segundo orden de la función de pérdida (Libro de aprendizaje profundo, 7.33)

En el libro de Goodfellow (2016) sobre aprendizaje profundo, habló sobre la equivalencia de la parada temprana a la regularización L2 ( https://www.deeplearningbook.org/contents/regularization.html página 247).

La aproximación cuadrática de la función de costo viene dada por: $j$

\hat{J} (θ) = J (w^{*}) + \frac{1}{2} (w - w^{*})^{T} H (w - w^{*})

$\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*)$

donde es la matriz de Hesse (Ec. 7.33). ¿Falta esto el término medio? La expansión de Taylor debe ser: $H$

f (w + ϵ) = f (w) + f^{'} (w) \cdot ϵ + \frac{1}{2} f^{″} (w) \cdot ϵ^{2}

$f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2$

neural-networks deep-learning loss-functions derivative

— Steve
fuente

Hablan sobre los pesos óptimos:

Podemos modelar la función de costo con una aproximación cuadrática en la vecindad del valor empíricamente óptimo de los pesos $J$ $w^∗$

En ese punto, la primera derivada es cero; por lo tanto, el término medio queda excluido.

— Jan Kukacka
fuente