¿Cómo derivar errores en la red neuronal con el algoritmo de retropropagación?

De este video de Andrew Ng alrededor de las 5:00

ingrese la descripción de la imagen aquí

¿Cómo se y ? De hecho, ¿qué significa ? se obtiene al comparar con y, no es posible tal comparación para la salida de una capa oculta, ¿verdad? $\delta_3$ $\delta_2$ $\delta_3$ $\delta_4$

machine-learning neural-networks backpropagation

— qed
fuente

El enlace del video no funciona. Por favor, actualícelo o proporcione un enlace al curso. Gracias.

— MadHatter

Voy a responder su pregunta sobre el , pero recuerde que su pregunta es una subpregunta de una pregunta más grande que es por qué: $\delta_i^{(l)}$

\nabla_{i j}^{(l)} = \sum_{k} θ_{k i}^{(l + 1)} δ_{k}^{(l + 1)} * (a_{i}^{(l)} (1 - a_{i}^{(l)})) * a_{j}^{(l - 1)}

$\nabla_{ij}^{(l)} = \sum_k \theta_{ki}^{(l+1)}\delta_k^{(l+1)}*(a_i^{(l)}(1-a_i^{(l)})) * a_j^{(l-1)}$

Recordatorio sobre los pasos en las redes neuronales:

Paso 1: propagación hacia adelante (cálculo de ) $a_{i}^{(l)}$
Paso 2a: propagación hacia atrás: cálculo de los errores $\delta_{i}^{(l)}$
Paso 2b: propagación hacia atrás: cálculo del gradiente de J ( ) utilizando los errores y , $\nabla_{ij}^{(l)}$ $\Theta$ $\delta_{i}^{(l+1)}$ $a_{i}^{(l)}$
Paso 3: descenso del gradiente: calcule el nuevo utilizando los gradientes $\theta_{ij}^{(l)}$ $\nabla_{ij}^{(l)}$

En primer lugar, para entender lo que el son $\delta_i^{(l)}$ , lo que representan y por qué Andrew GN que hablar de ellos , es necesario comprender lo que Andrew está haciendo realidad en ese pointand por qué hacemos todos estos cálculos: él es el cálculo de la gradiente de $\nabla_{ij}^{(l)}$ $\theta_{ij}^{(l)}$ para ser utilizado en el algoritmo de descenso de gradiente.

El gradiente se define como:

\nabla_{yo j}^{(l)} = \frac{\partial C}{\partial θ_{yo j}^{(l)}}

$\nabla_{ij}^{(l)} = \dfrac {\partial C} {\partial \theta_{ij}^{(l)}}$

Como realmente no podemos resolver esta fórmula directamente, vamos a modificarla con DOS TRUCOS MÁGICOS para llegar a una fórmula que realmente podamos calcular. Esta fórmula utilizable final es:

\nabla_{yo j}^{(l)} = θ^{(l + 1)^{T}} δ^{(l + 1)} . * ({una}_{yo}^{(l)} (1 - {una}_{yo}^{(l)})) * {una}_{j}^{(l - 1)}

$\nabla_{ij}^{(l)} = \theta^{(l+1)^T}\delta^{(l+1)}.*(a_i^{(l)}(1-a_i^{(l)})) * a_j^{(l-1)}$

Para llegar a este resultado, el PRIMER TRUCO MÁGICO es que podemos escribir el gradiente de usando : $\nabla_{ij}^{(l)}$ $\theta_{ij}^{(l)}$ $\delta_i^{(l)}$

\nabla_{i j}^{(l)} = δ_{i}^{(l)} * a_{j}^{(l - 1)}

$\nabla_{ij}^{(l)} = \delta_i^{(l)} * a_j^{(l-1)}$ Con definido (solo para el índice L) como:

δ_{i}^{(L)}

$\delta_i^{(L)}$

δ_{i}^{(L)} = \frac{\partial C}{\partial z_{i}^{(l)}}

$\delta_i^{(L)} = \dfrac {\partial C} {\partial z_i^{(l)}}$

Y luego el SEGUNDO TRUCO MÁGICO usando la relación entre y , para definir los otros índices, $\delta_i^{(l)}$ $\delta_i^{(l+1)}$

δ_{i}^{(l)} = θ^{(l + 1)^{T}} δ^{(l + 1)} . * (a_{i}^{(l)} (1 - a_{i}^{(l)}))

$\delta_i^{(l)} = \theta^{(l+1)^T}\delta^{(l+1)}.*(a_i^{(l)}(1-a_i^{(l)}))$

Y como dije, finalmente podemos escribir una fórmula para la cual conocemos todos los términos:

\nabla_{i j}^{(l)} = θ^{(l + 1)^{T}} δ^{(l + 1)} . * (a_{i}^{(l)} (1 - a_{i}^{(l)})) * a_{j}^{(l - 1)}

$\nabla_{ij}^{(l)} = \theta^{(l+1)^T}\delta^{(l+1)}.*(a_i^{(l)}(1-a_i^{(l)})) * a_j^{(l-1)}$

DEMOSTRACIÓN del PRIMER TRUCO MÁGICO: $\nabla_{ij}^{(l)} = \delta_i^{(l)} * a_j^{(l-1)}$

Definimos:

\nabla_{i j}^{(l)} = \frac{\partial C}{\partial θ_{i j}^{(l)}}

$\nabla_{ij}^{(l)} = \dfrac {\partial C} {\partial \theta_{ij}^{(l)}}$

La regla de cadena para dimensiones superiores (REALMENTE debería leer esta propiedad de la regla de cadena) nos permite escribir:

\nabla_{i j}^{(l)} = \sum_{k} \frac{\partial C}{\partial z_{k}^{(l)}} * \frac{\partial z_{k}^{(l)}}{\partial θ_{i j}^{(l)}}

$\nabla_{ij}^{(l)} = \sum_k \dfrac {\partial C} {\partial z_k^{(l)}} * \dfrac {\partial z_k^{(l)}} {\partial \theta_{ij}^{(l)}}$

Sin embargo, como:

z_{k}^{(l)} = \sum_{m} θ_{k m}^{(l)} * a_{m}^{(l - 1)}

$z_k^{(l)} = \sum_m \theta_{km}^{(l)} * a_m^{(l-1)}$

Entonces podemos escribir:

\frac{\partial z_{k}^{(l)}}{\partial θ_{i j}^{(l)}} = \frac{\partial}{\partial θ_{i j}^{(l)}} \sum_{m} θ_{k m}^{(l)} * a_{m}^{(l - 1)}

$\dfrac {\partial z_k^{(l)}} {\partial \theta_{ij}^{(l)}} = \dfrac {\partial}{\partial \theta_{ij}^{(l)}} \sum_m \theta_{km}^{(l)} * a_m^{(l-1)}$

Debido a la linealidad de la diferenciación [(u + v) '= u' + v '], podemos escribir:

\frac{\partial z_{k}^{(l)}}{\partial θ_{i j}^{(l)}} = \sum_{m} \frac{\partial θ_{k m}^{(l)}}{\partial θ_{i j}^{(l)}} * a_{m}^{(l - 1)}

$\dfrac {\partial z_k^{(l)}} {\partial \theta_{ij}^{(l)}} = \sum_m\dfrac {\partial\theta_{km}^{(l)}} {\partial \theta_{ij}^{(l)}}* a_m^{(l-1)}$

con:

i f k, m \neq i, j, \frac{\partial θ_{k m}^{(l)}}{\partial θ_{i j}^{(l)}} * a_{m}^{(l - 1)} = 0

$if k,m \neq i,j, \ \ \dfrac {\partial\theta_{km}^{(l)}} {\partial \theta_{ij}^{(l)}}* a_m^{(l-1)} = 0$

yo F k, metro = yo, j, \frac{\partial θ_{k metro}^{(l)}}{\partial θ_{yo j}^{(l)}} * {una}_{metro}^{(l - 1)} = \frac{\partial θ_{yo j}^{(l)}}{\partial θ_{yo j}^{(l)}} * {una}_{j}^{(l - 1)} = {una}_{j}^{(l - 1)}

$if k,m = i,j, \ \ \dfrac {\partial\theta_{km}^{(l)}} {\partial \theta_{ij}^{(l)}}* a_m^{(l-1)} = \dfrac {\partial\theta_{ij}^{(l)}} {\partial \theta_{ij}^{(l)}}* a_j^{(l-1)} = a_j^{(l-1)}$

Entonces para k = i (de lo contrario, es claramente igual a cero):

\frac{\partial z_{yo}^{(l)}}{\partial θ_{yo j}^{(l)}} = \frac{\partial θ_{yo j}^{(l)}}{\partial θ_{yo j}^{(l)}} * {una}_{j}^{(l - 1)} + \sum_{metro \neq j} \frac{\partial θ_{yo metro}^{(l)}}{\partial θ_{yo j}^{(l)}} * {una}_{j}^{(l - 1)} = {una}_{j}^{(l - 1)} + 0 0

$\dfrac {\partial z_i^{(l)}} {\partial \theta_{ij}^{(l)}} = \dfrac {\partial\theta_{ij}^{(l)}} {\partial \theta_{ij}^{(l)}}* a_j^{(l-1)} + \sum_{m \neq j}\dfrac {\partial\theta_{im}^{(l)}} {\partial \theta_{ij}^{(l)}}* a_j^{(l-1)} = a_j^{(l-1)} + 0$

Finalmente, para k = i:

\frac{\partial z_{yo}^{(l)}}{\partial θ_{yo j}^{(l)}} = {una}_{j}^{(l - 1)}

$\dfrac {\partial z_i^{(l)}} {\partial \theta_{ij}^{(l)}} = a_j^{(l-1)}$

Como resultado, podemos escribir nuestra primera expresión del gradiente : $\nabla_{ij}^{(l)}$

\nabla_{yo j}^{(l)} = \frac{\partial C}{\partial z_{yo}^{(l)}} * \frac{\partial z_{yo}^{(l)}}{\partial θ_{yo j}^{(l)}}

$\nabla_{ij}^{(l)} = \dfrac {\partial C} {\partial z_i^{(l)}} * \dfrac {\partial z_i^{(l)}} {\partial \theta_{ij}^{(l)}}$

Lo que es equivalente a:

\nabla_{yo j}^{(l)} = \frac{\partial C}{\partial z_{yo}^{(l)}} * {una}_{j}^{(l - 1)}

$\nabla_{ij}^{(l)} = \dfrac {\partial C} {\partial z_i^{(l)}} * a_j^{(l-1)}$

\nabla_{yo j}^{(l)} = δ_{yo}^{(l)} * {una}_{j}^{(l - 1)}

$\nabla_{ij}^{(l)} = \delta_i^{(l)} * a_j^{(l-1)}$

DEMOSTRACIÓN DEL SEGUNDO TRUCO MÁGICO : o: $\delta_i^{(l)} = \theta^{(l+1)^T}\delta^{(l+1)}.*(a_i^{(l)}(1-a_i^{(l)}))$

δ^{(l)} = θ^{(l + 1)^{T}} δ^{(l + 1)} . * ({una}^{(l)} (1 - {una}^{(l)}))

$\delta^{(l)} = \theta^{(l+1)^T}\delta^{(l+1)}.*(a^{(l)}(1-a^{(l)}))$

Recuerda que planteamos:

δ^{(l)} = \frac{\partial C}{\partial z^{(l)}} una norte re δ_{yo}^{(l)} = \frac{\partial C}{\partial z_{yo}^{(l)}}

$\delta^{(l)} = \dfrac {\partial C} {\partial z^{(l)}} \ \ \ and \ \ \ \delta_i^{(l)} = \dfrac {\partial C} {\partial z_i^{(l)}}$

Nuevamente, la regla de la cadena para dimensiones superiores nos permite escribir:

δ_{yo}^{(l)} = \sum_{k} \frac{\partial C}{\partial z_{k}^{(l + 1)}} \frac{\partial z_{k}^{(l + 1)}}{\partial z_{yo}^{(l)}}

$\delta_i^{(l)} = \sum_k \dfrac {\partial C} {\partial z_k^{(l+1)}} \dfrac {\partial z_k^{(l+1)}} {\partial z_i^{(l)}}$

Reemplazando por , tenemos: $\dfrac {\partial C} {\partial z_k^{(l+1)}}$ $\delta_k^{(l+1)}$

δ_{yo}^{(l)} = \sum_{k} δ_{k}^{(l + 1)} \frac{\partial z_{k}^{(l + 1)}}{\partial z_{yo}^{(l)}}

$\delta_i^{(l)} = \sum_k \delta_k^{(l+1)} \dfrac {\partial z_k^{(l+1)}} {\partial z_i^{(l)}}$

Ahora, centrémonos en . Tenemos: $\dfrac {\partial z_k^{(l+1)}} {\partial z_i^{(l)}}$

z_{k}^{(l + 1)} = \sum_{j} θ_{k j}^{(l + 1)} * {una}_{j}^{(l)} = \sum_{j} θ_{k j}^{(l + 1)} * sol (z_{j}^{(l)})

$z_k^{(l+1)} = \sum_j \theta_{kj}^{(l+1)} * a_j^{(l)} = \sum_j \theta_{kj}^{(l+1)} * g(z_j^{(l)})$

Luego derivamos esta expresión con respecto a : $z_k^{(i)}$

\frac{\partial z_{k}^{(l + 1)}}{\partial z_{yo}^{(l)}} = \frac{\partial \sum_{j} θ_{k j}^{(l)} * sol (z_{j}^{(l)})}{\partial z_{yo}^{(l)}}

$\dfrac {\partial z_k^{(l+1)}} {\partial z_i^{(l)}} = \dfrac {\partial \sum_j \theta_{kj}^{(l)} * g(z_j^{(l)}) }{\partial z_i^{(l)}}$

Debido a la linealidad de la derivación, podemos escribir:

\frac{\partial z_{k}^{(l + 1)}}{\partial z_{yo}^{(l)}} = \sum_{j} θ_{k j}^{(l)} * \frac{\partial sol (z_{j}^{(l)})}{\partial z_{yo}^{(l)}}

$\dfrac {\partial z_k^{(l+1)}} {\partial z_i^{(l)}} = \sum_j \theta_{kj}^{(l)} * \dfrac {\partial g(z_j^{(l)}) }{\partial z_i^{(l)}}$

Si j i, entonces $\neq$ $\dfrac {\partial \theta_{kj}^{(l)} * g(z_j^{(l)})} {\partial z_i^{(l)}} = 0$

Como consecuencia:

\frac{\partial z_{k}^{(l + 1)}}{\partial z_{yo}^{(l)}} = \frac{θ_{k yo}^{(l)} * \partial sol (z_{yo}^{(l)})}{\partial z_{yo}^{(l)}}

$\dfrac {\partial z_k^{(l+1)}} {\partial z_i^{(l)}} = \dfrac {\theta_{ki}^{(l)} * \partial g(z_i^{(l)}) }{\partial z_i^{(l)}}$

Y entonces:

δ_{yo}^{(l)} = \sum_{k} δ_{k}^{(l + 1)} θ_{k yo}^{(l)} * \frac{\partial sol (z_{yo}^{(l)})}{\partial z_{yo}^{(l)}}

$\delta_i^{(l)} = \sum_k \delta_k^{(l+1)} \theta_{ki}^{(l)} * \dfrac { \partial g(z_i^{(l)}) }{\partial z_i^{(l)}}$

Como g '(z) = g (z) (1-g (z)), tenemos:

δ_{yo}^{(l)} = \sum_{k} δ_{k}^{(l + 1)} θ_{k yo}^{(l)} * sol (z_{yo}^{(l)}) (1 - sol (z_{yo}^{(l)})

$\delta_i^{(l)} = \sum_k \delta_k^{(l+1)} \theta_{ki}^{(l)} * g(z_i^{(l)})(1-g(z_i^{(l)})$

Y como , tenemos: $g(z_i^{(l)} = a_i^{(l)}$

δ_{yo}^{(l)} = \sum_{k} δ_{k}^{(l + 1)} θ_{k yo}^{(l + 1)} * {una}_{yo}^{(l)} (1 - {una}_{yo}^{(l)})

$\delta_i^{(l)} = \sum_k \delta_k^{(l+1)} \theta_{ki}^{(l+1)} * a_i^{(l)}(1-a_i^{(l)})$

Y finalmente, usando la notación vectorizada:

\nabla_{yo j}^{(l)} = [θ^{(l + 1)^{T}} δ^{(l + 1)} * ({una}_{yo}^{(l)} (1 - {una}_{yo}^{(l)}))] * [{una}_{j}^{(l - 1)}]

$\nabla_{ij}^{(l)} = [\theta^{(l+1)^T}\delta^{(l+1)}*(a_i^{(l)}(1-a_i^{(l)}))] * [a_j^{(l-1)}]$

— tmangin
fuente

Gracias por su respuesta. ¡Te he votado! ¿Podría por favor citar las fuentes que refirió para llegar a la respuesta ... :)

— Adithya Upadhya

@tmangin: Siguiendo la charla de Andrew Ng, tenemos es el error del nodo j en la capa l. ¿Cómo se obtuvo la definición de .

δ_{j}^{(i)}

$\delta_j^{(i)}$

δ_{j}^{(i)} = \frac{\partial C}{\partial Z_{j}^{(l)}}

$\delta_j^{(i)}=\frac{\partial C}{\partial Z_j^{(l)}}$

— phuong

@phuong En realidad, tengo razón al preguntar: solo el con el índice "l" más alto L se define como Mientras que los deltas con índices "l" más bajos se definen mediante la siguiente fórmula:

δ_{yo}^{(L)}

$\delta_i^{(L)}$

δ_{yo}^{(L)} = \frac{\partial C}{\partial z_{yo}^{(l)}}

$\delta_i^{(L)} = \dfrac {\partial C} {\partial z_i^{(l)}}$

δ_{yo}^{(l)} = θ^{(l + 1)^{T}} δ^{(l + 1)} . * ({una}_{yo}^{(l)} (1 - {una}_{yo}^{(l)}))

$\delta_i^{(l)} = \theta^{(l+1)^T}\delta^{(l+1)}.*(a_i^{(l)}(1-a_i^{(l)}))$

— tmangin

Recomiendo leer la notación vectorial de backprop para calcular los gradientes.

— CKM

Su fórmula utilizable final no es la que tenía Andrew Ng, lo que hace que sea realmente frustrante seguir su prueba. Tenía ∇ (l) ij = θ (l) Tδ (l + 1). ∗ (a (l) i (1 − a (l) i)) ∗ a (l − 1) j, no θ (l + 1) Tδ (l + 1)

— Aziz Javed

Este cálculo ayuda. La única diferencia de este resultado con el resultado de Andrew se debe a la definición de theta. En la definición de Andrew, z (l + 1) = theta (l) * a (l). En este cálculo, z (l + 1) = theta (l + 1) * a (l). Entonces, en realidad no hay diferencia.

— Canción Qing
fuente