De este video de Andrew Ng alrededor de las 5:00
¿Cómo se y ? De hecho, ¿qué significa ? se obtiene al comparar con y, no es posible tal comparación para la salida de una capa oculta, ¿verdad?
De este video de Andrew Ng alrededor de las 5:00
¿Cómo se y ? De hecho, ¿qué significa ? se obtiene al comparar con y, no es posible tal comparación para la salida de una capa oculta, ¿verdad?
Respuestas:
Voy a responder su pregunta sobre el , pero recuerde que su pregunta es una subpregunta de una pregunta más grande que es por qué:
Recordatorio sobre los pasos en las redes neuronales:
Paso 1: propagación hacia adelante (cálculo de )
Paso 2a: propagación hacia atrás: cálculo de los errores
Paso 2b: propagación hacia atrás: cálculo del gradiente de J ( ) utilizando los errores y ,
Paso 3: descenso del gradiente: calcule el nuevo utilizando los gradientes
En primer lugar, para entender lo que el son , lo que representan y por qué Andrew GN que hablar de ellos , es necesario comprender lo que Andrew está haciendo realidad en ese pointand por qué hacemos todos estos cálculos: él es el cálculo de la gradiente de para ser utilizado en el algoritmo de descenso de gradiente.
El gradiente se define como:
Como realmente no podemos resolver esta fórmula directamente, vamos a modificarla con DOS TRUCOS MÁGICOS para llegar a una fórmula que realmente podamos calcular. Esta fórmula utilizable final es:
Para llegar a este resultado, el PRIMER TRUCO MÁGICO es que podemos escribir el gradiente de usando :
Y luego el SEGUNDO TRUCO MÁGICO usando la relación entre y , para definir los otros índices,
Y como dije, finalmente podemos escribir una fórmula para la cual conocemos todos los términos:
DEMOSTRACIÓN del PRIMER TRUCO MÁGICO:
Definimos:
La regla de cadena para dimensiones superiores (REALMENTE debería leer esta propiedad de la regla de cadena) nos permite escribir:
Sin embargo, como:
Entonces podemos escribir:
Debido a la linealidad de la diferenciación [(u + v) '= u' + v '], podemos escribir:
con:
Entonces para k = i (de lo contrario, es claramente igual a cero):
Finalmente, para k = i:
Como resultado, podemos escribir nuestra primera expresión del gradiente :
Lo que es equivalente a:
O:
DEMOSTRACIÓN DEL SEGUNDO TRUCO MÁGICO : o:
Recuerda que planteamos:
Nuevamente, la regla de la cadena para dimensiones superiores nos permite escribir:
Reemplazando por , tenemos:
Ahora, centrémonos en . Tenemos:
Luego derivamos esta expresión con respecto a :
Debido a la linealidad de la derivación, podemos escribir:
Si j i, entonces
Como consecuencia:
Y entonces:
Como g '(z) = g (z) (1-g (z)), tenemos:
Y como , tenemos:
Y finalmente, usando la notación vectorizada:
Este cálculo ayuda. La única diferencia de este resultado con el resultado de Andrew se debe a la definición de theta. En la definición de Andrew, z (l + 1) = theta (l) * a (l). En este cálculo, z (l + 1) = theta (l + 1) * a (l). Entonces, en realidad no hay diferencia.