Un RNN es una red neuronal profunda (DNN) donde cada capa puede tomar una nueva entrada pero tiene los mismos parámetros. BPT es una palabra elegante para Back Propagation en dicha red, que en sí misma es una palabra elegante para Gradient Descent.
Decir que los RNN salidas y t en cada paso y
e r r o r t = ( y t - y t ) 2y^t
e r r ort= (yt-y^t)2
Para aprender los pesos, necesitamos gradientes para que la función responda a la pregunta "¿cuánto afecta un cambio en el parámetro a la función de pérdida?" y mueva los parámetros en la dirección dada por:
∇errort=−2(yt−y^t)∇y^t
Es decir, tenemos un DNN donde obtenemos comentarios sobre qué tan buena es la predicción en cada capa. Dado que un cambio en el parámetro cambiará cada capa en el DNN (paso de tiempo) y cada capa contribuye a las próximas salidas, esto debe tenerse en cuenta.
Tome una red simple de una capa de neurona uno para ver esto semi-explícitamente:
y^t+1=∂∂ay^t+1=∂∂by^t+1=∂∂cy^t+1=⟺∇y^t+1=f(a+bxt+cy^t)f′(a+bxt+cy^t)⋅c⋅∂∂ay^tf′(a+bxt+cy^t)⋅(xt+c⋅∂∂by^t)f′(a+bxt+cy^t)⋅(y^t+c⋅∂∂cy^t)f′(a+bxt+cy^t)⋅⎛⎝⎜⎡⎣⎢0xty^t⎤⎦⎥+c∇y^t⎞⎠⎟
δ
⎡⎣⎢a~b~c~⎤⎦⎥←⎡⎣⎢abc⎤⎦⎥+δ(yt−y^t)∇y^t
∇y^t+1∇y^tt
error=∑t(yt−y^t)2
¿Quizás cada paso contribuirá con una dirección cruda que es suficiente en la agregación? ¡Esto podría explicar sus resultados, pero me interesaría saber más sobre su método / función de pérdida! También estaría interesado en una comparación con un ANN de ventana de dos pasos.
edit4: Después de leer los comentarios, parece que su arquitectura no es un RNN.
ht
Su modelo: sin estado: estado oculto reconstruido en cada paso
edit2: se agregaron más referencias a DNNs edit3: corrección gradual y alguna edición de notación5: se corrigió la interpretación de su modelo después de su respuesta / aclaración.