Unidad FULL GRU
c~t=tanh(Wc[Gr∗ct−1,xt]+bc)
Gu=σ(Wu[ct−1,xt]+bu)
Gr=σ(Wr[ct−1,xt]+br)
ct=Gu∗c~t+(1−Gu)∗ct−1
at=ct
Unidad LSTM
c~t=tanh(Wc[at−1,xt]+bc)
Gu=σ(Wu[at−1,xt]+bu)
Gf=σ(Wf[at−1,xt]+bf)
Go=σ(Wo[at−1,xt]+bo)
ct=Gu∗c~t+Gf∗ct−1
at=Go∗tanh(ct)
Como se puede ver en las ecuaciones, los LSTM tienen una puerta de actualización separada y una puerta de olvido. Esto claramente hace que los LSTM sean más sofisticados pero al mismo tiempo más complejos también. No hay una manera simple de decidir cuál usar para su caso de uso particular. Siempre tiene que hacer prueba y error para probar el rendimiento. Sin embargo, debido a que GRU es más simple que LSTM, los GRU tomarán mucho menos tiempo para entrenar y son más eficientes.
Créditos: Andrew Ng