¿Cuántos parámetros hay en una capa de red neuronal recurrente (RNN) de unidad recurrente cerrada (GRU)?

El título lo dice todo: ¿cuántos parámetros entrenables hay en una capa GRU? Este tipo de pregunta surge mucho cuando se intenta comparar modelos de diferentes tipos de capas RNN, como las unidades de memoria a largo plazo (LSTM) frente a GRU, en términos del rendimiento por parámetro. Dado que un mayor número de parámetros entrenables generalmente aumentará la capacidad de la red para aprender, comparar modelos alternativos por parámetro es una comparación de manzanas con manzanas de la efectividad relativa de GRU y LSTM.

neural-networks rnn gru

— Sycorax dice reinstalar a Mónica
fuente

Según Rahul Dey y Fathi M. Salem, " Gate-Variants of Gated Recurrent Unit (GRU) Neural Networks ":

... el número total de parámetros en el GRU RNN es igual $3 \times (n^2 + nm + n)$ .

dónde $m$ es la dimensión de entrada y $n$ es la dimensión de salida. Esto se debe al hecho de que hay tres conjuntos de operaciones que requieren matrices de peso de estos tamaños.

— Sycorax dice reinstalar a Mónica
fuente