Normalmente, establecería los estados iniciales en cero, pero la red aprenderá a adaptarse a ese estado inicial.
El siguiente artículo sugiere aprender los estados ocultos iniciales o usar ruido aleatorio.
Básicamente, si sus datos incluyen muchas secuencias cortas, entrenar el estado inicial puede acelerar el aprendizaje.
Alternativamente, si sus datos incluyen una pequeña cantidad de secuencias largas, entonces puede que no haya suficientes datos para entrenar efectivamente el estado inicial. En ese caso, usar un estado inicial ruidoso puede acelerar el aprendizaje. Una idea que no mencionan sería aprender la media y la condición estándar del generador de ruido.
El artículo señala que si elige aprender el estado inicial, entonces agregar ruido es de poco beneficio.