Recientemente me interesé en los LSTM y me sorprendió saber que los pesos se comparten a lo largo del tiempo.
Sé que si comparte los pesos a lo largo del tiempo, sus secuencias de tiempo de entrada pueden ser de longitud variable.
Con los pesos compartidos tiene muchos menos parámetros para entrenar.
Según tengo entendido, la razón por la que uno recurriría a un LSTM frente a algún otro método de aprendizaje es porque cree que hay algún tipo de estructura / dependencia temporal / secuencial en sus datos que le gustaría aprender. Si sacrifica el 'lujo' de longitud variable y acepta un tiempo de cálculo prolongado, ¿un RNN / LSTM sin pesos compartidos (es decir, para cada paso de tiempo que tenga pesos diferentes) funcionaría mucho mejor o hay algo que me falta?