Diferencia entre redes neuronales con retardo de tiempo y redes neuronales recurrentes

9

Me gustaría utilizar una red neuronal para predecir series de tiempo financieras. Vengo de un entorno de TI y tengo algunos conocimientos de redes neuronales y he estado leyendo sobre estos:

TDNN
RNN

He estado buscando paquetes R para ellos y solo encontré uno para RNN, el paquete RSNNS que tiene implementaciones elman y jordan que son RNN.

Entonces, ¿son útiles las redes neuronales recurrentes para usar con series de tiempo (financieras)? Dado que (cita del enlace de Wikipedia en RNN citado anteriormente):

En cada paso de tiempo, la entrada se propaga de forma estándar y luego se aplica una regla de aprendizaje. Las conexiones posteriores fijas dan como resultado que las unidades de contexto siempre mantengan una copia de los valores anteriores de las unidades ocultas (ya que se propagan sobre las conexiones antes de que se aplique la regla de aprendizaje). Por lo tanto, la red puede mantener una especie de estado, lo que le permite realizar tareas como la predicción de secuencia que están más allá del poder de un perceptrón multicapa estándar.

¿No son en la práctica lo mismo que las redes neuronales de retardo de tiempo? Si no, ¿cuáles son las diferencias con las redes neuronales de retardo de tiempo? ¿Ambos son adecuados para usar con series temporales o cuál es más adecuado?

¡Gracias de antemano!

— MithPaul
fuente

5

Nunca he trabajado con redes recurrentes, pero por lo que sé, en la práctica, algunos RNN y TDNN pueden usarse para el mismo propósito que usted desea: predecir valores de series de tiempo. Sin embargo, funcionan de manera diferente.

Es posible con TDNN:

Predecir los valores del proceso
Encuentra una relación entre dos procesos.

Algunos RNN, como NARX, también le permiten hacer eso, y también se utilizan para predecir series de tiempo financieras, generalmente mejores que TDNN.

Un TDNN se parece más a una red de avance, porque el aspecto de tiempo solo se inserta a través de sus entradas, a diferencia de NARX que también necesita el valor futuro previsto / real como entrada. Esta característica hace que TDNN sea menos robusto que NARX para predecir valores, pero requiere menos procesamiento y es más fácil de entrenar.

Si está tratando de encontrar una relación entre un proceso y un proceso , NARX requiere que tenga valores pasados de , mientras que TDNN no. $X(t)$ $Y(t)$ $Y$

Recomiendo leer las redes neuronales de Simon Haykin: una base integral (2ª edición) y estas preguntas frecuentes . Hay muchas arquitecturas y variaciones de redes neuronales. A veces tienen muchos nombres o no hay consenso sobre su clasificación.

— Mario
fuente

Gracias por tu respuesta Mario, pero no puedo acceder a las preguntas frecuentes que publicaste, parece que el enlace está roto. ¿Podrías volver a publicarlo?

— MithPaul

No pude encontrar otro enlace para él, así que estoy volviendo a publicar el mismo: ftp://ftp.sas.com/pub/neural/FAQ.html Pude acceder a él con Firefox, Safari y Chrome. Avísame si te ayuda.

— Mario

1

TDNNs es una forma simple de representar un mapeo entre valores pasados y presentes. Los retrasos en el TDNN permanecen constantes durante todo el procedimiento de entrenamiento y se estiman antes mediante el uso de prueba y error junto con algunas heurísticas. Sin embargo, puede ocurrir que estos retrasos fijos no capturen las ubicaciones temporales reales de las dependencias de tiempo. Por otro lado, la característica de "memoria" de las estructuras RNN puede capturar esta información al aprender estas dependencias. El problema con los RNN es que no son prácticos de usar cuando se entrenan con técnicas tradicionales (por ejemplo, Backpropagation a través del tiempo) para aprender dependencias a largo plazo. Este problema surge de la llamada "desaparición / explosión" gradiente, lo que básicamente significa que a medida que propagamos las señales de error hacia atrás a través de la estructura de las redes, tienden a desaparecer o explotar. Las estructuras recurrentes más avanzadas (por ejemplo, LSTM) tienen propiedades que mitigan este problema y pueden aprender dependencias a largo plazo y son particularmente adecuadas para aprender datos secuenciales.

— kostas
fuente