Preguntas etiquetadas con lstm

Una memoria a corto y largo plazo (LSTM) es una arquitectura de red neuronal que contiene bloques NN recurrentes que pueden recordar un valor durante un período de tiempo arbitrario.

4
¿Cómo evita LSTM el problema del gradiente de fuga?
El LSTM se inventó específicamente para evitar el problema del gradiente de fuga. Se supone que debe hacer eso con el carrusel de error constante (CEC), que en el diagrama a continuación (de Greff et al. ) Corresponde al bucle alrededor de la celda . (fuente: deeplearning4j.org ) Y entiendo …


1
La pérdida de entrenamiento baja y sube de nuevo. ¿Que esta pasando?
Mi pérdida de entrenamiento baja y luego vuelve a subir. Es muy raro La pérdida de validación cruzada rastrea la pérdida de entrenamiento. Que esta pasando? Tengo dos LSTMS apilados de la siguiente manera (en Keras): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', …


1
¿Qué son exactamente los mecanismos de atención?
Los mecanismos de atención se han utilizado en varios documentos de Deep Learning en los últimos años. Ilya Sutskever, jefe de investigación de Open AI, los ha elogiado con entusiasmo: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Eugenio Culurciello de la Universidad de Purdue ha afirmado que las RNN y LSTM deben abandonarse en favor de …

3
Comprender el parámetro input_shape en LSTM con Keras
Estoy tratando de usar el ejemplo descrito en la documentación de Keras llamada "Stacked LSTM para la clasificación de secuencia" (vea el código a continuación) y no puedo descifrar el input_shapeparámetro en el contexto de mis datos. Tengo como entrada una matriz de secuencias de 25 posibles caracteres codificados en …
20 lstm  keras  shape  dimensions 

4
Diferencia entre retroalimentación RNN y LSTM / GRU
Estoy tratando de entender las diferentes arquitecturas de redes neuronales recurrentes (RNN) que se aplicarán a los datos de series temporales y me estoy confundiendo un poco con los diferentes nombres que se usan con frecuencia al describir los RNN. ¿Es la estructura de la memoria a corto plazo (LSTM) …




3
Diferencia entre muestras, pasos de tiempo y características en la red neuronal
Estoy leyendo el siguiente blog sobre la red neuronal LSTM: http://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/ El autor da nueva forma al vector de entrada X como [muestras, pasos de tiempo, características] para diferentes configuraciones de LSTM. El autor escribe De hecho, las secuencias de letras son pasos de tiempo de una característica en lugar …


1
RNN: ¿Cuándo aplicar BPTT y / o actualizar pesos?
Estoy tratando de comprender la aplicación de alto nivel de los RNN para el etiquetado de secuencias a través (entre otros) del documento de Graves de 2005 sobre la clasificación de fonemas. Para resumir el problema: tenemos un gran conjunto de capacitación que consta de archivos de audio (de entrada) …
15 lstm  rnn 



Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.