¿Qué es una formulación LSTM-LM?

Estoy leyendo este documento "Secuencia a secuencia de aprendizaje con redes neuronales" http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf

En "2. El modelo" dice:

El LSTM calcula esta probabilidad condicional obteniendo primero la representación dimensional fija v de la secuencia de entrada (x1,..., XT) dada por el último estado oculto del LSTM, y luego calculando la probabilidad de y1,. . . , yT 'con una formulación estándar LSTM-LM cuyo estado oculto inicial se establece en la representación v de x1,. . . , xT:

Sé lo que es un LSTM, pero ¿qué es un LSTM-LM? He intentado buscarlo en Google pero no puedo encontrar ninguna buena pista.

— Taevanbat Mongol
fuente

Pero esta oración aún me resulta desconcertante. si lo pongo en la ecuación si hace ! [ ] ( i.stack.imgur.com/0Lv8L.png ) ! [(https://i.stack.imgur.com/et5Sf.png) con c el último estado oculto de El codificador. entonces el primer estado oculto representa la información proporcionada por el codificador, pero los siguientes representan la distribución de probabilidad de los elementos de la secuencia objetivo: algo de una naturaleza radicalmente diferente. Tampoco se da la inicialización del estado del estado de la celda y la figura 1 deja creer que el LSTM provid

— Charles Englebert

Respuestas:

La definición de un modelo de lenguaje (LM) es una distribución de probabilidad sobre secuencias de palabras.

La simple ilustración de un LM es predecir la siguiente palabra dada la (s) palabra (s) anterior (es).

Por ejemplo, si tengo un modelo de idioma y algunas palabras iniciales:

Puse mi palabra inicial en My
Mi modelo predice que hay una alta probabilidad que nameaparece después My.
Al establecer las palabras iniciales en My name, mi modelo predice que hay una alta probabilidad que isaparece después My name.
Entonces es como: My-> My name-> My name is-> My name is Tom, y así sucesivamente.

Puede pensar en el autocompletado en el teclado de su teléfono inteligente. De hecho, LM es el corazón de los autocompletados.

Entonces, LSTM-LM simplemente está usando un LSTM (y función softmax) para predecir la siguiente palabra dadas sus palabras anteriores.

Por cierto, Language Model no se limita a LSTM, otros RNN (GRU) u otros modelos estructurados. De hecho, también puede usar redes de avance con ventana de contexto / deslizamiento / balanceo para predecir la siguiente palabra dadas sus palabras iniciales.

— rilut
fuente

¿Cambia eso la formulación del LSTM en sí mismo de alguna manera?

— Taevanbat Mongol

¿O cambia la forma en que los LSTM están unidos?

— Taevanbat Mongol

En mi humilde opinión, tal vez significa un LSTM que está sintonizado para LM (Language Modeling). Estoy leyendo el mismo artículo y eso es lo que entiendo

— Ali

@TaevanbatMongol no, no está cambiando la formulación de LSTM. Solo necesita una función softmax (o algo así) para generar la probabilidad de palabras de la salida LSTM

— rilut

Probabilidad de palabras significa que si suma la probabilidad / puntaje de la salida de un paso de tiempo, será igual a 1

— rilut

En este contexto, creo que significa que toma la representación de salida y aprende una capa softmax adicional que corresponde a los tokens en su modelo de idioma (en este caso, letras).

— Bhav Ashok
fuente