Estoy leyendo este documento "Secuencia a secuencia de aprendizaje con redes neuronales" http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf
En "2. El modelo" dice:
El LSTM calcula esta probabilidad condicional obteniendo primero la representación dimensional fija v de la secuencia de entrada (x1,..., XT) dada por el último estado oculto del LSTM, y luego calculando la probabilidad de y1,. . . , yT 'con una formulación estándar LSTM-LM cuyo estado oculto inicial se establece en la representación v de x1,. . . , xT:
Sé lo que es un LSTM, pero ¿qué es un LSTM-LM? He intentado buscarlo en Google pero no puedo encontrar ninguna buena pista.