Estoy trabajando en el documento Cho 2014 que introdujo la arquitectura codificador-decodificador para el modelado seq2seq.
En el documento, parecen usar la probabilidad de la entrada dada de salida (o es la probabilidad de registro negativa) como la función de pérdida para una entrada de longitud M y salida y de longitud N :
Sin embargo, creo que veo varios problemas al usar esto como una función de pérdida:
- Parece suponer que el maestro fuerza durante el entrenamiento (es decir, en lugar de utilizar la suposición del decodificador para una posición como entrada para la próxima iteración, utiliza el token conocido.
- No penalizaría secuencias largas. Como la probabilidad es de a N de la salida, si el decodificador generara una secuencia más larga, todo después de la primera N no tendría en cuenta la pérdida.
- Si el modelo predice un token de Fin de Cadena temprano, la función de pérdida aún exige pasos, lo que significa que estamos generando salidas basadas en una "variedad" no entrenada de los modelos. Eso parece descuidado.
¿Alguna de estas preocupaciones es válida? Si es así, ¿ha habido algún progreso en una función de pérdida más avanzada?