Este experimento de Stephen Mayhew sugiere que BERT es pésimo en la generación secuencial de texto:
although he had already eaten a large meal, he was still very hungry
Como antes, enmascaré "hambriento" para ver qué predeciría BERT. Si pudiera predecirlo correctamente sin un contexto adecuado, podríamos estar en buena forma para la generación.
Esto falló. BERT predijo "mucho" como la última palabra. Quizás esto se deba a que BERT piensa que la ausencia de un punto significa que la oración debe continuar. Tal vez solo se usa para completar oraciones y se confunde. No estoy seguro.
Se podría argumentar que deberíamos seguir prediciendo después de "mucho". Tal vez va a producir algo significativo. A eso diría: primero, esto estaba destinado a ser un regalo muerto, y cualquier humano predeciría "hambriento". En segundo lugar, lo probé y sigue prediciendo cosas tontas. Después de "mucho", el siguiente token es ",".
Entonces, al menos usando estos métodos triviales, BERT no puede generar texto.