Al no cambiar los pesos de las capas convolucionales de una CNN, básicamente está alimentando las características aleatorias de su clasificador (la capa completamente conectada) (es decir, no las características óptimas para la tarea de clasificación en cuestión).
MNIST es una tarea de clasificación de imágenes lo suficientemente fácil como para que pueda alimentar los píxeles de entrada a un clasificador sin ninguna extracción de características y todavía obtendrá una puntuación en los 90 altos. Además de eso, quizás las capas de agrupación ayudan un poco ...
Intente entrenar un MLP (sin las capas conv / pool) en la imagen de entrada y vea cómo se clasifica. Aquí hay un ejemplo en el que un MLP (1 capa oculta y 1 capa de salida) alcanzó el 98 +% sin ningún procesamiento previo / extracción de características.
Editar:
También me gustaría señalar otra respuesta que escribí, que entra en más detalles sobre por qué MNIST es tan fácil como una tarea de clasificación de imágenes.