Encontré el mismo problema y llegué a la siguiente solución. No me metí en la documentación de cómo se construyen los archivos PDF, solo comparé dos archivos PDF vacíos con diferentes tamaños de página.
Parece que los archivos PDF tienen todo tipo de atributos incrustados entre "<<" y ">>". Descubrí que la información del tamaño de la página está en texto plano y se puede encontrar con una simple búsqueda de expresiones regulares.
Esto puede o no ser cierto para todos los archivos PDF, pero funcionó en todo lo que pude encontrar de diferentes fuentes.
La parte relevante puede verse como cualquiera de estos para una página de tamaño A4:
/MediaBox [0 0 595 842]
/MediaBox[0 0 595 842]
/MediaBox[ 0 0 595.32 841.92]
Significa [0 0 ancho alto] así que aquí está mi solución súper cojo pero funcional para extraer esto:
cat test.pdf | egrep -ao "/MediaBox ?\[ ?[0-9]+ [0-9]+ [0-9]+(\.[0-9]+)? [0-9]+(\.[0-9]+)?\]" | head -1
Simplemente cambie test.pdf a su archivo.