Los documentos que encontraste me parecen referencias bastante buenas, los he leído brevemente y seguramente querré estudiarlos a fondo, +1 por eso. Pero su pregunta no parece tener mucho sentido, o al menos no tiene una respuesta viable.
El procedimiento es extremadamente complejo (como se dio cuenta al leer los documentos) y se basa en múltiples capas de cálculo básico, transformadas de Fourier, ingeniería de audio, procesamiento de señales, etc. No puede comprender el procedimiento sin comprender el teoría.
Tampoco es humanamente posible, en términos prácticos, codificar manualmente un archivo de audio a mano. Tiene que hacer literalmente miles (probablemente cientos de miles, para una implementación completa de MP3) de operaciones aritméticas complejas solo para codificar un solo cuadro de audio de, digamos, 512 muestras. Eso es solo alrededor de 0.01 segundos de música a una frecuencia de muestreo de 44.1KHz.
¿Quizás deberías enfocar tus esfuerzos de aprendizaje en cosas menos avanzadas para empezar?