Si a alguien le importa cavar, creo que descubrirán que antes de que Bell Telephone comenzara a multiplexar las líneas de voz, investigaron mucho sobre el contenido de frecuencia de la voz humana. Originalmente utilizaron grupos de prueba para desarrollar la unidad de audio bel y la distribución de potencia de la voz, así como la sensibilidad del oído humano a varias frecuencias. Desarrollaron una característica de paso de banda que alcanzó su punto máximo alrededor de 2.1 KHz y rodó por debajo de 300 y más de 3000 HZ. Eso dio una buena voz humana cuando se hace correctamente. Todo eso fue análogo.
La radio AM amplió eso a 5 KHz para incluir música que era aceptable para la mayoría de la gente cuando éramos jóvenes y teníamos buenos oídos. Los transformadores de retorno de televisión fueron diseñados para funcionar a ~ 17.5 KHz porque había un número mágico para la reproducción de imágenesy la mayoría de la gente no podía escuchar el quejido . La radio de banda lateral única se comercializó en la década de 1960 y necesitaba frecuencias de corte muy nítidas. Usé radios con filtros a 2.1 y 3.1 KHz. 2.1 tenía algunas características del Pato Donald. 3.1 sonaba bien, nuevamente con orejas jóvenes. El paso de banda de audio se aumentó a 20 KHZ o mejor con FM porque las frecuencias de portadora más altas podrían manejar un mayor ancho de banda para una mejor reproducción de música . Apila algunos xilófonos o campanas u otros instrumentos agudos y pueden obtener suficiente energía armónica en las frecuencias más altas. OTOH, como era el estado, la mayoría de la gente no puede escucharlo.
La conclusión es que cualquiera que diga que necesita un ancho de banda de 20 KHz para la voz no está prestando atención. 3 KHz lo harán, 5 le dará un margen. Si no suena bien, entonces el problema es algo más que el ancho de banda.
Cuando se estaba desarrollando la señalización digital, las personas que saben descubrieron que no importa cuán extraña sea una forma de onda, podría descomponerse en un conjunto de ondas sinusoidales. La mezcla armónica de esas ondas produjo el típico patrón puntiagudo de voz o música. Por último, Nyquist realizó una investigación sobre la frecuencia de muestreo digital necesaria para reproducir una onda sinusoidal a una frecuencia dada. Resulta que se necesitan 2 muestras para formar una onda sinusoidal, por lo que la frecuencia más alta que se reproducirá es la mitad de la frecuencia de muestreo. Desea 5 KHz de audio y luego muestree a 10 KHz. Bien por la voz. Desea música de mayor fidelidad de la que la mayoría de la gente puede escuchar y luego probar a 40 KHz más o menos para obtener más de 20 KHz.
Un tidbit más es el muestreo vs bitrate. Si muestreas a una frecuencia dada, multiplícala por la longitud de la palabra y obtendrás la tasa de bits mínima necesaria para producir la señal deseada. Reduzca la tasa de bits y el tamaño de la palabra de muestra se cortará para cumplir con la nueva tasa de bits a una tasa de muestra dada. Esa es toda la codificación "sin pérdidas". Todo esto es de memoria e intentando encontrar datos actuales. Está ahí si alguien busca citas. No me voy a molestar porque me estoy haciendo demasiado viejo para que me importe. Me cansé de leer muchos problemas míticos obvios cuando me interesé en hacer algo de captura de audio.