¿Por qué se muestrea el audio del teléfono a 8 kHz?


8

¿Cuándo decidimos probar el teléfono a kHz? ¿Siempre ha sido así? ¿Por qué hicimos eso? ¿Es porque las velocidades de bits más altas no se pueden transferir tan rápido? ¿Y estas razones todavía cuentan? Y si no, ¿por qué todavía no hay un nuevo estándar? ¿Es cierto que kHz es la frecuencia de muestreo más baja posible para transferir voz comprensible?88

Estoy tratando de encontrar fuentes para esto, pero no parece haber mucha información al respecto.


2
No siempre ha sido así, porque las líneas telefónicas solían ser totalmente analógicas.
Simon B

2
De hecho, puede ser que todavía ser totalmente analógico para llamadas locales dentro de la misma central. Pero no sé. pero incluso cuando eran analógicos, había limitaciones de ancho de banda y la "calidad de voz" era el criterio suficiente.
robert bristow-johnson

Solo para que no nos confundamos ... y una tasa de actualización de Baud y una tasa de bits no son lo mismo ... Baud es "Bits en la densidad de la unidad". Baudios es la velocidad de señalización, los bits son la velocidad de información. así que si su velocidad BAUD es de 1200 baudios y está pasando 4 bits por ciclo de reloj, está ejecutando 4800 bits por segundo. Teníamos módems DSP que podían pasar 150Kb / s por una línea telefónica analógica, pero la técnica de modulación era muy sofisticada y usé en cualquier lugar de 256 a 512 tonos de audio para mover datos por la tubería ... así como ecualizar la línea y eliminar el retraso ... Recuerdo haber visto algunos módems que w
Keith

Ah lo encontré ... US Robotics hizo un módem 2400 BAUD llamado Sportster HST v92. era de 2400 baudios pero pasaba 21,600 bits por segundo. Así que había 2400 módems BAUD en el mercado a mediados de los 90
Keith

Respuestas:


4

Si a alguien le importa cavar, creo que descubrirán que antes de que Bell Telephone comenzara a multiplexar las líneas de voz, investigaron mucho sobre el contenido de frecuencia de la voz humana. Originalmente utilizaron grupos de prueba para desarrollar la unidad de audio bel y la distribución de potencia de la voz, así como la sensibilidad del oído humano a varias frecuencias. Desarrollaron una característica de paso de banda que alcanzó su punto máximo alrededor de 2.1 KHz y rodó por debajo de 300 y más de 3000 HZ. Eso dio una buena voz humana cuando se hace correctamente. Todo eso fue análogo.
La radio AM amplió eso a 5 KHz para incluir música que era aceptable para la mayoría de la gente cuando éramos jóvenes y teníamos buenos oídos. Los transformadores de retorno de televisión fueron diseñados para funcionar a ~ 17.5 KHz porque había un número mágico para la reproducción de imágenesy la mayoría de la gente no podía escuchar el quejido . La radio de banda lateral única se comercializó en la década de 1960 y necesitaba frecuencias de corte muy nítidas. Usé radios con filtros a 2.1 y 3.1 KHz. 2.1 tenía algunas características del Pato Donald. 3.1 sonaba bien, nuevamente con orejas jóvenes. El paso de banda de audio se aumentó a 20 KHZ o mejor con FM porque las frecuencias de portadora más altas podrían manejar un mayor ancho de banda para una mejor reproducción de música . Apila algunos xilófonos o campanas u otros instrumentos agudos y pueden obtener suficiente energía armónica en las frecuencias más altas. OTOH, como era el estado, la mayoría de la gente no puede escucharlo.

La conclusión es que cualquiera que diga que necesita un ancho de banda de 20 KHz para la voz no está prestando atención. 3 KHz lo harán, 5 le dará un margen. Si no suena bien, entonces el problema es algo más que el ancho de banda.

Cuando se estaba desarrollando la señalización digital, las personas que saben descubrieron que no importa cuán extraña sea una forma de onda, podría descomponerse en un conjunto de ondas sinusoidales. La mezcla armónica de esas ondas produjo el típico patrón puntiagudo de voz o música. Por último, Nyquist realizó una investigación sobre la frecuencia de muestreo digital necesaria para reproducir una onda sinusoidal a una frecuencia dada. Resulta que se necesitan 2 muestras para formar una onda sinusoidal, por lo que la frecuencia más alta que se reproducirá es la mitad de la frecuencia de muestreo. Desea 5 KHz de audio y luego muestree a 10 KHz. Bien por la voz. Desea música de mayor fidelidad de la que la mayoría de la gente puede escuchar y luego probar a 40 KHz más o menos para obtener más de 20 KHz.

Un tidbit más es el muestreo vs bitrate. Si muestreas a una frecuencia dada, multiplícala por la longitud de la palabra y obtendrás la tasa de bits mínima necesaria para producir la señal deseada. Reduzca la tasa de bits y el tamaño de la palabra de muestra se cortará para cumplir con la nueva tasa de bits a una tasa de muestra dada. Esa es toda la codificación "sin pérdidas". Todo esto es de memoria e intentando encontrar datos actuales. Está ahí si alguien busca citas. No me voy a molestar porque me estoy haciendo demasiado viejo para que me importe. Me cansé de leer muchos problemas míticos obvios cuando me interesé en hacer algo de captura de audio.


5

Se pensó que proporcionaba un buen equilibrio entre calidad y ancho de banda. En realidad, una sola señal de voz ocupa 8 kHz, no 8 kbps, de ancho de banda. Cada muestra se cuantifica en 8 bits, produciendo una velocidad de 64 kbps que se usa universalmente.

Otras lecturas:


3
Cuando la señal de voz se muestrea a 8 khz, se supone que su ancho de banda es inferior a 4 kHz, no 8 kHz. Además, la velocidad de bits PCM de 64 kbps sin procesar resultante puede reducirse mediante técnicas DPCM y ADPCM hasta 32 kbps o 16 kbps siempre que se requiera eficiencia.
Fat32

Eso es verdad. No solo eso, se garantiza que ocupará menos de 4 kHz a través del filtrado de paso bajo. De lo contrario, se produce aliasing.
Emre

entonces supongo que debería revisar su respuesta diciendo "En realidad, una sola señal de voz ocupa 8 kHz, no 8 kbps, de ancho de banda". Una señal de voz puede ocupar el espectro completo de 20-20 khz, pero solo los primeros 4khz se toman en transmisión.
Fat32

¿Creo que querías decir que el oído humano puede discernir frecuencias en ese rango? Esa es una cuestión diferente.
Emre

2

Otra razón es que, antes de la transmisión de la señal digital, el audio del teléfono solía ser analógico modulado en un canal de banda estrecha para que se pudieran enviar múltiples llamadas telefónicas por un solo enlace analógico (relés de torre de RF y microondas, etc.). para que primero se filtre en paso bajo para reducir el ancho de banda requerido para cada canal a fin de empacar el mayor número de canales por un conducto analógico (pero incluso entonces, en un mal día, se puede escuchar alguna llamada telefónica adyacente como fondo ruido). Dado que las personas se acostumbraron a las llamadas de larga distancia que carecían de frecuencias superiores a 3,5 kHz, este ancho de banda se volvió comercialmente aceptable incluso para llamadas locales.

Sin embargo, se utilizaron anchos de banda aún más estrechos para las comunicaciones de exploración espacial temprana, por lo que 3.5 kHz pueden no ser el mínimo para el habla comprensible.


1

Para aclarar muchos conceptos erróneos.

Primero, nunca ha habido un módem de 56k "baudios". La velocidad en baudios se trata de un cambio de estado, y se maximizó a 1200 baudios. Cualquier cosa más allá de eso requería una codificación más sofisticada.

En segundo lugar, la audición humana percibe no solo los tonos fundamentales, sino también muchos órdenes de contenido armónico mucho más allá de lo fundamental. Cuando se elimina ese contenido armónico, el audio suena menos natural y agradable. El audio de mayor resolución (que 8Khz) es más inteligible y más agradable para el oído.

Tercero, Nyquist trabaja dentro de un dominio de tiempo fijo. Si comienza a muestrear en el momento exacto de un pico o valle, solo necesita 2 veces la frecuencia de muestreo a la frecuencia. Sin embargo, en el mundo real, sus puntos de muestra pueden ocurrir en cualquier desplazamiento aleatorio en el tiempo hasta el pico o la depresión, por lo que se requiere una mayor frecuencia de muestreo. Por ejemplo, si muestrea una onda sinusoidal y su momento de muestreo ocurre exactamente a 90 grados de compensación desde el inicio de la onda, sus datos sugerirán una línea recta en lugar de una onda. Para tonos fundamentales esto es crítico. Para contenido armónico, es más agradable tenerlo, con rendimientos decrecientes cerca del extremo superior del rango audible. Nyquist aplicado al procesamiento de audio es uno de los teoremas más mal interpretados que existen.


¿Tiene una referencia para la afirmación de que no hay módems superiores a 1200 baudios? Creo que el reclamo es incorrecto. Además, por lo que vale, el párrafo sobre muestreo es incorrecto. Al muestrear una onda sinusoidal, cualquier frecuencia de muestreo mayor que el doble de la frecuencia del seno es suficiente, independientemente de la fase.
MBaz

0

Como han dicho otros 4 kHz es estándar, porque, naturalmente, donde la voz humana es Source1 source2 . Encontré este artículo que menciona que las frecuencias fundamentales son mucho más bajas en el artículo de 85Hz-300Hz . Si esto funciona o no en la práctica, no puedo decirlo con certeza. pero vale la pena intentarlo


0

El sistema telefónico analógico tenía un filtro de pared de ladrillo a 3.9 KHz. Esto pasó toda la información necesaria para el habla inteligible y permitió el empaquetado del ancho de banda. A muchas personas se les ha lavado el cerebro al pensar en los anchos de banda necesarios. Los anchos de banda de 20-20,000 Hz son excelentes para la música, pero son completamente innecesarios para reproducir el habla humana.

¿Alguien le preguntará a Nyquist cómo enviamos señales de fax de 56 KBaud a través de líneas analógicas con filtros de pared de ladrillo de 3.9 KHz. ¿Alguien recuerda máquinas de fax?

La nota más alta en un piano es 4186 Hz. El rango de frecuencia de las voces humanas es inferior a alrededor de 1000 Hz. Middle C en un piano es de aproximadamente 262 Hz, solo para poner algo de perspectiva sobre las cosas.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.