Leí en algunos lugares que la música se muestrea principalmente a 44,1 kHz, mientras que solo podemos escuchar hasta 20 kHz. Por que es
Leí en algunos lugares que la música se muestrea principalmente a 44,1 kHz, mientras que solo podemos escuchar hasta 20 kHz. Por que es
Respuestas:
Tenga en cuenta que la justificación se publica en muchos lugares: Wikipedia: ¿Por qué 44.1 kHz?
Sony eligió 44.100 porque es el producto de los cuadrados de los primeros cuatro números primos. Esto lo hace divisible por muchos otros números enteros , lo cual es una propiedad útil en el muestreo digital.
44100 = 2^2 * 3^2 * 5^2 * 7^2
Como habrás notado, 44100 también está justo por encima del límite de la audición humana duplicado. La parte anterior les da margen a los filtros, por lo que son menos costosos (menos chips rechazados).
Como Russell señala en los comentarios, el aspecto divisible por muchos otros números enteros tuvo un beneficio inmediato en el momento en que se eligió la frecuencia de muestreo. El audio digital temprano se grabó en medios de grabación de video analógico existentes que admitían, según la región, las especificaciones de video NTSC o PAL . NTSC y PAL tenían diferentes tasas de líneas por campo y campos por segundo, cuyo MCM (junto con las muestras por línea) es 44100 .
La velocidad de Nyquist es superior al doble del límite de banda de una señal de banda base que desea capturar sin ambigüedad (p. Ej., Aliasing).
Muestree a una velocidad inferior a dos veces 20 kHz, y no podrá distinguir la diferencia entre frecuencias muy altas y muy bajas con solo mirar las muestras, debido al aliasing.
Agregado: Tenga en cuenta que cualquier señal de longitud finita tiene soporte infinito en el dominio de frecuencia, por lo tanto, no está estrictamente limitada en banda. Esta es otra razón más por la que se requiere muestrear cualquier fuente de audio no infinita un poco por encima del doble del espectro de frecuencia más alta (en una señal de banda base) para evitar un alias significativo (más allá de las razones de la caída de transición de filtro finito).
Básicamente, el doble del ancho de banda es un requisito común para el muestreo de señal, por lo tanto kHz es un mínimo. Entonces, un poco más es útil para hacer frente a la filtración y cuantificación imperfectas . Los detalles siguen.
Lo que necesitas en teoría no es lo que se requiere en la práctica. Esto va junto con la cita (atribuida a muchos):
En teoría no hay diferencia entre teoría y práctica. En la práctica hay.
No soy un experto en audio, pero he sido entrenado por personas de alta calidad de muestreo / compresión de audio. Mi conocimiento puede estar oxidado, tómalo con precaución.
Primero, la teoría de muestreo estándar funciona bajo algunos supuestos: sistemas lineales e invariancia temporal. Entonces, se sabe que un fenómeno continuo de límite de banda, en teoría, posiblemente se muestrea aproximadamente al doble del ancho de banda (o el doble de la frecuencia máxima para señales de banda base) sin pérdida. La "tasa de Nyquist" a menudo se define como:
la velocidad mínima a la que se puede muestrear una señal sin introducir errores
Esta es la parte de análisis del "teorema de muestreo". El "puede ser" es importante. Hay una parte de síntesis: la señal continua " se puede reconstruir" de forma análoga utilizando senos cardinales. Esta no es la única técnica, y no tiene en cuenta el prefiltrado de paso bajo, no lineal (como la cuantización, la saturación) y otros factores de variación temporal.
La audición humana no es un tema simple. Se acepta que los humanos escuchen frecuencias desde 20 Hz hasta 20,000 Hz. Pero tales límites precisos en Hertz no son un rasgo de la naturaleza para todos los humanos. Una pérdida gradual de sensibilidad a frecuencias más altas es frecuente con la edad. Por otro lado:
En condiciones ideales de laboratorio, los humanos pueden escuchar sonidos tan bajos como 12 Hz y tan altos como 28 kHz, aunque el umbral aumenta bruscamente a 15 kHz en adultos.
La audición no es lineal: hay umbrales de audición y sufrimiento . No es invariante en el tiempo. Hay efectos de enmascaramiento tanto en tiempo como en frecuencia.
Si la banda de 20 Hz a 20,000 Hz es un rango común, y una teoría de 40,000 Hz debería ser suficiente en teoría, se necesita un poco más para hacer frente a la distorsión adicional. Una regla general dice que 10% más está bien ( el ancho de banda de la señal) y 44.100 Hz simplemente lo hace. Se remonta a finales de la década de 1970. ¿Por qué no se usan 44,000 Hz? Principalmente debido a los estándares, establecidos por la popularidad de los CD, cuya tecnología siempre se basa en una compensación. Además, 44.100 es el producto de cuadrados de los primeros cuatro números primos ( ), por lo tanto, tiene factores pequeños, beneficiosos para los cálculos (como FFT).2 2 × 3 2 × 5 2 × 7 2
Entonces, de a (y múltiplos), tenemos un equilibrio en seguridad, cuantización, usabilidad, cálculos y estándares.44.1
Existen otras opciones: el formato DAT, por ejemplo, se lanzó con muestreo de 48 kHz, con una conversión inicialmente difícil. 96 kHz se discute con respecto a la cuantización (o profundidad de bits) en ¿Qué frecuencia de muestreo y profundidad de bits debo usar? Este es un tema controvertido, ver 24 bit 48kHz versículos 24 bit 96kHz . Puede consultar las tasas de muestreo de Audacity, por ejemplo.
Ya se ha respondido por qué es exactamente 44,1 kHz, pero para centrarse en el aspecto de su pregunta relacionado con el límite de la percepción humana, la razón es bastante simple.
La resolución en el tiempo debe ser lo suficientemente fina como para poder generar todas las formas de onda posibles hasta el límite que sea perceptible. Según el teorema de muestreo , la resolución debe ser tal que la frecuencia de muestreo sea al menos el doble de esta frecuencia. Intuitivamente, a la frecuencia más alta, necesita al menos 2 puntos para representar el máximo y el mínimo de su señal, dando esta onda cuadrada Ascii-art:
_ _
|_| |_
Para reproducir fielmente una señal, cuanto más rápida sea la frecuencia de muestreo, mejor. Se eligió ~ 40 kHz, porque era una frecuencia de muestreo baja para la que la mayoría de las personas no puede notar la diferencia (cuando se reconstruye). Cuando se introdujo el muestreo de audio, la memoria y el almacenamiento eran caros y no era posible obtener tasas de muestreo más altas.
Al duplicar el límite superior de la audición humana, dos muestras por ciclo es una reconstrucción muy pobre, incluso si cumple con los criterios de Nyquist para las señales de muestreo, un gráfico simple que representa una onda sinusoidal con dos muestras por ciclo le mostrará cuán pobres son dos muestras por ciclo en la reproducción de una forma de onda. Literalmente puede convertir una onda sinusoidal en onda cuadrada; Es algo bueno a 20 kHz que nadie puede decir. Apuesto a que un perro podría hacerlo.