La respuesta simple es que un sistema de respuesta de frecuencia plana construido con amplificadores operacionales para corregir la respuesta del conductor necesariamente tendrá una respuesta de fase muy plana en la banda de paso. Esta falta de planitud significa que las frecuencias componentes de los sonidos transitorios se retrasan de manera desigual, lo que resulta en una sutil distorsión transitoria que impide el reconocimiento adecuado de los componentes del sonido, lo que significa que se pueden distinguir menos sonidos distintos.
En consecuencia, suena terrible. Como si todo el sonido provenga de una bola difusa centrada exactamente entre los oídos.
El problema de HRTF en la respuesta anterior es solo una parte de esto; la otra es que un circuito de dominio analógico realizable solo puede tener una respuesta de tiempo causal, y para corregir el controlador correctamente uno necesita un filtro acausal.
Esto se puede aproximar digitalmente con un filtro de respuesta de impulso finito compatible con el controlador, pero esto requiere un pequeño retraso de tiempo que es suficiente para que las películas no estén sincronizadas.
Y todavía parece que proviene de su cabeza, a menos que el HRTF también se agregue nuevamente.
Entonces, no es tan simple después de todo.
Para hacer un sistema "transparente", no necesita simplemente una banda de paso plana sobre el rango de audición humana, también necesita una fase lineal, un gráfico de retardo de grupo plano, y hay alguna evidencia que sugiere que esta fase lineal necesita continuar hasta una frecuencia sorprendentemente alta para que las señales direccionales no se pierdan.
Esto es fácil de verificar mediante experimentos: abra un archivo .wav de música con la que esté familiarizado en un editor de archivos de sonido como Audacity o snd, y elimine una sola muestra de 44100 Hz de un solo canal, y vuelva a alinear el otro canal para que el primero La muestra ahora ocurre con el segundo canal editado y reprodúzcalo.
Escuchará una diferencia muy notable, aunque la diferencia sea un retraso de solo 1/44100 de segundo.
Considere esto: el sonido es de aproximadamente 340 mm / ms, por lo que a 20 kHz es un error de tiempo de más menos un retraso de muestra, o 50 microsegundos. Son 17 mm de recorrido de sonido, pero puedes escuchar la diferencia con esos 22,67 microsegundos que faltan, que son solo 7,7 mm de recorrido de sonido.
El corte absoluto de la audición humana generalmente se considera alrededor de 20 kHz, entonces, ¿qué está pasando?
La respuesta es que las pruebas de audición se realizan con tonos de prueba que consisten principalmente en una sola frecuencia a la vez, durante un tiempo bastante largo en cada parte de la prueba. Pero nuestros oídos internos consisten en una estructura física que realiza una especie de FFT en el sonido mientras expone las neuronas a él, de modo que las neuronas en diferentes posiciones se correlacionan con diferentes frecuencias.
Las neuronas individuales solo pueden volver a dispararse tan rápido, por lo que en algunos casos algunas se usan una tras otra para mantenerse al día ... pero esto solo funciona hasta aproximadamente 4 kHz más o menos ... Lo cual es justo donde nuestro La percepción del tono termina. Sin embargo, no hay nada en el cerebro que detenga el disparo de una neurona en cualquier momento en que se sienta tan inclinado, entonces, ¿cuál es la frecuencia más alta que importa?
El punto es que la pequeña diferencia de fase entre los oídos es perceptible, pero en lugar de cambiar la forma en que identificamos los sonidos (por su estructura espectrográfica) afecta la forma en que percibimos su dirección. (¡que el HRTF también cambia!) Aunque parece que debería "retirarse" de nuestro rango de audición.
La respuesta es que el punto -3dB o incluso -10dB todavía es demasiado bajo: debe ir aproximadamente al punto -80 dB para obtenerlo todo. Y si desea manejar un sonido fuerte y silencioso, entonces necesita estar bien por debajo de -100 dB. Es poco probable que vea una prueba de audición de un solo tono, en gran parte porque tales frecuencias solo "cuentan" cuando llegan en fase con sus otros armónicos como parte de un sonido transitorio agudo: su energía en este caso se suma, alcanzando una concentración suficiente para desencadenar una respuesta neuronal, aunque como componentes de frecuencia individuales de forma aislada puedan ser demasiado pequeños para contarlos.
Otro problema es que estamos constantemente bombardeados por muchas fuentes de ruido ultrasónico de todos modos, probablemente en gran parte debido a neuronas rotas en nuestros propios oídos internos, dañadas por un nivel de sonido excesivo en algún momento anterior de nuestras vidas. ¡Sería difícil discernir el tono de salida aislado de una prueba de audición sobre un ruido "local" tan fuerte!
Por lo tanto, esto requiere un diseño de sistema "transparente" para usar una frecuencia de paso bajo mucho más alta de modo que haya espacio para que el paso bajo humano se desvanezca (con su propia modulación de fase para la cual su cerebro ya está "calibrado") antes del sistema La modulación de fase comienza a cambiar la forma de los transitorios y a cambiarlos a tiempo para que el cerebro ya no pueda reconocer a qué sonido pertenecen.
Con los auriculares es mucho más fácil simplemente construirlos para que tengan un solo controlador de banda ancha con suficiente ancho de banda, y confiar en la respuesta de frecuencia natural muy alta del controlador 'sin corregir' para evitar la distorsión temporal. Esto funciona mucho mejor con los auriculares, ya que la pequeña masa del conductor se presta bien a esta condición.
La razón por la que se necesita linealidad de fase está profundamente arraigada en la dualidad de dominio de frecuencia en el dominio del tiempo, como es la razón por la que no se puede construir un filtro de retardo cero que pueda "corregir perfectamente" cualquier sistema físico real.
La razón por la que importa la "linealidad de fase" y no la "planitud de fase" es porque la pendiente general de la curva de fase no importa: por dualidad, cualquier pendiente de fase es equivalente a un retraso de tiempo constante.
El oído externo de cada persona tiene una forma diferente y, por lo tanto, se produce una función de transferencia diferente a frecuencias ligeramente diferentes. Su cerebro está acostumbrado a lo que tiene, con sus propias resonancias distintas. Si usa el incorrecto, en realidad sonará peor, ya que las correcciones a las que está acostumbrado su cerebro ya no se corresponderán con las de la función de transferencia de los auriculares, y tendrá algo peor que la falta de cancelación de resonancia: tendrá el doble de polos / ceros desequilibrados que abarrotan su retraso de fase y destrozan por completo los retrasos de su grupo y las relaciones de tiempo de llegada de componentes.
Sonará muy poco claro y no podrá distinguir las imágenes espaciales codificadas por la grabación.
Si realiza una prueba de audición ciega A / B, todos seleccionarán los auriculares no corregidos que, al menos, no estropearán tanto las demoras del grupo, para que sus cerebros puedan volver a sintonizarse con ellos.
Y esta es realmente la razón por la cual los auriculares activos no intentan igualar. Es demasiado difícil hacerlo bien.
También es la razón por la cual la corrección digital de la sala es el nicho: porque usarla adecuadamente requiere mediciones frecuentes, que son difíciles / imposibles de hacer en vivo, y que los consumidores generalmente no quieren saber.
Principalmente porque las resonancias acústicas en la sala bajo corrección, que son en su mayoría parte de la respuesta de graves, siguen cambiando ligeramente a medida que cambian la presión del aire, la temperatura y la humedad, lo que cambia ligeramente la velocidad del sonido y las resonancias lejos de lo que fueron cuando se tomó la medida.