¿Por qué no se igualan los auriculares activos a una respuesta de frecuencia plana?


11

Algunos auriculares son 'activos', con amplificadores integrados en las copas y que requieren una fuente de alimentación (generalmente baterías AAA).

Luego veo muchos audiófilos discutiendo la respuesta de frecuencia como una métrica de lo buenos que son los auriculares, y descartan categóricamente la mayoría de los auriculares 'activos' como el Dre Beats Studio.

Sin embargo, con algunos amplificadores operacionales, sería bastante fácil ecualizar la señal de entrada, preamplificada, de modo que pudiera corregir completamente la respuesta de frecuencia del controlador y, por lo tanto, producir una respuesta de frecuencia extremadamente plana si se desea (o no, como el bajo impulso o corte).

¿Hay algo particularmente difícil al hacerlo?

Gráfico de respuesta de frecuencia http://graphs.headphone.com/graphCompare.php?graphType=0&graphID[[=1383&graphID[[=193&graphID[[=1263&graphID[[=853&scale=20

Por ejemplo, para el Dre Beats Studio (línea azul), quizás el circuito EQ podría proporcionar + 3db @ 750Hz, -5dB @ 1100Hz, +6.5dB@1300Hz, + 5dB @ 1550Hz, -4.5dB@8.5kHz y + 14dB @ 15kHz, con las pendientes ajustadas para alinear mejor la respuesta de frecuencia a 0db de 500Hz a 20kHz.

Respuestas:


20

Cuando pone algo en su oído que reproduce grabaciones estéreo estándar, no desea una respuesta de frecuencia plana porque la función de transferencia relacionada con la cabeza que normalmente entra en juego para una fuente de sonido mucho más alejada se ve muy diferente cuando la fuente está contra su oído .

Déjame citarte un par de párrafos de un libro :

De todos los componentes de la cadena de transmisión electroacústica, los auriculares son los más controvertidos. La alta fidelidad en su verdadero sentido, que implica no solo el timbre sino también la localización espacial, se asocia más con la estereofonía de los altavoces debido a la conocida localización en la cabeza de los auriculares. Y, sin embargo, las grabaciones binaurales con una cabeza simulada, que son las más prometedoras para una alta fidelidad real, están destinadas a la reproducción de auriculares. Incluso en su apogeo no encontraron lugar en la grabación y transmisión de rutina. En ese momento, las causas eran la localización frontal poco confiable, la incompatibilidad con la reproducción de altavoces, así como su tendencia a no ser estéticas. Dado que el procesamiento de señal digital (DSP) puede filtrar de manera rutinaria utilizando funciones de transferencia relacionadas con la cabeza binaural, HRTF, ya no se necesitan cabezas falsas.

Aún así, la aplicación más común de los auriculares es alimentarlos con señales estéreo originalmente destinadas a altavoces. Esto plantea la cuestión de la respuesta de frecuencia ideal. Para otros dispositivos en la cadena de transmisión (Fig. 14.1), como micrófonos, amplificadores y altavoces, una respuesta plana suele ser el objetivo del diseño, con desviaciones fácilmente definibles de esta respuesta en casos especiales. Se requiere un altavoz para producir una respuesta SPL plana a una distancia de típicamente 1 m. El SPL de campo libre en este punto reproduce el SPL en la ubicación del micrófono en el campo de sonido de, digamos, un concierto que se está grabando. Al escuchar la grabación frente a un LS, la cabeza del oyente distorsiona el SPL linealmente por difracción. Sus señales auditivas ya no muestran una respuesta plana. Sin embargo, Esto no tiene por qué preocupar al fabricante de altavoces, ya que esto también habría sucedido si el oyente hubiera estado presente en la presentación en vivo. Por otro lado, el fabricante de auriculares está directamente interesado en producir estas señales auditivas. Los requisitos establecidos en los estándares han llevado a los auriculares calibrados de campo libre, cuya respuesta de frecuencia replica las señales del oído para un altavoz en el frente, así como la calibración de campo difuso, en el que el objetivo es replicar el SPL en el oído de Un oyente para el sonido que entra desde todas las direcciones. Se supone que muchos altavoces tienen fuentes incoherentes, cada uno con una respuesta de voltaje plano. El fabricante de auriculares está directamente interesado en producir estas señales auditivas. Los requisitos establecidos en los estándares han llevado a los auriculares calibrados de campo libre, cuya respuesta de frecuencia replica las señales del oído para un altavoz en el frente, así como la calibración de campo difuso, en el que el objetivo es replicar el SPL en el oído de Un oyente para el sonido que entra desde todas las direcciones. Se supone que muchos altavoces tienen fuentes incoherentes, cada uno con una respuesta de voltaje plano. El fabricante de auriculares está directamente interesado en producir estas señales auditivas. Los requisitos establecidos en los estándares han llevado a los auriculares calibrados de campo libre, cuya respuesta de frecuencia replica las señales del oído para un altavoz en el frente, así como la calibración de campo difuso, en el que el objetivo es replicar el SPL en el oído de Un oyente para el sonido que entra desde todas las direcciones. Se supone que muchos altavoces tienen fuentes incoherentes, cada uno con una respuesta de voltaje plano. en el que el objetivo es replicar el SPL en el oído de un oyente para que el sonido llegue desde todas las direcciones. Se supone que muchos altavoces tienen fuentes incoherentes, cada uno con una respuesta de voltaje plano. en el que el objetivo es replicar el SPL en el oído de un oyente para que el sonido llegue desde todas las direcciones. Se supone que muchos altavoces tienen fuentes incoherentes, cada uno con una respuesta de voltaje plano.

ingrese la descripción de la imagen aquí

(a) Respuesta de campo libre: a falta de una referencia mejor, los diversos estándares internacionales y otros han establecido el siguiente requisito para auriculares de alta fidelidad: la respuesta de frecuencia y el volumen percibido para una entrada de señal mono de voltaje constante es aproximadamente de un altavoz de respuesta plana frente al oyente en condiciones anecoicas. La función de transferencia de campo libre (FF) de un auricular a una frecuencia dada (1000 Hz elegidos como referencia de 0 dB) es igual a la cantidad en dB por la cual se amplificará la señal de los auriculares para obtener el mismo volumen. Se requiere un promedio de un número mínimo de sujetos (generalmente ocho). [...] La figura 14.76 muestra un campo de tolerancia típico.

ingrese la descripción de la imagen aquí

(b) Respuesta de campo difuso: Durante la década de 1980 comenzó un movimiento para reemplazar los requisitos estándar de campo libre por otro, donde el campo difuso (DF) es la referencia. Al final resultó que, ha llegado a los estándares, pero sin reemplazar el antiguo. Los dos ahora se paran uno al lado del otro. La insatisfacción con la referencia FF surgió principalmente de la magnitud del pico de 2 kHz. Se hizo responsable de la coloración de la imagen, ya que la localización frontal no se logra ni siquiera para una señal mono. El modelo de asociación de Theile describe la forma en que el mecanismo auditivo percibe la coloración (figura 14.62). En la figura 14.77 se muestra una comparación de las respuestas auditivas para campo difuso y campo libre. [...] Dado que la prueba de audición subjetiva es la que cuenta, Los auriculares FF hasta ahora han sido más la excepción que la regla. Hay un conjunto de diferentes respuestas de frecuencia disponibles para satisfacer las preferencias individuales, y cada fabricante tiene su propia filosofía de auriculares con respuestas de frecuencia que van desde el campo plano al campo libre y más allá.

ingrese la descripción de la imagen aquí

Este problema de diferencia de HRTF también es la razón por la cual los controladores angulados (en los auriculares) suenan mejor para suficientes personas que las compañías como Sennheiser venden. Sin embargo, los controladores angulados no hacen que los auriculares suenen completamente como altavoces.

En la fábrica o en el laboratorio se usa un oído artificial para medir la respuesta de frecuencia. El de abajo es de nivel de laboratorio; los de nivel de fábrica son un poco más simples.

ingrese la descripción de la imagen aquí

También encontré la metodología utilizada por ese sitio HeadRoom :

Cómo probamos la respuesta de frecuencia: para realizar esta prueba, manejamos los auriculares con una serie de 200 tonos al mismo voltaje y con una frecuencia cada vez mayor. Luego medimos la salida en cada frecuencia a través de los oídos del micrófono Head Acoustics altamente especializado (¡y costoso!). Después de eso, aplicamos una curva de corrección de audio que elimina la función de transferencia relacionada con el cabezal y produce con precisión los datos para su visualización.

El micrófono utilizado es probablemente este . Parece que en realidad invierten la función de transferencia de la cabeza / orejas ficticias a través del software porque dicen justo antes de eso que "Teóricamente, este gráfico debería ser una línea plana a 0dB" ... pero no estoy completamente seguro de lo que hacen ... porque después de eso dicen "Un auricular con" sonido natural "debería estar ligeramente más alto en los graves (aproximadamente 3 o 4 dB) entre 40Hz y 500Hz". y "Los auriculares también deben colocarse en los agudos para compensar que los controladores estén tan cerca del oído; una línea plana suavemente inclinada de 1kHz a aproximadamente 8-10dB hacia abajo a 20kHz es lo correcto". Lo que no me compila en relación con su declaración anterior sobre la inversión / eliminación de HRTF.

Al observar algunos certificados que las personas obtuvieron del fabricante (Sennheiser) para el modelo de auriculares (HD800) utilizado en ese ejemplo de HeadRoom, parece que HeadRoom muestra los datos sin ningún modelo de corrección asumido para los auriculares en sí (lo que explicaría por qué dan sus sugerencias de interpretación posteriores, por lo que su sugerencia "plana" inicial es la engañosa), mientras que Sennheiser utiliza la corrección DF (campo difuso) para que sus gráficos se vean casi planos.

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

Sin embargo, esto es solo una suposición, las diferencias en el equipo de medición (y / o entre muestras de auriculares) podrían explicar esas diferencias, ya que no son tan grandes.


De todos modos, esta es un área de investigación activa y continua (como probablemente adivinó de las últimas oraciones citadas anteriormente sobre DF). Algunos investigadores de HK han hecho bastante de esto; No tengo acceso (gratuito) a sus documentos de AES, pero se pueden leer algunos resúmenes bastante extensos en el blog 2013 , 2014 de innerfidelity , así como los siguientes enlaces del blog del autor principal de HK, Sean Olive ; Como atajo, aquí hay algunas diapositivas gratuitas de su presentación más reciente (noviembre de 2015) encontrada allí. Esto es bastante material ... Solo lo he visto brevemente, pero el tema parece ser que DF no es lo suficientemente bueno.

Aquí hay un par de diapositivas interesantes de una de sus presentaciones anteriores . Primero, la respuesta de frecuencia completa (no truncada a 12KHz) de HD800 y en equipos más claramente revelados:

ingrese la descripción de la imagen aquí

Y quizás de mayor interés para el OP, el sonido grave de los Beats no es tan atractivo, en comparación con los auriculares que cuestan entre cuatro y seis veces más.

ingrese la descripción de la imagen aquí


No estoy de acuerdo con su libro donde dice "Y, sin embargo, las grabaciones binaurales con una cabeza simulada, que son las más prometedoras para la alta fidelidad real, están destinadas a la reproducción de auriculares. Incluso en su apogeo no encontraron lugar en la grabación de rutina y radiodifusión." Cada evento deportivo televisado en vivo en el que he trabajado utiliza una matriz de micrófonos "holophone" para capturar el sonido ambiental para su uso en la mezcla de audio de sonido envolvente. www.holophone.com
Dwayne Reid

@DwayneReid: Interesante. ¿Sin embargo, es el objetivo final de esos auriculares de grabación o es 5.1 o 7.1 envolvente con altavoces? También hay tecnología para mezclar 5.1 / 7.1 a auriculares, pero no me he metido en eso aquí.
Fizz

Bueno, el producto anunciado en su página principal dice que "es el único micrófono patentado diseñado específicamente para capturar 7.1 canales discretos de sonido envolvente", por lo que la "increíblemente realista experiencia de reproducción de audio en 3D en altavoces o auriculares estéreo" probablemente utiliza un método de mezcla descendente ( de 7.1) para auriculares.
Fizz

Gracias, esta respuesta ha sido realmente informativa. ¿Estoy resumiendo correctamente para decir: la respuesta de frecuencia de los auriculares está tratando de emular la distorsión que se crearía a partir de una fuente de audio frontal que se difunde alrededor de la cara y en los canales auditivos, y una respuesta de frecuencia perfectamente plana sonaría 'antinatural'?
Ehryk

Todavía no está claro si están aplicando la transformación inversa, entonces el objetivo sería nuevamente una línea plana de 0dB en todo el espectro de frecuencia, que en teoría podría introducirse a través de un ecualizador (idealmente preamplificación). Alguna idea sobre por qué los fabricantes de auriculares activos no están haciendo esto para tener una corrección de distorsión posterior a la cabeza de curva plana de 0 dB, o tal vez vendiendo amplificadores de auriculares dedicados con ellos que aplican este ecualizador como el Sennheiser Orpheus, pero tal vez por menos de $ 30k ? Ellos aparentemente ser los ideales auriculares entonces ...
Ehryk

4

La respuesta simple es que un sistema de respuesta de frecuencia plana construido con amplificadores operacionales para corregir la respuesta del conductor necesariamente tendrá una respuesta de fase muy plana en la banda de paso. Esta falta de planitud significa que las frecuencias componentes de los sonidos transitorios se retrasan de manera desigual, lo que resulta en una sutil distorsión transitoria que impide el reconocimiento adecuado de los componentes del sonido, lo que significa que se pueden distinguir menos sonidos distintos.

En consecuencia, suena terrible. Como si todo el sonido provenga de una bola difusa centrada exactamente entre los oídos.

El problema de HRTF en la respuesta anterior es solo una parte de esto; la otra es que un circuito de dominio analógico realizable solo puede tener una respuesta de tiempo causal, y para corregir el controlador correctamente uno necesita un filtro acausal.

Esto se puede aproximar digitalmente con un filtro de respuesta de impulso finito compatible con el controlador, pero esto requiere un pequeño retraso de tiempo que es suficiente para que las películas no estén sincronizadas.

Y todavía parece que proviene de su cabeza, a menos que el HRTF también se agregue nuevamente.

Entonces, no es tan simple después de todo.

Para hacer un sistema "transparente", no necesita simplemente una banda de paso plana sobre el rango de audición humana, también necesita una fase lineal, un gráfico de retardo de grupo plano, y hay alguna evidencia que sugiere que esta fase lineal necesita continuar hasta una frecuencia sorprendentemente alta para que las señales direccionales no se pierdan.

Esto es fácil de verificar mediante experimentos: abra un archivo .wav de música con la que esté familiarizado en un editor de archivos de sonido como Audacity o snd, y elimine una sola muestra de 44100 Hz de un solo canal, y vuelva a alinear el otro canal para que el primero La muestra ahora ocurre con el segundo canal editado y reprodúzcalo.

Escuchará una diferencia muy notable, aunque la diferencia sea un retraso de solo 1/44100 de segundo.

Considere esto: el sonido es de aproximadamente 340 mm / ms, por lo que a 20 kHz es un error de tiempo de más menos un retraso de muestra, o 50 microsegundos. Son 17 mm de recorrido de sonido, pero puedes escuchar la diferencia con esos 22,67 microsegundos que faltan, que son solo 7,7 mm de recorrido de sonido.

El corte absoluto de la audición humana generalmente se considera alrededor de 20 kHz, entonces, ¿qué está pasando?

La respuesta es que las pruebas de audición se realizan con tonos de prueba que consisten principalmente en una sola frecuencia a la vez, durante un tiempo bastante largo en cada parte de la prueba. Pero nuestros oídos internos consisten en una estructura física que realiza una especie de FFT en el sonido mientras expone las neuronas a él, de modo que las neuronas en diferentes posiciones se correlacionan con diferentes frecuencias.

Las neuronas individuales solo pueden volver a dispararse tan rápido, por lo que en algunos casos algunas se usan una tras otra para mantenerse al día ... pero esto solo funciona hasta aproximadamente 4 kHz más o menos ... Lo cual es justo donde nuestro La percepción del tono termina. Sin embargo, no hay nada en el cerebro que detenga el disparo de una neurona en cualquier momento en que se sienta tan inclinado, entonces, ¿cuál es la frecuencia más alta que importa?

El punto es que la pequeña diferencia de fase entre los oídos es perceptible, pero en lugar de cambiar la forma en que identificamos los sonidos (por su estructura espectrográfica) afecta la forma en que percibimos su dirección. (¡que el HRTF también cambia!) Aunque parece que debería "retirarse" de nuestro rango de audición.

La respuesta es que el punto -3dB o incluso -10dB todavía es demasiado bajo: debe ir aproximadamente al punto -80 dB para obtenerlo todo. Y si desea manejar un sonido fuerte y silencioso, entonces necesita estar bien por debajo de -100 dB. Es poco probable que vea una prueba de audición de un solo tono, en gran parte porque tales frecuencias solo "cuentan" cuando llegan en fase con sus otros armónicos como parte de un sonido transitorio agudo: su energía en este caso se suma, alcanzando una concentración suficiente para desencadenar una respuesta neuronal, aunque como componentes de frecuencia individuales de forma aislada puedan ser demasiado pequeños para contarlos.

Otro problema es que estamos constantemente bombardeados por muchas fuentes de ruido ultrasónico de todos modos, probablemente en gran parte debido a neuronas rotas en nuestros propios oídos internos, dañadas por un nivel de sonido excesivo en algún momento anterior de nuestras vidas. ¡Sería difícil discernir el tono de salida aislado de una prueba de audición sobre un ruido "local" tan fuerte!

Por lo tanto, esto requiere un diseño de sistema "transparente" para usar una frecuencia de paso bajo mucho más alta de modo que haya espacio para que el paso bajo humano se desvanezca (con su propia modulación de fase para la cual su cerebro ya está "calibrado") antes del sistema La modulación de fase comienza a cambiar la forma de los transitorios y a cambiarlos a tiempo para que el cerebro ya no pueda reconocer a qué sonido pertenecen.

Con los auriculares es mucho más fácil simplemente construirlos para que tengan un solo controlador de banda ancha con suficiente ancho de banda, y confiar en la respuesta de frecuencia natural muy alta del controlador 'sin corregir' para evitar la distorsión temporal. Esto funciona mucho mejor con los auriculares, ya que la pequeña masa del conductor se presta bien a esta condición.

La razón por la que se necesita linealidad de fase está profundamente arraigada en la dualidad de dominio de frecuencia en el dominio del tiempo, como es la razón por la que no se puede construir un filtro de retardo cero que pueda "corregir perfectamente" cualquier sistema físico real.

La razón por la que importa la "linealidad de fase" y no la "planitud de fase" es porque la pendiente general de la curva de fase no importa: por dualidad, cualquier pendiente de fase es equivalente a un retraso de tiempo constante.

El oído externo de cada persona tiene una forma diferente y, por lo tanto, se produce una función de transferencia diferente a frecuencias ligeramente diferentes. Su cerebro está acostumbrado a lo que tiene, con sus propias resonancias distintas. Si usa el incorrecto, en realidad sonará peor, ya que las correcciones a las que está acostumbrado su cerebro ya no se corresponderán con las de la función de transferencia de los auriculares, y tendrá algo peor que la falta de cancelación de resonancia: tendrá el doble de polos / ceros desequilibrados que abarrotan su retraso de fase y destrozan por completo los retrasos de su grupo y las relaciones de tiempo de llegada de componentes.

Sonará muy poco claro y no podrá distinguir las imágenes espaciales codificadas por la grabación.

Si realiza una prueba de audición ciega A / B, todos seleccionarán los auriculares no corregidos que, al menos, no estropearán tanto las demoras del grupo, para que sus cerebros puedan volver a sintonizarse con ellos.

Y esta es realmente la razón por la cual los auriculares activos no intentan igualar. Es demasiado difícil hacerlo bien.

También es la razón por la cual la corrección digital de la sala es el nicho: porque usarla adecuadamente requiere mediciones frecuentes, que son difíciles / imposibles de hacer en vivo, y que los consumidores generalmente no quieren saber.

Principalmente porque las resonancias acústicas en la sala bajo corrección, que son en su mayoría parte de la respuesta de graves, siguen cambiando ligeramente a medida que cambian la presión del aire, la temperatura y la humedad, lo que cambia ligeramente la velocidad del sonido y las resonancias lejos de lo que fueron cuando se tomó la medida.


Filtrar en el F domian causa distorsión de fase. Toda la ecualización de fase de paso se puede utilizar para compensar esta teoría .IN digital o analógico puede tener una buena fase. Digital en estos días ofrece una mejor flexibilidad.
Autista

Ah gracias. Esto deja en claro por qué no se hace en los auriculares activos que pasan señal analógica (auriculares con cable). Aparentemente, esto deja abierta la posibilidad de que los niveles se ajusten en tiempo real sin distorsión de fase, ya sea digitalmente en la fuente (como una computadora o teléfono) o digitalmente en auriculares inalámbricos sin demora; ¿Está esto todavía abierto como una viabilidad para una respuesta 'perfectamente plana' (post HRTF)?
Ehryk

No. Debe haber algún retraso. De lo contrario, literalmente necesita una máquina del tiempo, ya que la única forma de corregir la fase de un sistema real (causal), sin agregar ningún retraso, sería utilizar un filtro con la respuesta de tiempo anti-causal exactamente invertida. Y esto significa que necesariamente necesita saber el "futuro" de la señal antes de que
llegue

-1

Un interesante artículo y discusión. Tendemos a pensar que el teorema de Nyquist es una regla que se aplica en todas partes, y luego descubrimos que no es así. Mide el límite de la audición humana a 20 kHz utilizando ondas sinusoidales y luego toma muestras a 44,1 o 48 kHz con la confianza de haber capturado todo lo que el oído puede oír. Sin embargo, cambiar un canal por una muestra provoca un cambio significativo aunque la diferencia, temporalmente, es superior a 20 kHz.

En imágenes en movimiento, creemos que el ojo integra imágenes con una velocidad de cuadro superior a 20 cuadros por segundo. Por lo tanto, la película se graba a 24 fps y se reproduce con un obturador 2x para reducir el parpadeo (48 fps); La TV tiene una velocidad de cuadro de 50 o 60 Hz según la región. Algunos de nosotros podemos ver un parpadeo de velocidad de cuadro de 50 Hz, especialmente si hemos crecido con 60 Hz. Pero aquí es donde se pone interesante. En el Retiro Tecnológico de Hollywood Professional Association y en las conferencias SMPTE en los últimos años, se ha demostrado que un espectador promedio ve una mejora significativa en la calidad cuando el marco nativo se extiende de 60 Hz a 120 Hz. Aún más sorprendente, los mismos espectadores vieron una mejora similar al aumentar la velocidad de cuadros de 120 a 240 Hz. Nyquist nos diría que si no podemos ver la velocidad de fotogramas a 24, solo necesitamos duplicar la velocidad de fotogramas para garantizar la captura de todo lo que el ojo puede resolver; Sin embargo, aquí estamos a 10 veces la velocidad de fotogramas y aún observamos diferencias notables.

Claramente hay más pasando aquí. En el caso de las imágenes en movimiento, el movimiento en la imagen afecta la velocidad de fotogramas requerida. Y en audio, esperaría que la complejidad y la densidad del paisaje sonoro determinen la resolución de audio necesaria. Todos esos sonidos dependen mucho más de su coherencia de fase que de la respuesta de frecuencia para proporcionar la articulación necesaria para la imagen.


No encuentro nada aquí que responda a la pregunta. ¿Qué tienen que ver la frecuencia de muestreo y el teorema de muestreo de Nyquist con la ecualización de auriculares?
tubería

No hay ADC en humanos. La visión / audición humana no "muestra" nada, utiliza neuronas que son una especie de mezcla entre lo analógico y lo digital y son prácticamente continuas. El oído tiene un corte físico. La percepción visual también está limitada por la rapidez con que el cerebro puede procesar la información.
Voltaje pico
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.