Hoja de ruta de aprendizaje para principiantes en el procesamiento de señales de audio


13

Me gustaría comenzar a aprender el procesamiento de señales de audio. Existen numerosos libros en línea y documentos académicos que parecen omitir los fundamentos del tema.

Me gustaría conocer una hoja de ruta aproximada, por así decirlo, a seguir para aprender con éxito el procesamiento de la señal de audio.

He leído que el cálculo es el primer paso antes de comenzar con el análisis de señales.

Me parece que el análisis de la señal de audio es solo una parte del conocimiento general necesario. Donde otros temas son teoría de la música, ingeniería de audio y programación.

Si puedo pedirle a personas con conocimiento en esta área que sugieran posibles pasos para comprender cómo analizar y manipular / crear señales de audio.


Estoy de acuerdo en que una formación en cálculo (como mínimo) será importante para que tengas la oportunidad de comprender las matemáticas que podrías encontrar en un texto o curso de teoría de sistemas y señales. Me aseguraría de que estés preparado para fumar allí primero.
Jason R

1
Estas diapositivas pueden ayudar. Sin embargo, obtienen algunos de los conceptos básicos no matemáticos / de ingeniería del procesamiento de audio y la programación de audio. blog.bjornroche.com/2011/11/…
Bjorn Roche

Respuestas:



9

No creo que tenga sentido sumergirse en la complejidad de DFT / FFT / IIR / FIR y wavelets sin comprender primero qué es el audio fundamentalmente y cuáles son las diversas formas de representar el audio digitalmente.

Qué es el audio en general (en el aire, no en el agua u otros materiales):

  • El audio está compuesto de ondas de presión sonora.
  • Causan compresión y rarefacción del aire.
  • Estas ondas se propagan hacia afuera desde el punto de origen.
  • Las olas pueden interferir entre sí causando picos y valles
  • Las ondas pueden ser absorbidas y reflejadas por los materiales.

Cómo se representa el audio eléctricamente:

  • Un micrófono y un preamplificador convierten las ondas de presión de sonido en una señal eléctrica.
  • Por lo general, esta señal tiene un voltaje positivo y negativo (como voltajes de CA)
  • Las cintas magnéticas almacenan estas diferencias tal como aparecen, de ahí el término análogo
  • La saturación ocurre cuando la fuerza de la señal de entrada es igual a los límites del sistema (no se pueden representar con precisión más aumentos en el voltaje)
  • El recorte ocurre cuando la señal de entrada es más alta de lo que puede representar el sistema, por lo que la señal se corta (o se limita en las extremidades)

Cómo se representa el audio digitalmente:

  • El audio primero debe muestrearse usando un ADC (convertidor analógico a digital)
  • El muestreo consiste en medir eléctricamente una señal de audio periódicamente
  • Este período se denomina frecuencia de muestreo y determina la frecuencia más alta que se puede representar (límite de nyquist)
  • El límite de nyquist es la frecuencia de muestreo / 2 (cuanto más se acerca al límite, menos representada está la señal)
  • El rango de bits determina el ruido de fondo, (-96dB para 16 bit vs -48dB para 8 bit)
  • Una sola muestra de audio de 16 bits puede ser un valor (con signo) entre -32768 y 32767 (esto puede representar tanto el swing negativo como el positivo de la señal analógica)
  • Solo se permiten 8 bits por byte (en términos de almacenamiento de la computadora), por lo que una muestra de 16 bits debe estar representada por al menos 2 bytes
  • El orden en que se almacenan estos bytes se conoce como su tipo endian (grande o pequeño)
  • Las muestras estéreo requieren una muestra separada para cada canal, una para la izquierda y otra para la derecha

Qué formas diferentes se utilizan para almacenar audio digital:

  • PCM (código de pulso modulado) es la forma sin compresión más común de almacenar audio digitalmente
  • Existen muchas compresiones para reducir la cantidad de datos utilizados, algunos son sin pérdida, otros son con pérdida
  • Los archivos WAV no están comprimidos y pueden ser mono o estéreo (muestras intercaladas)
  • Los archivos MP3 son comprimidos, con pérdida y emplean psicoacústica para lograr tasas de compresión de datos muy altas.
  • Incluso el rango de bits más bajo (1 bit) puede ser útil dependiendo de su uso, generalmente tarjetas de regalo que reproducen audio almacenado como 1 bit

Cómo familiarizarse con el audio en el ámbito digital:

  • ¡Haz y haz más! Descargue un programa como audacity y cree diferentes archivos de audio utilizando diferentes frecuencias de muestreo y rangos de bits
  • Crea tonos sinusoidales / triangulares / cuadrados y dientes de sierra y escucha las diferencias
  • Aprenda a escuchar la diferencia entre tipos como un archivo de 8 bits a 10 kHz y un archivo de 16 bits a 44.1 kHz (calidad de CD)
  • Experimente con filtros de paso alto / paso bajo / paso de banda y escuche las diferencias
  • Empuje las señales más allá de su límite de saturación para comprender cómo el recorte afecta la señal de audio
  • Aplique sobres a las señales si su software tiene esta capacidad
  • Hay una diferencia entre distorsión armónica y armónica, experimente con ambas
  • Use un espectrograma (FFT) para ver estas y otras señales para familiarizarse con ellas.
  • Use gráficos lineales y logarítmicos para ver las diferencias.
  • Muestras de submuestreo y submuestreo y escucha cómo esto afecta el audio
  • Use diferentes métodos de interpolación (al convertir rangos de bits) y escuche las diferencias

Con suerte, esto le dará una idea de qué es el audio representado digitalmente y cómo suenan las diferencias antes de intentar cualquier DSP. Siempre es más fácil saber que algo está mal con su análisis FFT si puede reconocer que ha introducido una señal de 8 bits frente a una señal de 16 bits, por ejemplo, o que la frecuencia de muestreo se ha dañado por un error de cálculo incorrecto en una transformación.


Gracias por la respuesta. Sin embargo, soy consciente de estas cosas y me gustaría entrar en el lado de la codificación dsp ahora.
jarryd
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.