Teoría detrás de la codificación predictiva lineal (LPC)


9
  • ¿Cuál es la teoría detrás de LPC?
  • ¿Por qué se dice (eran) que ciertas implementaciones de LPC son más tolerantes a la cuantificación de errores de transmisión o codificación que otros esquemas de codificación de voz comprimida?

  • ¿Se pueden usar también los métodos LPC para suavizar o "predicción" a corto plazo similar al uso de los métodos de filtro de Kalman?

  • ¿Bajo qué condiciones o restricciones es válido el uso de LPC?

"¿Por qué (se dijo) que LPC es más tolerante a los errores de transmisión o codificación que algunos otros esquemas de codificación de voz comprimida?" ¿Quien dijo que? No conozco LPC muy bien, pero pensé que tenía que ver con reducir la redundancia, lo que tendría el efecto contrario.
endolito

Esta pregunta es engañosa, ya que es una premisa falsa. Por favor, cierre y rectifique esto.
Dipan Mehta

Hay múltiples preguntas y premisas aquí. ¿Cuál (s) crees que necesita reparación?
hotpaw2

1
La afirmación Why are(were) certain implementations of LPC said to be more tolerant of transmission or encoding errors quantization than other compressed voice encoding schemes?es bastante falsa. ¿Puedes citar alguna referencia que diga específicamente qué es mejor que otra?
Dipan Mehta

1
Esa es realmente mi pregunta. Escuché esto en alguna parte, pero no sé por qué esto podría haberse dicho.
hotpaw2

Respuestas:


14

Primero, decir que la codificación predictiva lineal (LPC) es "más tolerante a los errores de transmisión o codificación" no es del todo cierto. La forma en que se transmiten los coeficientes hace una gran diferencia. Por ejemplo, si se resuelven los coeficientes de predicción lineal, pueden ser muy sensibles a la cuantización, al igual que los coeficientes de filtro IIR de alto orden (esto se debe a que el filtro de síntesis será IIR, pero más sobre eso más adelante). Sin embargo, si se transmiten de alguna otra forma, este problema puede mitigarse fácilmente.

Una forma es transferir los coeficientes de reflexión. Si resuelve recursivamente un filtro de predicción lineal de orden k, el coeficiente de orden más alto en cada etapa se llama coeficiente de reflexión. Estos se pueden usar juntos para caracterizar completamente el sistema (que se puede ver fácilmente desde la recursión de Levinson). De hecho, puede usarlos todos juntos para formar un filtro de red. Estos filtros a menudo se usan cuando la cuantización es una preocupación, ya que son mucho más robustos para conteos de bits bajos. Además, si la magnitud de estos coeficientes de reflexión está limitada por la unidad, se le garantiza un filtro estable BIBO que es crítico para LPC, donde el filtro se utiliza para sintetizar su señal. Existen otros métodos, como los pares espectrales de líneas, que se usan con frecuencia, pero no son

Ahora, para abordar la primera pregunta, la teoría de LPC gira en torno al modelado del tracto vocal. Esencialmente, estamos modelando el habla como aire que vibra como una entrada a un tubo de alguna estructura. Puede buscar algunos recursos que entran en más detalles para desarrollar este modelo (longitud de los tubos, intensidad del aire, estructura, etc.). Estos recursos relacionan estas estructuras directamente con los filtros IIR que responden a varios estímulos, por ejemplo, el ruido blanco.

Entonces, cuando resolvemos los coeficientes de predicción lineal, buscamos los coeficientes de tal manera que si ingresamos nuestra señal (voz, por ejemplo) en un filtro FIR creado a partir de los coeficientes, obtenemos ruido blanco como salida. Así que piensa en lo que eso significa. Estamos ingresando un altamenteseñal correlacionada y emitiendo una secuencia de ruido blanco. En efecto, estamos eliminando toda dependencia lineal de esa señal. Otra forma de ver esto es que toda la información significativa está contenida en los coeficientes que eliminan esta dependencia lineal. Por lo tanto, podemos transferir estos coeficientes (o alguna forma de ellos como se indicó anteriormente), y el extremo receptor puede recrear la señal. Esto se hace invirtiendo el filtro FIR predictivo lineal para crear un filtro IIR e ingresando ruido blanco. Entonces, la compresión viene de eliminar esta dependencia lineal y transferir los coeficientes. Esta es la razón por la cual el método Burg también se conoce a veces como el método de entropía máxima, ya que apunta a maximizar la "aleatoriedad" o blancura del ruido de salida en el filtro de predicción lineal. Otra forma de ver esto,

Para responder a su pregunta final, no estoy seguro de lo que está preguntando por completo. LPC, o codificación predictiva lineal está destinada a "comprimir" la señal suponiendo que pueda modelarse eficientemente como se discutió anteriormente. Ciertamente, puede utilizar la predicción lineal para hacer "predicción a corto plazo" como ha mencionado. Esta es la base implícita detrás de los métodos AR de alta resolución utilizados para la estimación de la densidad espectral de potencia. La secuencia de autocorrelación puede extenderse recursivamente desde su forma finita desde el registro de datos limitado hasta el infinito como la secuencia de autocorrelación teórica de la secuencia sin ventanas. Esta es también la razón por la cual los métodos AR de estimación de PSD no exhiben fenómenos de lóbulo lateral.


1
"La teoría de LPC gira en torno al modelado del tracto vocal" ¿Es esto siempre cierto? FLAC usa LPC en formas de onda de audio genéricas, no solo de voz.
endolito

3
Mis disculpas, originalmente lo aprendí a través de la analogía de las cuerdas vocales como un modelo físico que es de donde vino. Como dije, hay lugares donde profundizan mucho más en esto. Pero tienes razón, LPC es adecuado para formas de onda de audio genéricas. Como mencioné, funciona bien en cualquier espectro impulsivo. Como corolario, funciona mal en señales ruidosas donde el espectro es menos impulsivo (esto se debe a que las señales ruidosas se modelan mejor como procesos ARMA).
Bryan
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.