Desviación estándar de la planitud espectral, entonces, ¿qué estoy midiendo conceptualmente?

En mi búsqueda interminable para identificar ronquidos, descubrí que la "planitud espectral" parece ser una medida justa de la "calidad" de la señal.

Estoy calculando la planitud espectral como la media geométrica de los puntos de datos de potencia FFT divididos por la media aritmética de los mismos puntos. $(R*2 + I*2)$

Luego (un pequeño giro aquí) estoy calculando la media aritmética y la desviación estándar de la planitud espectral en ejecución (más de 50 cuadros) y calculando una desviación estándar "normalizada" como la desviación estándar en ejecución dividida por la media en ejecución.

Para mis muestras, encuentro que esta métrica es mayor que aproximadamente (rango de hasta o menos) cuando el audio es "bueno" (es decir, tengo un seguimiento confiable de los sonidos de respiración / ronquidos de un sujeto dormido) y generalmente se desliza hacia abajo debajo de cuando el audio está "en el lodo". (Puedo mejorar algo esta discriminación usando un umbral que se mueve con otros factores, pero presumiblemente ese es un tema diferente). También observo que la medida supera cuando hay un ruido de fondo considerable (por ejemplo, alguien entra en la habitación y susurra sobre ) $0.2$ $0.5$ $0.2$ $1.0$

Entonces, mi pregunta básica es: ¿Hay un nombre (más allá de la "desviación estándar normalizada de la planitud espectral") para lo que estoy midiendo, y ¿alguien puede ofrecer una explicación conceptual de lo que significa "la métrica"?

(He probado una docena de otras métricas para la "calidad" de la señal, y esta parece ser la mejor hasta la fecha).

Agregado: Probablemente debería admitir que no tengo un manejo conceptual particularmente bueno de lo que está midiendo la planitud espectral simple (solo el artículo de Wikipedia ), por lo que se agradecería cualquier explicación adicional.

fft frequency-spectrum

— Daniel R Hicks
fuente

Entonces, hace un cálculo y pregunta si a alguien más se le ocurrió la misma idea y la nombró, y si no, ¿puede alguien llegar a una explicación conceptual de lo que usted ha ideado? Sin duda que debe haber tenido alguna razón para poner en su "pequeño giro", o que eran, como Indiana Jones, inventando a medida que se fue el tiempo?

— Dilip Sarwate

Básicamente solo estoy inventando cosas a medida que avanzo. Encuentro una técnica, la aplico a los datos, observo el resultado y decido si parece útil. Si es así, intento refinamientos. Es un proceso tedioso, pero el "experto" en análisis de audio que trabaja en este proyecto rompió su elección y se fue a casa.

— Daniel R Hicks

Respuestas:

Como está interesado en la "planitud" de su espectro, de hecho, está interesado en qué tan cerca está su señal de un ruido blanco (que por definición tiene un espectro plano + fases aleatorias). Si retrocede, una medida sería la "distancia" de su observación a la referencia de ruido blanco .

La medida obvia en términos de teoría de la información es la divergencia de Kullback-Leibler . No necesita comprender cada parte, pero mide en bits (si usa log base 2) la distancia entre ambas distribuciones.

Lo bueno en su caso es que su referencia es plana, por lo que lo que queda es la entropía de su espectro . Hay muchas implementaciones existentes (por ejemplo, en scipy ).

Tenga en cuenta que todavía está en el lado seguro: si su distribución es aproximadamente gaussiana, ambas medidas (entropía y estándar) serán proporcionales. Sin embargo, la entropía es más general y tiene más principios. Como extensión, podrá generalizar a otros tipos de ruidos (1 / f, por ejemplo).

— Meduz
fuente

Lo extraño es que la entropía "regular" - suma de p log p- no parece transmitir mucha información para mi problema. (Aunque supongo que no intenté tomar su desviación estándar).

— Daniel R Hicks

Cualquier diferencia consistente confiable en las estadísticas de su señal (o alguna función de su señal, como su espectro) y el ruido en el que está incrustada su señal se puede usar para estimar una probabilidad de uno versus el otro.

Parece que ha encontrado aleatoriamente (tropezado) una de las infinitas formas de caracterizar la forma del espectro de señal que diferencia la señal deseada de cosas más como ruido blanco o picos de impulso. Tropezar con una posible solución aleatoria muere no invalidarla (esa es una base de la programación evolutiva / genética). Pero cuán robusta es la medida que ha encontrado como un ejercicio experimental.

— hotpaw2
fuente

La cuestión es que otras medidas, como la entropía regular, no han mostrado tanta promesa como esta medida. Si pudiera entender por qué este parece mejor, tal vez podría mejorarlo.

— Daniel R Hicks

hotpaw2, usted menciona algunas otras formas que existen por las cuales uno puede diferenciar entre una señal y el ruido, o alguna 'medida' de la forma de un espectro de magnitud FFT, ¿qué formas hay exactamente que se le ocurran?

— Spacey

¿Exactamente viene a la mente? A veces se dice que los algoritmos de búsqueda de tipo evolutivo / genético / Hadoop extraen cosas, a partir de datos suficientes, de "formas" que no vienen a la mente ni suelen describirse como exactas, hasta tal vez después del hecho.

— hotpaw2

@ hotpaw2 Lo siento, tal vez mi pregunta no estaba clara: me preguntaba qué formas simples de medir, por ejemplo, podrían existir 'pico' (como un ejemplo de cómo podría verse un espectro). No estaba preguntando sobre nada demasiado elegante, aunque los métodos de aprendizaje no supervisados que mencionó ciertamente son poderosos.

— Spacey