Mi problema es que no conozco la energía del ruido de fondo, así que no puedo limitar la energía. El procesamiento se realiza en tiempo real, y tengo unos 500 ms para decidir. Idealmente, me gustaría que las consonantes silenciosas se consideren no silenciosas.
66
No tengo suficiente información para dar una respuesta completa, pero su problema se conoce como detección de actividad de voz . No existe una única forma acordada de hacerlo, y si observas, probablemente encuentres muchos enfoques diferentes. Quizás algunos otros puedan desarrollarlo un poco más.
—
Jason R
@Michael Litvin, hay una clase de filtros no lineales (utilizados en 'detección de energía' con el nombre de 'Teager-Kaiser'. Creo que es un subconjunto de lo que se conoce como 'núcleos de voltera'. Lo siento, no puedo proporcionar ninguno más información, pero si buscas esas palabras, puedes encontrar lo que estás buscando. Sé que el método Teager-Kaiser se usa para "cuando" los sonidos de ballenas comienzan VS solo ruido de fondo.
—
Spacey