Estoy trabajando en un proyecto en Python para detectar y clasificar algunas canciones de pájaros, y me he encontrado en una posición en la que necesito convertir un archivo de onda en datos de frecuencia frente a tiempo. Esto no ha sido un gran problema, pero para poder clasificar las diferentes sílabas en grupos, necesito escribir algo que detecte cuándo los datos se agrupan en una determinada forma. Para darle una idea de cómo se ven los datos, aquí hay una imagen de cómo se ven los datos cuando se trazan:
Necesito alguna forma de obtener cada sílaba individual (cada forma con una separación a cada lado) y guardarlas en una variable o en sus propios archivos para poder ejecutar la correlación de Pearson entre ellas usando SciPy.
Además, prefiero Python, pero estoy abierto a la codificación en otros idiomas si tiene otra forma de hacerlo.
¡Gracias!