Estaba estudiando la posibilidad de clasificar el sonido (por ejemplo, sonidos de animales) usando espectrogramas. La idea es utilizar redes neuronales convolucionales profundas para reconocer segmentos en el espectrograma y generar una (o muchas) etiquetas de clase. Esta no es una idea nueva (ver, por ejemplo , clasificación de sonido de ballena o reconocimiento de estilo musical ).
El problema al que me enfrento es que tengo archivos de sonido de diferente longitud y, por lo tanto, espectrogramas de diferentes tamaños. Hasta ahora, cada enfoque que he visto utiliza una muestra de sonido de tamaño fijo, pero no puedo hacerlo porque mi archivo de sonido puede durar 10 segundos o 2 minutos.
Con, por ejemplo, un sonido de pájaro al principio y un sonido de rana al final (la salida debe ser "Bird, Frog"). Mi solución actual sería agregar un componente temporal a la red neuronal (creando más de una red neuronal recurrente) pero me gustaría mantenerlo simple por ahora. ¿Alguna idea, enlaces, tutoriales, ...?