En " Redes convolucionales de creencias profundas para el aprendizaje escalable sin supervisión de representaciones jerárquicas " por Lee et. al. ( PDF ) Se proponen DBN convolucionales. También se evalúa el método para la clasificación de imágenes. Esto suena lógico, ya que hay características de imagen locales naturales, como pequeñas esquinas y bordes, etc.
En " Aprendizaje de características no supervisadas para la clasificación de audio utilizando redes convolucionales de creencias profundas " de Lee et. Alabama. Este método se aplica para audio en diferentes tipos de clasificaciones. Identificación del orador, identificación de género, clasificación telefónica y también alguna clasificación de género musical / artista.
¿Cómo se puede interpretar la parte convolucional de esta red para el audio, como se puede explicar para las imágenes como bordes?