Actualmente estoy trabajando en recrear los resultados de este documento . En el documento describen un método para usar CNN para la extracción de características, y tienen un modelo acústico que es Dnn-hmm y pre-entrenado usando RBM.
La sección III, subsección A, establece diferentes formas en que los datos de entrada pueden representarse. Decidí apilar verticalmente los gráficos de espectro de los deltas estático, delta y delta.
El documento luego describe cómo debería ser la red. Afirman que usan una red convolucional, pero ¿nada sobre la estructura de la red? Además, ¿se hace referencia siempre a la red como una capa convolucional? que estoy seguro de que veo alguna diferencia en comparación con una red neuronal convolucional de red ordinaria (cnn).
El documento establece esto con respecto a la diferencia:
(de la sección III, subsección B)
Sin embargo, una capa de convolución difiere de una capa oculta estándar totalmente conectada en dos aspectos importantes. Primero, cada unidad convolucional recibe información solo de un área local de la entrada. Esto significa que cada unidad representa algunas características de una región local de la entrada. En segundo lugar, las unidades de la capa de convolución pueden organizarse en una serie de mapas de características, donde todas las unidades en el mismo mapa de características comparten los mismos pesos pero reciben información de diferentes ubicaciones de la capa inferior
Otra cosa que me preguntaba es si el documento realmente indica cuántos parámetros de salida se necesitan para alimentar el modelo acústico dnn-hmm. Parece que no puedo decodificar la cantidad de filtros, tamaños de filtros ... en detalles generales de la red?