En resumen, no hay nada especial sobre el número de dimensiones para convolución. Podría considerarse cualquier dimensionalidad de convolución, si encaja en un problema.
El número de dimensiones es una propiedad del problema que se está resolviendo. Por ejemplo, 1D para señales de audio, 2D para imágenes, 3D para películas. . .
Ignorando brevemente el número de dimensiones, las siguientes pueden considerarse fortalezas de una red neuronal convolucional (CNN), en comparación con los modelos completamente conectados, cuando se trata con ciertos tipos de datos:
El uso de pesos compartidos para cada ubicación que procesa la convolución reduce significativamente la cantidad de parámetros que deben aprenderse, en comparación con los mismos datos procesados a través de una red totalmente conectada.
Los pesos compartidos son una forma de regularización.
La estructura de un modelo convolucional hace fuertes suposiciones sobre las relaciones locales en los datos, que cuando son verdaderas lo hacen un buen ajuste al problema.
3.1 Los patrones locales proporcionan buenos datos predictivos (y / o pueden combinarse de manera útil en patrones predictivos más complejos en capas superiores)
3.2 Los tipos de patrones encontrados en los datos se pueden encontrar en múltiples lugares. Encontrar el mismo patrón en un conjunto diferente de puntos de datos es significativo.
Estas propiedades de las CNN son independientes del número de dimensiones. Las CNN unidimensionales funcionan con patrones en una dimensión y tienden a ser útiles en el análisis de señales sobre señales de longitud fija. Funcionan bien para el análisis de señales de audio, por ejemplo. También para algunos procesos de lenguaje natural, aunque las redes neuronales recurrentes, que permiten diferentes longitudes de secuencia, pueden encajar mejor allí, especialmente aquellas con arreglos de puerta de memoria como LSTM o GRU. Aún así, una CNN puede ser más fácil de administrar, y simplemente puede rellenar la entrada para que tenga una longitud fija.