Una CNN aprenderá a reconocer patrones en el espacio. Entonces, como usted dice, una CNN aprenderá a reconocer componentes de una imagen (por ejemplo, líneas, curvas, etc.) y luego aprenderá a combinar estos componentes para reconocer estructuras más grandes (por ejemplo, caras, objetos, etc.).
Se podría decir, de manera muy general, que un RNN aprenderá de manera similar a reconocer patrones a lo largo del tiempo. Por lo tanto, un RNN que esté capacitado para traducir texto podría aprender que "perro" debe traducirse de manera diferente si va precedido de la palabra "caliente".
Sin embargo, el mecanismo por el cual los dos tipos de NN representan estos patrones es diferente. En el caso de una CNN, está buscando los mismos patrones en todos los diferentes subcampos de la imagen. En el caso de un RNN, está (en el caso más simple) alimentando las capas ocultas del paso anterior como una entrada adicional en el siguiente paso. Si bien el RNN acumula memoria en este proceso, no está buscando los mismos patrones en diferentes segmentos de tiempo de la misma manera que un CNN está buscando los mismos patrones en diferentes regiones del espacio.
También debo tener en cuenta que cuando digo "tiempo" y "espacio" aquí, no debería tomarse demasiado literalmente. Podría ejecutar un RNN en una sola imagen para el subtitulado de imágenes, por ejemplo, y el significado de "tiempo" sería simplemente el orden en que se procesan las diferentes partes de la imagen. Por lo tanto, los objetos procesados inicialmente informarán los subtítulos de los objetos procesados posteriormente.