Las redes convolucionales (CNN) dependen de la convolución matemática (por ejemplo, convoluciones 2D o 3D), que se usa comúnmente para el procesamiento de señales. Las imágenes son un tipo de señal, y la convolución se puede usar igualmente en sonido, vibraciones, etc. Entonces, en principio, las CNN pueden encontrar aplicaciones para cualquier señal, y probablemente más.
En la práctica, ya existe trabajo en PNL (como lo menciona Matthew Graves), donde algunas personas procesan texto con CNN en lugar de redes recursivas. Algunos otros trabajos se aplican al procesamiento de sonido (no hay referencia aquí, pero todavía tengo trabajos inéditos en curso)
Contenido original: en respuesta a la pregunta del título original, que ha cambiado ahora. Tal vez necesite eliminar este .
La investigación en redes adversas (y relacionadas) muestra que incluso las redes profundas pueden ser engañadas fácilmente , lo que les lleva a ver un perro (o cualquier objeto) en lo que parece ser un ruido aleatorio cuando un humano lo mira (el artículo tiene ejemplos claros).
Otro problema es el poder de generalización de una red neuronal. Las redes convolucionales han asombrado al mundo con su capacidad de generalizar mucho mejor que otras técnicas. Pero si la red solo recibe imágenes de gatos, solo reconocerá gatos (y probablemente verá gatos en todas partes, como por resultados adversos de la red). En otras palabras, incluso los CN tienen dificultades para generalizar demasiado más allá de lo que aprendieron.
El límite de reconocimiento es difícil de definir con precisión. Simplemente diría que la diversidad de los datos de aprendizaje supera el límite (supongo que más detalles deberían conducir a un lugar más apropiado para la discusión).