Las características de las imágenes que las hacen susceptibles de clasificación con una red neuronal profunda es que hay un montón de características (posiblemente millones si no miles de millones de píxeles con RGB, intensidad, etc.) y si tiene etiquetas precisas, no son datos ruidosos. Las cámaras en estos días son muy buenas y no miden mal nada. Gracias a Internet, ahora tenemos muchas imágenes etiquetadas con precisión. Una red profunda puede expresar funciones arbitrariamente complicadas, lo cual es un problema con datos ruidosos porque puede sobreajustar fácilmente el ruido, por lo tanto, muchos métodos de aprendizaje tienden a penalizar los modelos complicados. Sin embargo, en el caso del reconocimiento de imágenes, la verdadera función parece ser realmente muy complicada, no tenemos idea de cómo se ve la forma funcional, y ni siquiera sabemos cuáles son las características relevantes en muchos casos.
Esto no significa que no pueda usar redes profundas para aprender funciones que no tienen nada que ver con las imágenes. Solo debe tener mucho cuidado con las desventajas, sobre todo porque es muy propenso al sobreajuste, pero también porque es computacionalmente costoso y puede llevar mucho tiempo entrenar (no es un problema en estos días con SGD y GPU paralelas). La otra desventaja es que tiene muy poca o ninguna interpretación del modelo, lo que realmente no importa para la clasificación de imágenes. Solo estamos tratando de hacer que las computadoras reconozcan la diferencia entre un chimpancé y un orangután. La comprensión humana de la fórmula no importa. Para otros dominios, especialmente el diagnóstico médico, la investigación de políticas, etc., desea o incluso puede necesitar la comprensión humana.