Esta publicación ha sido actualizada mucho. En la parte superior, puede ver actualizaciones de enlaces. A continuación, variaciones sobre la respuesta inicial. Para la versión corta: los éxitos de las redes neuronales convolucionales y el aprendizaje profundo parecen una especie de revolución galileana. Desde un punto de vista práctico, el procesamiento clásico de señales o la visión por computadora están muertos ... siempre que tenga suficientes datos etiquetados, se preocupe poco por fallas de clasificación evidentes ( fallas profundas ), tenga energía infinita para ejecutar pruebas sin pensar en la huella de carbono , y no te molestes en explicaciones racionales. Para los demás, esto nos hizo repensar todo lo que hicimos antes: extracción de características, optimización (cf. mi colega J.-C. Pesquet trabaja en estructuras de redes neuronales profundas para resolver desigualdades variacionales), invariancia, cuantificación, etc. Y de eso surge una investigación realmente interesante, con suerte poniéndose al día con principios firmemente arraigados y un rendimiento similar.
Enlaces actualizados:
Presentamos ejemplos adversos naturales: ejemplos del mundo real, no modificados y de origen natural que hacen que la precisión del clasificador se degrade significativamente. Seleccionamos 7.500 ejemplos adversos naturales y los lanzamos en un conjunto de prueba clasificador de ImageNet que llamamos ImageNet-A. Este conjunto de datos sirve como una nueva forma de medir la robustez del clasificador. Al igual que los ejemplos adversos de l_p, los ejemplos de ImageNet-A se transfieren con éxito a clasificadores invisibles o de caja negra. Por ejemplo, en ImageNet-A, un DenseNet-121 obtiene alrededor del 2% de precisión, una caída de precisión de aproximadamente el 90%. Recuperar esta precisión no es simple porque los ejemplos de ImageNet-A explotan defectos profundos en los clasificadores actuales, incluida su excesiva dependencia del color, la textura y las señales de fondo. Observamos que las técnicas de entrenamiento populares para mejorar la robustez tienen poco efecto, pero mostramos que algunos cambios arquitectónicos pueden mejorar la solidez de los ejemplos adversos naturales. Se requiere investigación futura para permitir una generalización sólida de este conjunto de pruebas de ImageNet.
- 03/05/2019: Aprendizaje profundo: ¿la última frontera para el procesamiento de señales y el análisis de series temporales? "En este artículo, quiero mostrar varias áreas donde las señales o series temporales son vitales"
- 23/04/2018: Acabo de regresar de la conferencia internacional anual sobre acústica, procesamiento de voz y señales, ICASSP 2018 . Me sorprendió la cantidad de documentos que en cierto modo se basaban en el aprendizaje profundo, las redes profundas, etc. Dos de cada cuatro preguntas (de Alex Acero y Yann LeCun) se dedicaron a este tema. Al mismo tiempo, la mayoría de los investigadores que conocí estaban bromeando sobre eso ("Lo siento, mi póster está en bancos de filtros, no en Deep Learning", "No estoy interesado en eso, tengo pequeños conjuntos de datos"), o se preguntaban si ganarían un 0,5% en grandes desafíos y perderían el interés en modelar la física o las estadísticas previas.
- 2018/01/14: ¿Puede una red profunda ver a un gato? , desde "gato abstracto", hasta "mejor gato" invertido, dibujado, etc. y de alguna manera resultados sorprendentes en bocetos
- 2017/11/02: se agregaron referencias a las redes / transformaciones de dispersión
- 2017/10/21: una revisión de redes neuronales convolucionales para problemas inversos en imágenes
- Deep Learning y sus aplicaciones para el procesamiento de señales e información , IEEE Signal Processing Magazine, enero de 2011
Las referencias de aprendizaje profundo "paso a paso" en el procesamiento estándar de señal / imagen se pueden encontrar en la parte inferior. Michael Elad acaba de escribir Deep, Deep Trouble: Deep Learning's Impact on Image Processing, Mathematics, and Humanity (SIAM News, 2017/05), extracto:
Luego, las redes neuronales volvieron repentinamente y con venganza.
Esta tribuna es de interés, ya que muestra un cambio del "procesamiento de imágenes" tradicional, tratando de modelar / comprender los datos, a un ámbito de corrección, sin tanta información.
Este dominio está evolucionando bastante rápido. Esto no significa que evolucione en una dirección intencional o constante. Ni bien ni mal. Pero esta mañana, escuché el siguiente dicho (¿o es una broma?):
Un algoritmo malo con un gran conjunto de datos puede funcionar mejor que un algoritmo inteligente con datos de pauce .
Este fue mi intento muy breve: el aprendizaje profundo puede proporcionar resultados de vanguardia, pero uno no siempre comprende por qué , y parte de nuestro trabajo científico sigue siendo explicar por qué funcionan las cosas, cuál es el contenido de un dato etc.
El aprendizaje profundo requiere bases de datos (enormes) bien etiquetadas. Cada vez que realiza trabajos manuales en imágenes únicas o singulares (es decir, sin una gran base de datos detrás), especialmente en lugares que probablemente no produzcan "imágenes etiquetadas gratuitas basadas en el usuario" (en el conjunto complementario del conjunto " gatos divertidos que juegan juegos y caras ") , puede atenerse al procesamiento de imágenes tradicional por un tiempo y con fines de lucro. Un tweet reciente resume que:
El requisito de (muchos) datos etiquetados (sin vars faltantes) es un factor decisivo (e innecesario) para muchos dominios
Si están siendo asesinados (lo cual dudo a corto plazo), aún no están muertos. Por lo tanto, cualquier habilidad que adquiera en el procesamiento de señales, el análisis de imágenes y la visión por computadora lo ayudará en el futuro. Esto se trata, por ejemplo, en la publicación del blog: ¿Nos hemos olvidado de la geometría en la visión por computadora? por Alex Kendall:
El aprendizaje profundo ha revolucionado la visión por computadora. Hoy en día, no hay muchos problemas en los que la mejor solución no se base en un modelo de aprendizaje profundo de extremo a extremo. En particular, las redes neuronales convolucionales son populares, ya que tienden a funcionar bastante bien fuera de la caja. Sin embargo, estos modelos son en gran parte grandes cajas negras. Hay muchas cosas que no entendemos sobre ellos.
Un ejemplo concreto puede ser el siguiente: un par de imágenes muy oscuras (por ejemplo, de vigilancia) de la misma ubicación, que necesitan evaluar si una de ellas contiene un cambio específico que debería detectarse, es potencialmente una cuestión de procesamiento de imágenes tradicional, más de Aprendizaje profundo (a partir de hoy).
Por otro lado, tan exitoso como Deep Learning es a gran escala, puede conducir a una clasificación errónea de un pequeño conjunto de datos, lo que podría ser inofensivo "en promedio" para algunas aplicaciones. Dos imágenes que difieren ligeramente del ojo humano podrían clasificarse de manera diferente a través de DL. O las imágenes aleatorias podrían establecerse en una clase específica. Ver, por ejemplo, las redes neuronales profundas se engañan fácilmente: ¿Predicciones de alta confianza para imágenes irreconocibles (Nguyen A, Yosinski J, Clune J. Proc. Computer Vision and Pattern Recognition 2015), o ¿Deep Learning tiene defectos profundos? , en negativos adversos:
La red puede clasificar erróneamente una imagen después de que los investigadores aplicaron cierta perturbación imperceptible. Las perturbaciones se encuentran ajustando los valores de píxeles para maximizar el error de predicción.
Con el debido respeto al "Aprendizaje profundo", piense en "la producción en masa respondiendo a un comportamiento registrado, conocido, validado en masa o esperado" versus "pieza singular de oficio". Ninguno es mejor (todavía) en una sola escala de índice. Ambos pueden tener que coexistir por un tiempo.
Sin embargo, el aprendizaje profundo impregna muchas áreas nuevas, como se describe en las referencias a continuación.
Afortunadamente, algunas personas están tratando de encontrar una lógica matemática detrás del aprendizaje profundo, un ejemplo de las cuales son redes de dispersión o transformaciones propuestas por Stéphane Mallat y sus coautores, ver el sitio ENS para la dispersión . Análisis armónico y operadores no lineales, funciones de Lipschitz, invariancia de traducción / rotación, mejor para la persona promedio de procesamiento de señales. Ver, por ejemplo, Comprensión de redes convolucionales profundas .