¿Están disminuyendo las deficiencias de las redes neuronales?

Después de haber trabajado con redes neuronales durante aproximadamente medio año, he experimentado de primera mano lo que a menudo se consideran sus principales desventajas, es decir, sobreajustar y atascarse en los mínimos locales. Sin embargo, a través de la optimización de hiperparámetros y algunos enfoques recién inventados, estos se han superado para mis escenarios. De mis propios experimentos:

La deserción parece ser un muy buen método de regularización (¿también un pseudo-ensamblador?),
La normalización por lotes facilita el entrenamiento y mantiene la intensidad de la señal constante en muchas capas.
Adadelta alcanza consistentemente muy buenas optimas

Experimenté con la implementación de SciKit-learn de SVM junto con mis experimentos con redes neuronales, pero encuentro que el rendimiento es muy pobre en comparación, incluso después de haber realizado búsquedas en la red de hiperparámetros. Me doy cuenta de que hay muchos otros métodos, y que los SVM pueden considerarse una subclase de NN, pero aún así.

Entonces, a mi pregunta:

Con todos los métodos más nuevos investigados para redes neuronales, ¿se han convertido lentamente o serán "superiores" a otros métodos? Las redes neuronales tienen sus desventajas, al igual que otras, pero con todos los métodos nuevos, ¿se han mitigado estas desventajas a un estado de insignificancia?

Me doy cuenta de que a menudo "menos es más" en términos de complejidad del modelo, pero eso también puede ser diseñado para redes neuronales. La idea de "no almuerzo gratis" nos prohíbe asumir que un enfoque siempre reinará superior. Es solo que mis propios experimentos, junto con innumerables artículos sobre increíbles actuaciones de varias NN, indican que podría haber, al menos, un almuerzo muy barato.

neural-networks

— Alexander C. Harrington
fuente

tos sin teorema del almuerzo gratis tos

— años

Respuestas:

Las redes neuronales también tienen otras deficiencias.

Se necesita mucho más tiempo y más recursos para entrenar una red neuronal que algo así como un bosque aleatorio. Entonces, si necesita velocidad de entrenamiento o tiene recursos limitados de todos modos, probablemente no debería mirar primero las redes neuronales. La evaluación de un NN profundo entrenado también puede ser mucho más costoso que las técnicas de la competencia.
El esfuerzo involucrado en aprender a diseñar y entrenar un NN es aún mucho mayor que los métodos de la competencia, como un SVM. Las personas que recién comienzan en Data Science probablemente deberían usar otras técnicas para aprender sobre los matices de los datos de ajuste antes de involucrarse en redes neuronales. Y aunque las NN simples con solo uno o dos hiperparámetros a menudo están disponibles en muchas bibliotecas de ciencia de datos, no funcionan mejor que otras técnicas, por lo que en realidad son solo otra técnica de caja negra de ML.
Si bien hemos progresado mucho en la comprensión de cómo las redes neuronales hacen su magia, todavía son menos accesibles y diseccionables que la mayoría de los métodos de la competencia. Entonces, si bien las NN pueden resolver el problema, es posible que no le brinden tantas ideas tan fácilmente como lo hacen otras técnicas.

Estoy ansioso por lo que otras personas tienen que decir aquí.

— Mike Wise
fuente

Buenos puntos, aunque algunos de los problemas de rendimiento pueden ser mitigados por las GPU, creo. Además, puedo recomendar encarecidamente Keras, ya que permite una composición muy fácil de MLP básicos. Aunque, como usted dice, cuando se usa una biblioteca de muy alto nivel como SciKit Learn, es un poco difícil obtener un buen rendimiento, ya que los hiperparámetros son demasiado superficiales y no proporcionan algunas de las metodologías más nuevas.

— Alexander C. Harrington

Sí, pero incluso con un gran número de GPU, siguen siendo mucho más lentas que las técnicas de la competencia. El entrenamiento de DNN es realmente pesado, estoy trabajando en proyectos en una compañía tecnológica muy grande donde rutinariamente hablan sobre días de entrenamiento de DNN en grupos de GPU muy grandes dedicados a este tipo de tareas solo. No ve ese tipo de cálculo dedicado a algoritmos aleatorios basados en bosques AFAIK.

— Mike Wise

Veo. Pero supongo que esto es a cambio de un rendimiento muy superior de los DNN. ¿O tal vez el margen que marca la diferencia?

— Alexander C. Harrington

Bueno, sabemos que los DNN son potencialmente capaces de inteligencia a nivel humano :), aunque todavía no sabemos exactamente cómo. Concretamente, hoy sabemos que nos dan los mejores resultados para tareas como el reconocimiento de imágenes complejas, decodificación de sonido, inferencia intencional en una conversación y algunas otras.

— Mike Wise

Solo para agregar a lo que se ha dicho en la brillante respuesta de @ MikeWise,

En igualdad de condiciones, los modelos de aprendizaje profundo generalmente se clasifican como superiores en comparación con otros algoritmos a medida que aumenta el tamaño del conjunto de datos:
Como todo, todo se reduce al conjunto de datos en cuestión, las redes neuronales son buenas en otros conjuntos de datos, pero al mismo tiempo, serán malas en otros conjuntos de datos. Cuando se trata de problemas no estructurados (por ejemplo , imágenes, texto, sonido ), en este momento las redes neuronales parecen ser el mejor algoritmo. Dicho esto, cuando se trata de datos estructurados, un escaneo rápido del tipo de algoritmo utilizado para ganar concursos de ciencia de datos en línea revela que los llamados algoritmos de aprendizaje automático, como XGboost , son los primeros .
Cuando se trata de otros modelos, la ingeniería de características juega un papel importante en la eficiencia del algoritmo. La ingeniería de características es generalmente una cosa difícil de hacer y hacer bien. Los algoritmos de aprendizaje profundo no requieren tanta ingeniería de características (si es que tienen alguna) en comparación con otros algoritmos, de hecho , aprenden características por sí mismos .
Si los muchachos de Google dicen que no vieron venir el aprendizaje profundo, ¿ quién debe descartar la posibilidad de que aparezca un algoritmo de aprendizaje automático que se apodere del mundo?
Aquí hay una encuesta sobre lo que dijo el científico de datos cuando se le preguntó: ¿si el aprendizaje profundo coincide con la exageración en la aplicación del mundo real? .
Incluso algunas de las aplicaciones populares de aprendizaje profundo como AlphaGo de Google no son 100% de aprendizaje profundo , sino que son en parte aprendizaje en profundidad, en parte buen "aprendizaje automático". Mi 2 centavo es, quizás aún no deberíamos descartar otros algoritmos de aprendizaje automático.

— Tshilidzi Mudau
fuente