¿Problemas y alternativas a los enfoques de aprendizaje profundo?

17

En los últimos 50 años, el aumento / caída / aumento de la popularidad de las redes neuronales ha actuado como una especie de "barómetro" para la investigación de IA.

A partir de las preguntas en este sitio, queda claro que las personas están interesadas en aplicar Deep Learning (DL) a una amplia variedad de problemas difíciles.

Por lo tanto, tengo dos preguntas:

Practicantes: ¿cuáles creen que son los principales obstáculos para aplicar DL 'fuera de la caja' a su problema?
Investigadores: ¿qué técnicas utilizan (o han desarrollado) que podrían ayudar a abordar problemas prácticos? ¿Están dentro de DL o ofrecen un enfoque alternativo?

deep-learning

— NietzscheanAI
fuente

3

Si tiene dos preguntas, debe hacer dos preguntas.

— bpachev

1

Están claramente interrelacionados.

— NietzscheanAI

5

Para resumir, hay dos problemas principales en el aprendizaje profundo aplicado.

El primero es que computacionalmente es exhaustivo. Las CPU normales requieren mucho tiempo para realizar incluso el cómputo / entrenamiento básico con Deep Learning. Sin embargo, se recomiendan las GPU, incluso pueden no ser suficientes en muchas situaciones. Los modelos típicos de aprendizaje profundo no admiten el tiempo teórico para estar en Polinomios. Sin embargo, si observamos los modelos relativamente más simples en ML para las mismas tareas, con demasiada frecuencia tenemos garantías matemáticas de que el tiempo de entrenamiento requerido para tales Algoritmos más simples es en Polinomios. Esto, para mí, al menos es probablemente la mayor diferencia.

Sin embargo, hay soluciones para contrarrestar este problema. Un enfoque principal es optimizar los Algoritmos DL solo para una serie de iteraciones (en lugar de mirar las soluciones globales en la práctica, simplemente optimice el algoritmo a una buena solución local, mientras que el criterio para "Bueno" lo define el usuario).
Otro problema que puede ser un poco controvertido para los jóvenes entusiastas del aprendizaje profundo es que los algoritmos de aprendizaje profundo carecen de comprensión y razonamiento teóricos. Las redes neuronales profundas se han utilizado con éxito en muchas situaciones, incluido el reconocimiento de escritura manual, el procesamiento de imágenes, los autos autónomos, el procesamiento de señales, la PNL y el análisis biomédico. En algunos de estos casos, incluso han superado a los humanos. Sin embargo, dicho esto, no son bajo ninguna circunstancia, teóricamente tan sólidos como la mayoría de los métodos estadísticos.

No entraré en detalles, más bien lo dejo a usted. Hay pros y contras para cada Algoritmo / metodología y DL no es una excepción. Es muy útil, como se ha demostrado en muchas situaciones y cada joven científico de datos debe aprender al menos los conceptos básicos de DL. Sin embargo, en el caso de problemas relativamente simples, es mejor usar métodos estadísticos famosos, ya que tienen muchos resultados teóricos / garantías para respaldarlos. Además, desde el punto de vista del aprendizaje, siempre es mejor comenzar con enfoques simples y dominarlos primero.

— Sibghat Ullah
fuente

Por 'en polinomios' quieres decir 'en tiempo polinomial', ¿verdad? ¿Tienes una referencia para apoyar eso?

— NietzscheanAI

Sí, eso es exactamente lo que quiero decir. Claro, se puede probar en muchas situaciones ... Comenzaré con el ejemplo más simple posible, solo entrenar una red con tres nodos y dos capas es un problema NP-Complete como se muestra aquí ( citeseerx.ist.psu. edu / viewdoc / ... ). Recuerde que este documento es muy antiguo, y ahora tenemos más ideas sobre cómo mejorar en la práctica, con algunas heurísticas, pero aún así, en teoría, no hay mejores resultados.

— Sibghat Ullah

Otro buen artículo sobre el mismo tema, que también describe algunos trucos para mejorar el tiempo de entrenamiento en la práctica. ( pdfs.semanticscholar.org/9499/… )

— Sibghat Ullah

Digamos que queremos predecir el precio de algo. La regresión lineal simple con el menor ajuste cuadrado tendrá un tiempo polinómico, mientras que resolver el mismo problema con las redes neuronales (incluso las más simples) dará como resultado un problema NP completo. Esta es una gran diferencia. Finalmente, debe seleccionar cuidadosamente un algoritmo para una tarea específica. Por ejemplo, el ajuste de Mínimo Cuadrado tiene suposiciones específicas, que incluyen, "La función ideal que está aprendiendo el algoritmo, puede aprenderse como una combinación lineal de características". Si esa suposición no es válida, también se logran los resultados.

— Sibghat Ullah

Por supuesto, simplemente porque un problema (en este caso, encontrar pesos óptimos) es NP-complete en sí mismo no significa que no haya métodos prácticos eficientes para encontrar buenos pesos ...

— NietzscheanAI

5

Tengo muy poca experiencia con ML / DL para llamarme practicante, pero aquí está mi respuesta a la primera pregunta:

En esencia, DL resuelve bien la tarea de clasificación. No todos los problemas prácticos pueden reformularse en términos de clasificación. El dominio de clasificación debe conocerse por adelantado. Aunque la clasificación se puede aplicar a cualquier tipo de datos, es necesario entrenar al NN con muestras del dominio específico donde se aplicará. Si el dominio se cambia en algún momento, manteniendo el mismo modelo (estructura NN), tendrá que volver a entrenarse con nuevas muestras. Además, incluso los mejores clasificadores tienen "brechas": los ejemplos adversos se pueden construir fácilmente a partir de una muestra de entrenamiento, de modo que los cambios son imperceptibles para los humanos, pero el modelo entrenado los clasifica erróneamente.

— Iliyan Bobev
fuente

2

La 'clasificación' puede considerarse un caso especial de 'regresión', que probablemente es una mejor caracterización de DL.

— NietzscheanAI

3

Pregunta 2. Estoy investigando si la informática hiperdimensional es una alternativa al aprendizaje profundo. Hyper-D usa vectores de bits muy largos (10,000 bits) para codificar información. Los vectores son aleatorios y, como tales, son aproximadamente ortogonales. Al agrupar y promediar una colección de tales vectores, se puede formar un "conjunto" y luego consultarlo para ver si un vector desconocido pertenece al conjunto. El conjunto puede considerarse un concepto o una imagen generalizada, etc. El entrenamiento es muy rápido como el reconocimiento. Lo que hay que hacer es simular los dominios en los que Deep Learning ha tenido éxito y comparar Hyper-D con él.

— Douglas G Danforth
fuente

Interesante. Entonces, ¿cómo difiere esto de la 'Memoria distribuida dispersa' de Kanerva?

— NietzscheanAI

Ambos son desarrollados por Pentti Kanerva. Busque la informática hiperdimensional para ver la diferencia. Demasiado tiempo para responder aquí.

— Douglas G Danforth

1

Desde el punto de vista matemático, uno de los principales problemas en las redes profundas con varias capas son los gradientes desaparecidos o inestables . Cada capa oculta adicional aprende significativamente más lento, casi anulando el beneficio de la capa adicional.

Los enfoques modernos de aprendizaje profundo pueden mejorar este comportamiento, pero en redes neuronales simples y anticuadas este es un problema bien conocido. Puede encontrar un análisis bien escrito aquí para un estudio más profundo.

— Demento
fuente