¿Por qué es tan importante tener teorías de principios y matemáticas para el aprendizaje automático?


25

Me he estado preguntando, ¿por qué es tan importante tener un aprendizaje automático basado en principios / teórico? Desde una perspectiva personal como humano, puedo entender por qué el aprendizaje automático basado en principios sería importante:

  • A los humanos les gusta entender lo que están haciendo, encontramos belleza y satisfacción al entender.
  • desde un punto de vista teórico, las matemáticas son divertidas
  • Cuando hay principios que guían el diseño de las cosas, se dedica menos tiempo a adivinanzas aleatorias, pruebas y errores extraños. Si entendiéramos, digamos, cómo funcionan realmente las redes neuronales, tal vez podríamos pasar mucho mejor tiempo diseñándolas en lugar de las enormes cantidades de prueba y error que conlleva en este momento.
  • más recientemente, si los principios son claros y la teoría también lo es, entonces debería haber (con suerte) más transparencia en el sistema. Esto es bueno porque si entendemos qué está funcionando el sistema, entonces la IA corre el riesgo de que mucha gente se exagere de inmediato.
  • Los principios parecen ser una forma concisa de resumir las estructuras importantes que podría tener el mundo y cuándo utilizar una herramienta en lugar de otra.

Sin embargo, ¿son estas razones lo suficientemente fuertes como para justificar un intenso estudio teórico del aprendizaje automático? Una de las mayores críticas de la teoría es que, debido a que es tan difícil de hacer, generalmente terminan estudiando un caso muy restringido o las suposiciones que deben presentarse esencialmente hacen que los resultados sean inútiles. Creo que escuché esto una vez en una charla en el MIT por el creador de Tor. Que algunas de las críticas a Tor que ha escuchado es el argumento teórico, pero esencialmente, las personas nunca pueden probar cosas sobre los escenarios reales de la vida real porque son muy complicadas.

En esta nueva era con tanta potencia informática y datos, podemos probar nuestros modelos con conjuntos de datos reales y conjuntos de pruebas. Podemos ver si las cosas funcionan usando el empirismo. Si podemos obtener AGI o sistemas que funcionan con ingeniería y empirismo, ¿vale la pena buscar una justificación teórica y basada en principios para el aprendizaje automático, especialmente cuando los límites cuantitativos son tan difíciles de lograr, pero las intuiciones y las respuestas cualitativas son mucho más fáciles de lograr? lograr con un enfoque basado en datos? Este enfoque no estaba disponible en las estadísticas clásicas, por lo que creo que la teoría era tan importante en esos tiempos, porque las matemáticas eran la única forma en que podíamos estar seguros de que las cosas eran correctas o que realmente funcionaban de la manera que pensamos.

Personalmente, siempre amé y pensé que la teoría y un enfoque basado en principios eran importantes. Pero con el poder de solo poder probar cosas con datos reales y poder de cómputo me ha hecho preguntarme si el gran esfuerzo (y las recompensas potencialmente bajas) de la búsqueda teórica todavía vale la pena.

¿Es realmente tan importante la búsqueda teórica y de principios del aprendizaje automático?


"Sin teoría, confía en la esperanza de que los resultados empíricos se apliquen a cualquier conjunto de datos nuevo en el que aplicará los métodos de ML. Sin embargo, algunas propiedades o suposiciones que se cumplieron cuando observó sus resultados empíricos podrían no estar necesariamente ahí en adelante. en nuevos conjuntos de datos ".
Charlie Parker

Respuestas:


17

No hay una respuesta correcta a esto pero, tal vez, "todo con moderación". Si bien muchas mejoras recientes en el aprendizaje automático, es decir, abandono, conexiones residuales, conexiones densas, normalización de lotes, no están basadas en una teoría particularmente profunda (la mayoría puede justificarse en unos pocos párrafos), creo que finalmente hay un cuello de botella para cuántos tales resultados pueden tener un gran impacto. En algún momento tienes que sentarte y elaborar una teoría adicional para dar el siguiente gran salto. Además, la teoría puede guiar la intuición porque puede probar la calidad o las limitaciones de un modelo dentro de una duda razonable. Esto es particularmente importante para calcular si, por ejemplo, SGD es mejor que Momentum para un problema particular. Eso es lo bueno de la teoría: te obliga a abstraer el problema que estás resolviendo,

El gran ejemplo que viene a la mente son las máquinas de vectores de soporte. Originalmente fueron diseñados por Vapnik y Chervonenkis a principios de los años 60, pero realmente despegaron a principios de los 90 cuando Vapnik y otros se dieron cuenta de que se pueden hacer SVM no lineales con Kernel Trick. Vapnik y Chervonenkis también elaboraron la teoría detrás de la dimensión VC, que es un intento de encontrar una medida de complejidad para el aprendizaje automático. No puedo pensar en ninguna aplicación práctica de la dimensión VC, pero creo que la idea de SVM probablemente fue influenciada por su trabajo en esto. El truco de Kernel en sí proviene de las matemáticas sin sentido abstracto sobre los espacios de Hilbert. Podría ser una exageración decir que es necesario conocer estas tonterías abstractas para crear SVM, pero creo que probablemente ayudó bastante, especialmente porque entusiasmaron a muchos matemáticos con el aprendizaje automático.

Sobre el tema de ResNet, recientemente ha habido un trabajo realmente interesante que sugiere que las arquitecturas residuales realmente no necesitan tener cientos de capas de profundidad. De hecho, algunos trabajos sugieren que las conexiones residuales son muy similares a las RNN, por ejemplo, cerrando las brechas entre el aprendizaje residual, las redes neuronales recurrentes y la corteza visual ", Liao et al. Creo que esto definitivamente hace que valga la pena profundizar más porque sugiere que teóricamente, ResNet con muchas capas es de hecho increíblemente ineficiente e hinchado.

Las ideas para el recorte de gradiente para RNN estaban muy bien justificadas en el ahora famoso documento " Sobre la dificultad de entrenar redes neuronales recurrentes " - Pascanu, et. Alabama. Si bien probablemente podría llegar a un recorte de degradado sin toda la teoría, creo que es muy útil para comprender por qué los RNN son tan difíciles de entrenar sin hacer algo elegante, especialmente al hacer analogías con mapas dinámicos del sistema (como lo hace el documento anterior) )

Hay mucha emoción sobre los métodos de descenso de gradiente estocástico de entropía . Estos se derivaron de la dinámica de Langevin, y gran parte de los resultados teóricos se basan firmemente en la teoría PDE teórica clásica y la física estadística. Los resultados son prometedores porque arrojan SGD bajo una nueva luz, en términos de cómo se atasca en las fluctuaciones locales de la función de pérdida, y cómo uno puede suavizar localmente la función de pérdida para hacer que SGD sea mucho más eficiente. Ayuda mucho a comprender cuándo SGD es útil y cuándo se comporta mal. Esto no es algo que pueda derivarse empíricamente al probar SGD en diferentes tipos de modelos.

En el artículo Intrigantes propiedades de las redes neuronales , los autores resumen que las redes neuronales son sensibles a los ejemplos adversos (definidos como perturbaciones calculadas de una imagen) debido a las altas constantes de Lipchitz entre capas. Esta sigue siendo un área activa de investigación y solo se puede entender mejor a través de más derivaciones teóricas.

También está el ejemplo del Análisis de datos topológicos , en torno al cual se formó al menos una empresa ( Ayasdi ). Este es un ejemplo particularmente interesante porque las técnicas utilizadas son tan específicas y abstractas que incluso a partir de hoy, todavía tomará mucho tiempo ver dónde terminan las ideas de esta teoría. Según tengo entendido, la complejidad computacional de los algoritmos involucrados tiende a ser bastante alta (pero, de nuevo, era igualmente alta para las redes neuronales incluso hace 20 años).


7

La respuesta a esta pregunta es realmente muy simple. Con una justificación teórica detrás del modelo de aprendizaje automático, al menos podemos demostrar que cuando se cumplen algunas condiciones más o menos realistas, hay algunas garantías de optimización para la solución. Sin ella, no tenemos ninguna garantía. Claro, puede decir "solo verifiquemos qué funciona y usémoslo para el problema en particular", pero esto no es factible ya que hay infinitas formas de resolver cualquier problema de aprendizaje automático.

YXX+42X+42,5X-4242XX+420 0


2
¿está comprobando si su modelo entrenado funciona en los conjuntos de validación y prueba no es suficiente? ¿Qué garantías tienen los límites teóricos si sus límites no pueden utilizarse realmente?
Charlie Parker

66
X+dodo(-,)

5

Simplemente mirando la pregunta: ¿es realmente tan importante la búsqueda teórica y de principios del aprendizaje automático?

Defina lo que quiere decir con "importante". Viniendo desde un punto de vista filosófico, es una distinción fundamental si quieres describir algo o entender algo. En una respuesta algo cruda, es la diferencia entre ser científico u otra cosa. La parte práctica no es de interés para la pregunta subyacente. Si algo es demasiado difícil de probar, o incluso imposible de probar, es un descubrimiento importante. (Ingrese Goedel et al.) Pero esto no significa que sea irrelevante. Al menos puede parecer irrelevante desde un punto de vista pragmático. Pero al menos debe ser reconocido como algo de importancia y valor principales.

Considere una analogía: la medicina en su conjunto (y de su pasado) no es científica. En cierto modo, en realidad nunca puede ser. Es una disciplina que se rige por completo por su resultado. En la mayoría de los casos no hay nada como "verdad". Pero resulta que algunas partes pueden ser científicas, y aquí es donde está ocurriendo la mayor parte del progreso planificado.

Otra descripción extremadamente corta podría ser: sin teoría, puedes ganar mucho dinero. Si es realmente útil para un "bien mayor", incluso podría obtener un premio Nobel por ello. Pero nunca obtendrás la medalla Fields.


1
+1 Encuentro que esta es una respuesta interesante para el OP, pero le pediría que profundice en la medicina como no científica. ¿No es el proceso de diagnóstico encontrar lo que está enfermando a un paciente, un proceso en el que se suponen diagnósticos diferenciales (un concepto teórico de sospecha de enfermedades) y se recopilan datos para predecir qué enfermedad es la más probable? ...
IWS

(continuación) ... ¿no hay pronósticos en los que los médicos tratan de estimar el curso futuro de la enfermedad en función de los datos disponibles, que pueden verificarse y generalmente se verifican mediante el seguimiento y los hallazgos empíricos? Y finalmente, ¿es la ciencia una búsqueda de una verdad superior pero existente, o aproximamos un constructo de verdad que creemos que está presente en este momento?
IWS

En realidad, la cuestión de la medicina es un poco más profunda. La ciencia es básicamente solo un método o un proceso. Para que la ciencia "funcione", debe tener la capacidad de probar hipótesis en igualdad de condiciones con la posibilidad inherente de falsificación. En resumen: si no puede probar que una teoría está equivocada, no es científica. Para la medicina, esto tiene demasiadas implicaciones éticas y dado que no se puede tratar a alguien en el mismo momento con diferentes opciones, las pruebas de hipótesis son realmente difíciles. [...]
querubín

Con respecto a la segunda parte (la ciencia como búsqueda de la verdad), nuevamente, es solo un método. Parece ser el método más exitoso que la humanidad ha ideado. Pero no se basa creer, se basa en hechos. Y de alguna manera también es un sistema cerrado. No hay distinción (científica) entre la verdad y una construcción que parece ser la misma. El acuerdo entre los científicos puede darle algunas reglas generales (por ejemplo, Occams Razor), pero la ciencia no es una brújula en los mares de la no ciencia.
querubín

5

Los humanos han sido capaces de construir barcos, carruajes y edificios durante siglos sin las leyes de la física. Pero desde la ciencia moderna, hemos podido llevar esas tecnologías a un nivel completamente nuevo. Una teoría comprobada permite realizar mejoras de manera basada en principios. Nunca habríamos llegado a la luna o tendríamos computadoras sin una teoría matemática de la materia y la computación.

El aprendizaje automático es solo otro campo de la ciencia y la ingeniería como cualquier otro. Un enfoque basado en principios para el aprendizaje automático nos ha proporcionado máquinas kernel, aprendizaje estructurado y métodos de conjunto (impulso, bosques aleatorios).


5

Aquí hay un ejemplo simple de mi propio trabajo.

Encajo muchas redes neuronales con resultados continuos. Uno determina los pesos por retropropagación. Eventualmente, convergerá.

(UNATUNA)-1UNATy
UNAy

Mi red converge mucho más rápido .

Gracias teoría.


3

Empirismo vs Teoría

Tu escribiste:

Una de las mayores críticas de la teoría es que, debido a que es tan difícil de hacer, generalmente terminan estudiando un caso muy restringido o las suposiciones que deben presentarse esencialmente hacen que los resultados sean inútiles.

Creo que esto demuestra la división principal entre los dos puntos de vista que podemos llamar empíricos y teóricos .

Desde un punto de vista empírico, como también describiste, los teoremas son inútiles porque nunca son lo suficientemente complejos como para modelar el mundo real. Hablan de escenarios ideales simplificados que no se aplican en ningún lugar del mundo real. Entonces, ¿qué sentido tiene hacer teoría?

Sin embargo, desde un punto de vista teórico, lo contrario es cierto. ¿Qué puede enseñarnos el empirismo más allá de "Ejecuté este método en este conjunto de datos y fue mejor que ejecutar ese otro método en este mismo conjunto de datos". Esto es útil para una instancia, pero dice poco sobre el problema.

Lo que la teoría hace es proporcionar algunas garantías. También nos permite estudiar escenarios simplificados exactamente para que podamos comenzar a comprender lo que está sucediendo.

Ejemplo

Imagine un ejemplo real: desea ver cómo la deriva del concepto (cuando los datos cambian con el tiempo) afecta su capacidad de aprender. ¿Cómo abordaría esta pregunta un empirista puro? Todo lo que puede hacer realmente es comenzar a aplicar diferentes métodos y pensar en los trucos que puede hacer. Todo el procedimiento podría ser similar a esto:

  • Tómate 300 días e intenta detectar si la media de esa variable ha cambiado. OK, de alguna manera funcionó.
  • ¿Qué pasa si intentamos 200 días en su lugar?
  • Bien, mejor, intentemos cambiar el algoritmo una vez que ocurra la deriva.
  • Obtenga más conjuntos de datos y vea qué método desarrollado hasta ahora funciona mejor.
  • Los resultados no son concluyentes, ¿quizás supongo que hay más de un tipo de desviaciones conceptuales?
  • Prueba simulaciones. ¿Qué sucede si simulamos alguna deriva conceptual y luego aplicamos diferentes métodos usando diferentes días para detectar si se ha producido un cambio?

Lo que tenemos aquí son resultados bastante precisos en algunos conjuntos de datos. Quizás los datos fueron para que la actualización del algoritmo de aprendizaje basado en observaciones de 200 días pasados ​​diera la mayor precisión. ¿Pero funcionará lo mismo para otros datos? ¿Qué tan confiable es esta estimación de 200 días? Las simulaciones ayudan, pero no reflejan el mundo real, el mismo problema tenía la teoría.

Ahora imagine lo mismo desde un punto de vista teórico:

  • Simplifica el escenario a un nivel absurdo. Tal vez use una distribución normal de 2 variantes con una media que cambie repentinamente con el tiempo.
  • Elija sus condiciones claramente: elija el modelo que sea óptimo para los datos normales. Suponga que sabe que los datos son normales. Todo lo que no sabe es cuándo ocurre el cambio en los medios.
  • Dispositivo: un método para detectar cuándo se ha producido el cambio. De nuevo puede comenzar con 200 observaciones pasadas.
  • Según esta configuración, deberíamos poder calcular el error promedio para el clasificador, el tiempo promedio que tarda el algoritmo en detectar si se ha producido un cambio y actualizarlo. Tal vez el peor de los casos y garantías dentro del 95% de probabilidad

Ahora este escenario es más claro: pudimos aislar el problema arreglando todos los detalles. Conocemos el error promedio de nuestros clasificadores. Probablemente pueda estimar la cantidad de días que tomaría detectar ese cambio. Deduzca de qué parámetros depende esto (como quizás el tamaño del cambio). Y ahora basado en algo produce una solución práctica. Pero lo más importante de todo: este resultado (si se calcula correctamente) no cambia. Está aquí para siempre y cualquiera puede aprender de él.

Como uno de los padres del aprendizaje automático moderno: a Jürgen Schmidhuber le gusta decir:

La heurística va y viene: los teoremas son para la eternidad.

Lecciones de otros campos.

También quería mencionar brevemente algunos paralelismos con la física. Creo que solían tener este dilema también. Los físicos estudiaban objetos sin fricción de masa infinita moviéndose dentro del espacio infinito. A primera vista, ¿qué puede decirnos sobre la realidad en la que queremos saber cómo se mueven los copos de nieve en el viento? Pero parece que la teoría los llevó bastante lejos.


2

Usted mencionó algunas razones, de las cuales la capacidad de interpretar los resultados de ML es la más importante, en mi opinión. Digamos que el guardia de la propiedad impulsado por IA decidió disparar al perro del vecino. Sería importante entender por qué lo hizo. Si no es para evitar que esto suceda en el futuro, al menos para comprender quién es responsable y quién pagará la compensación del propietario.

Sin embargo, para mí, la razón más importante es que comprender los principios en los que se basa el algoritmo permite comprender sus limitaciones y mejorar su rendimiento. Considere el uso de la distancia euclidiana en ML. En muchos algoritmos de agrupación, comienza con la definición de la distancia entre los ejemplos, luego continúa buscando los límites entre las características de los ejemplos que los agrupan. Una vez que aumenta el número de características, la distancia euclidiana deja de funcionar en algún momento. Puede pasar mucho tiempo tratando de hacerlo funcionar o, si sabe que la distancia euclidiana como medida de proximidad no funciona en un límite de dimensión infinita, simplemente cambie a otra métrica de distancia, como Manhattan, y luego continúe trabajando en problemas reales Puedes encontrar un montón de ejemplos como este,


2
He escuchado esta afirmación antes, pero no creo conocer ningún ejemplo específico que demuestre esto: ¿hay algún ejemplo de algunos datos que no se agrupen bien con las distancias euclidianas pero que se agrupen bien con las distancias de Manhattan?
ameba dice Reinstate Monica

1
@amoeba aquí está la referencia común, aunque me encontré con esto anteriormente en un contexto diferente. Si observa la relación del volumen de una hiperesfera dentro de un hipercubo unitario, se reduce a cero a medida que la dimensionalidad del hipercubo llega al infinito. Básicamente, en dimensiones más altas todos los cuerpos convexos colapsan en puntos - mi interpretación
Aksakal

2

Creo que es muy difícil que esto no sea una discusión filosófica. Mi respuesta es realmente una nueva redacción de los buenos puntos ya mencionados aquí (+1 para todos); Solo quiero señalar una cita de Andrew Gelman que realmente me habló como alguien que se formó como informático. Tengo la impresión de que muchas de las personas que llaman aprendizaje automático también provienen de la informática. La cita es de una charla que Gelman dio en la Conferencia R de Nueva York de 2017 llamada Estadística teórica es la teoría de la estadística aplicada :

La teoría es escalable.

La teoría te dice qué tiene sentido y qué no bajo ciertas condiciones. ¿Queremos hacer miles o decenas de miles o millones de simulaciones para tener una idea de la verdad? ¿Queremos hacer comparaciones empíricas en más y más conjuntos de datos de referencia? Tomará un tiempo y nuestros resultados aún pueden ser frágiles. Además, ¿cómo sabemos que las comparaciones que hacemos tienen sentido? ¿Cómo sabemos que nuestro nuevo Deep Learner con una precisión del 99.5% es realmente mejor que el anterior que tenía una precisión del 99.1%? Alguna teoría ayudará aquí.

Soy un gran admirador de las simulaciones y las uso mucho para dar sentido al mundo (o incluso dar sentido a la teoría), pero el aprendizaje automático teórico es la teoría del aprendizaje automático aplicado.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.