¿Se pueden entrenar redes profundas para probar teoremas?


21

Supongamos que tenemos una gran cantidad de pruebas en el cálculo de predicados de primer orden. Supongamos que también tenemos los axiomas, corolarios y teoremas en esa área de las matemáticas en esa forma también.

Considere cada proposición que se probó y el cuerpo de la teoría existente que rodea esa proposición específica como un ejemplo en un conjunto de entrenamiento y una buena prueba conocida de la proposición como las etiquetas asociadas. Ahora, considere una red artificial profunda diseñada específicamente para entrenar en este conjunto de ejemplo, y los hiperparámetros configurados correctamente para hacerlo.

¿Es posible entrenar una red artificial profunda de tal manera que la presentación de una nueva proposición y la teoría existente que la rodea se presente en el cálculo de predicados de primer orden en la entrada produciría una prueba en la salida?

(Por supuesto, tales pruebas deben verificarse manualmente).

Si la proporción de buenas pruebas resultantes fuera lo suficientemente alta, ¿podría ser posible crear un algoritmo genético que proponga proposiciones a la red profunda entrenada creando así pruebas?

¿Es eso posible?

¿Sería posible utilizar este tipo de diseño de red profunda para resolver la conjetura de Collatz o la conjetura de Riemann o al menos reorganizar los patrones de manera que los matemáticos sean más capaces de llegar a una prueba legítima?


55
Por lo que puedo pensar en un "rotundo no", los NN solo son buenos para aproximaciones de funciones (muy bueno) ... decir que un NN podría hacer lo que usted dice que puede hacer supone que todas las pruebas son de alguna manera una función del problemas, varibales u otras cosas ... y no sé si alguien lo ha dicho
DuttaA

2
@DouglasDaseeco casi todas las pruebas son realizadas por matemáticos que imaginan algo abstracto 'intuitivamente' y luego lo dan vida ... mientras que NN definitivamente no es capaz de eso ... solo podrán probar teoremas insignificantes o similares, como encontrar un caso de excepción y así refutar o algo así
DuttaA

1
@DuttaA, la intuición es mucho más fácil de enseñar a una red neuronal que a la lógica. Las redes artificiales pueden clasificar el correo ambiguamente dirigido sin un motor de reglas. La extracción de características y la categorización sin supervisión también están más cerca de la intuición. Las operaciones lógicas como la multiplicación de dobles es insuperable. En la psicología del desarrollo, la obtención intuitiva de la atención adulta ocurre años antes de la conceptualización lógica AND y OR. Los niños no piensan causalmente: "Si me quejo, mamá se romperá y me dará azúcar". Ejecutan una función, no un plan. En mi respuesta aquí, los dos primeros elementos son los más difíciles.
FauChristian

2
¿Puedo sugerir utilizar un NN para guiar un teorema tradicional? El probador de teoremas regular presenta las posibilidades a la red, y el NN solo tiene que elegir uno. De esa manera, no necesita aprender qué es y qué no es una lógica válida, solo qué es interesante.
PyRulez

Respuestas:


6

Los sistemas de producción existentes, desarrollados en las últimas décadas, tienen codificadas las reglas de inferencia. Se basan en la visión de Leibniz de que toda la lógica clásica puede codificarse en lenguaje simbólico y procesarse mecánicamente. Se desarrolló la lógica de predicados de primer orden y se formalizó una nomeclatura.

Aunque la visión de la demostración automática del teorema fue desafiada considerablemente por los dos teoremas de incompletitud de Gödel, el trabajo de integridad de Turing y el desarrollo de una arquitectura para realizarla prácticamente por von Neumann revivió el trabajo hacia la automatización del proceso mecánico de inferencia.

El laboratorio de IA del MIT, durante la época de Minsky, estaba vivo con tales esfuerzos, pero lo que llamaron la explosión combinatoria mostró que no había suficiente disponibilidad de recursos informáticos para buscar el espacio requerido para probar automáticamente teoremas arbitrarios de complejidad no trivial. Se emplearon grandes computadoras paralelas llamadas máquinas de conexión y varios esquemas, utilizando meta reglas y enfoques heurísticos, para superar el problema de la explosión combinatoria.

Las redes artificiales se introdujeron y la idea de que podrían rivalizar con las máquinas de producción fue rechazada por la comunidad LISP cuando se propuso por primera vez. Sin embargo, en el contexto de un éxito considerable en el aumento de los recursos informáticos y los logros recientes en el aprendizaje automático, muchos han comenzado a hacer preguntas que se archivaron en el siglo XX.

Ya sabemos que las redes artificiales pueden aprender funciones lógicas y algebraicas arbitrarias, muchas de las cuales se pueden aprender con PAC. 1 Dado el ambiente de aprendizaje adecuado, aprender inferencia lógica es claramente algo que la corteza cerebral puede hacer en su punto actual de evolución. Si las redes neuronales alcanzarán ese nivel de cognición es una pregunta abierta que muchos hacen.

Esa investigación de inteligencia artificial y aprendizaje automático no se centra en la adquisición de reglas de inferencia lógica en redes artificiales, en gran parte porque programarlas en un sistema como DRools y otros sistemas de producción de uso común parece que el enfoque más racional no significa que siempre lo será. La pregunta es si existe un retorno suficiente de la inversión para hacer lo que puede ser interesante pero ciertamente costoso, cuando ya existen otras soluciones.

Esta pregunta es similar a otra pregunta de Intercambio de pilas de inteligencia artificial sobre qué tan buena es la inteligencia artificial en matemáticas. Una de las respuestas dadas allí es aplicable aquí.

Es importante no descartar ningún enfoque en este período de tiempo, ya que el reciente interés en la IA no solo ha reavivado el gasto público sino también el gasto comercial. Este gasto aumenta el personal, el poder de cómputo y el incentivo para superar los obstáculos que antes podrían haberse considerado insuperables.


Notas al pie

[1] PAC Learning es un marco para determinar la computabilidad práctica de los algoritmos de aprendizaje dadas las características de la clase de hipótesis que se pueden aprender usando el modelo dado y la precisión y confianza esperadas del proceso de aprendizaje.


1

Su idea puede ser factible en general, pero una red neuronal es probablemente la herramienta incorrecta de alto nivel para explorar este problema.

La fuerza de una red neuronal está en encontrar representaciones internas que permitan una solución altamente no lineal al mapear entradas a salidas. Cuando entrenamos una red neuronal, esas asignaciones se aprenden estadísticamente mediante la repetición de ejemplos. Esto tiende a producir modelos que se interpolan bien cuando se proporcionan datos similares al conjunto de entrenamiento, pero que se extrapolan mal.

Los modelos de redes neuronales también carecen de contexto, de modo que si utiliza un modelo generativo (por ejemplo, un RNN entrenado en secuencias que crean pruebas válidas o interesantes), puede producir fácilmente basura estadísticamente agradable pero sin sentido.

Lo que necesitará es algún principio de organización que le permita explorar y confirmar pruebas de forma combinatoria. De hecho, algo como su idea ya se ha hecho más de una vez, pero actualmente no puedo encontrar una referencia.

Nada de esto le impide usar una red neuronal dentro de una IA que busca pruebas. Puede haber lugares dentro de una IA matemática en los que necesite una buena heurística para guiar las búsquedas, por ejemplo, por ejemplo, en el contexto X es una sub-prueba Y probablemente sea interesante o relevante. Evaluar un puntaje de probabilidad es algo que una red neuronal puede hacer como parte de un esquema de IA más amplio. Eso es similar a cómo se combinan las redes neuronales con el aprendizaje por refuerzo.

Puede ser posible construir su idea completamente a partir de redes neuronales en principio. Después de todo, hay buenas razones para sospechar que el razonamiento humano funciona de manera similar usando neuronas biológicas (no se ha comprobado que las artificiales puedan igualar esto de ninguna manera). Sin embargo, la arquitectura de dicho sistema está más allá de cualquier diseño moderno de NN o configuración de capacitación. Definitivamente no se trata solo de agregar suficientes capas y luego introducir datos.


Max no está buscando una herramienta. Comenzó con: "Imagina que tengo una lista de todos los problemas y pruebas" en la pregunta antes de la edición. "La edición excesiva ocultó esa primera palabra. Está pensando en la viabilidad, que es una actividad de investigación legítima. La investigación generalmente comienza con imaginación y viabilidad. Max no es el único que reconoce la importancia de su pregunta tampoco. Hay cientos que saben que puede haber una manera de entrenar a una red para demostrar mediante la optimización de la aplicación de reglas de inferencia. Intuición aprendida. NietzscheanAI citó Hofstadter discutiendo esto mismo.
FauChristian

@FauChristian Leí "es posible" como si se puede lograr utilizando las técnicas conocidas actualmente, y cómo se podría comenzar nuevamente tal investigación utilizando los enfoques existentes. Estoy de acuerdo en que es posible responder usando un ángulo más teórico. Podría ser una Meta pregunta interesante cómo OP puede marcar la diferencia y cómo podemos confirmar la intención
Neil Slater

1

Lo que sabemos

Según una página del Banco Mundial , "Hoy en día, hay alrededor de 200 millones de estudiantes de educación superior en el mundo, frente a los 89 millones en 1998". Al menos 1 de cada 100, como requisito matemático, tuvo que desarrollar una prueba de un teorema y vivir al menos 40 años después.

Aunque hay al menos 20 millones de redes neuronales que pueden probar un teorema, no cuentan con ejemplos que respondan afirmativamente a esta pregunta. Estas redes neuronales son biológicas, no artificiales, y en su mayoría han demostrado teoremas previamente probados, no la conjetura de Collatz o la conjetura de Riemann.

Lo que algunos creen

Aquellos que creen que el aprendizaje profundo de Q y los dispositivos basados ​​en la atención se unirán a otros diseños de sistemas de aprendizaje hasta que las facultades del cerebro humano sean simuladas y quizás superadas, probablemente incluirían la demostración de teoremas como una de esas capacidades humanas. Estos probablemente declararían la lógica de predicados y la inferencia como otra función cognitiva compleja que se logrará en sistemas artificiales.

Aquellos que creen que algunas capacidades están imbuidas en humanos y son capacidades reservadas, pueden declarar que la lógica de predicado y la inferencia están reservadas solo para humanos.

Estado actual de progreso

No hay artículos académicos que indiquen la capacidad de probar incluso las pruebas más simples utilizando lógica de predicado e inferencia. Es posible que un gobierno o empresa privada haya logrado cierto nivel de éxito al hacerlo, pero esto no se ha revelado.

La idea de que las redes artificiales, si se desarrollan de manera apreciable, podrían superar los sistemas de producción, los sistemas de IA que se basan en producciones o reglas, en sus áreas de mayor efectividad, se propuso temprano en el desarrollo de la IA. Fue disputado entonces y ahora disputado, sin embargo, los argumentos no son matemáticos, por lo que no hay una fuerte indicación de que sea imposible.

Ciertamente, otros aspectos cognitivos del pensamiento humano son objetivos importantes de la investigación de IA. El diálogo, la educación automatizada, la planificación, el análisis estratégico y el pilotaje de vehículos son aspectos de mayor pensamiento que exigen más que DQN y los enfoques de red basados ​​en la atención ahora pueden ofrecer, pero el esfuerzo de investigación en estas áreas es apreciable y está bien financiado.

Enfoque potencial

La investigación hacia habilidades cognitivas lógicas debería comenzar con pruebas ya conocidas, mucho más simples que las conjeturas mencionadas en la pregunta. Por ejemplo, se ha demostrado que la suma de dos enteros no negativos debe ser otro entero no negativo. En el cálculo de predicados, eso se puede representar como una cadena de caracteres.

unado,sido:s=una+sisdo

Dice que ayb son miembros del conjunto de números de conteo, que la s, definida como la suma de los dos, también debe ser miembro del conjunto de números de conteo. Su prueba también se puede representar como una secuencia de cadenas de caracteres de cálculo de predicados de primer orden.

No pequeño proyecto de investigación

Tal ejemplo puede parecer simple para alguien que ha tomado años de cursos de matemáticas y ha construido pruebas. No es simple para un niño, y es muy difícil lograr que una red artificial converja a una función que aplique todas las reglas de inferencia lógica e incorpore meta-reglas para llegar a una prueba de un sistema formal como la aritmética de enteros.

Turing redes completas, como los RNN, sin duda tendrá ventajas sobre MLP (perceptrones multicapa). Las redes basadas en la atención pueden ser una opción de investigación razonable. Hay otros indicados en las referencias a continuación.

Se necesitaría una plataforma de computación paralela para la investigación, ya que el vector de entrada puede ser cientos de Kbytes. El tamaño de los ejemplos y cuántos serían necesarios es difícil de estimar sin tener uno o dos años en el proceso de investigación.

La definición de contar números, el signo más y el signo igual primero deben definirse, y esas definiciones y una serie de axiomas, postulados, lemas y corolarios deben ser parte del ejemplo de entrada en la forma formal, como la propuesta que debe ser demostrado anteriormente, junto con esa propuesta.

Y ese es el trabajo para preparar solo un ejemplo. Necesitaría miles para entrenar el conocimiento intuitivo sobre las reglas de inferencia en una red profunda. (Elegí la palabra INTUITIVO muy deliberadamente por razones teóricas que tomarían al menos cien páginas para explicarlo bien).

Este no es un proyecto pequeño ya que el conjunto de datos de ejemplo debe tener al menos unos pocos miles de casos, y cada caso, aunque puede compartir algo de teoría, debe configurarse para que la propuesta esté perfectamente formada y también se presente el cuerpo de teoría necesario. en forma perfecta en la entrada para cada iteración de entrenamiento.

Mi conjetura es que se necesitaría un equipo de investigadores brillantes con la comprensión adecuada de redes profundas, convergencia y cálculo de predicados alrededor de diez años para entrenar una red para dar pruebas viables en respuesta a propuestas matemáticas simples.

Pero no sería un logro pequeño

Puede parecer un esfuerzo absurdo para algunos, pero sería la primera vez que alguien le enseña a una computadora a ser lógico. Se necesitó la naturaleza justo debajo de la edad de la tierra para enseñar inferencia lógica a un organismo, Sócrates.

La gente supone que debido a que una computadora está compuesta de circuitos digitales que realizan lógica por diseño, las computadoras son lógicas. Cualquiera que haya estado en el desarrollo de software durante décadas con la inclinación a pensar más profundamente que piratear por diversión o dinero sabe de otra manera. Incluso después de una programación cuidadosa, las computadoras no simulan inferencia lógica y no pueden corregir su propio comportamiento programado para ningún error arbitrario. De hecho, la mayor parte del desarrollo de software actual es la corrección de errores.

Simular el pensamiento lógico sería un paso importante hacia la simulación de la cognición y la gama más amplia de capacidades humanas.


Referencias

Aprendiendo a componer redes neuronales para responder preguntas Jacob Andreas, Marcus Rohrbach, Trevor Darrell y Dan Klein UC, Berkeley 2016 https://arxiv.org/pdf/1601.01705.pdf

Aprendiendo múltiples capas de representación Geoffrey E. Hinton Departamento de Informática, Universidad de Toronto 2007 http://www.csri.utoronto.ca/~hinton/absps/ticsdraft.pdf

Neural Turing Machine (presentación de diapositivas) Autor: Alex Graves, Greg Wayne, Ivo Danihelka Presentado por: Tinghui Wang (Steve) https://eecs.wsu.edu/~cook/aiseminar/papers/steve.pdf

Máquinas neuronales de Turing (papel) Alex Graves, Greg Wayne, Ivo Danihelka https://pdfs.semanticscholar.org/c112/6fbffd6b8547a44c58b192b36b08b18299de.pdf 2014

Aprendizaje de refuerzo, Máquinas de Turing neuronal Wojciech Zaremba, Ilya Sutskever ICLR paper de la conferencia https://arxiv.org/pdf/1505.00521.pdf?utm_content=buffer2aaa3&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer 2016

Máquina dinámica de Turing neural con esquemas de direccionamiento continuo y discreto Caglar Gulcehre1, Sarath Chandar1, Kyunghyun Cho2, Yoshua Bengio1 https://arxiv.org/pdf/1607.00036.pdf 2017

Una red de inferencia neural autoconstructora en línea, inferencia y sus aplicaciones Chia-Feng Juang y Chin-Teng Lin Transacciones IEEE en sistemas difusos, v6, n1 1998 https://ir.nctu.edu.tw/bitstream/11536/ 32809/1 / 000072774800002.pdf

Secuencia gráfica cerrada Redes neuronales Yujia Li y Richard Zemel ICLR paper 2016 2016 https://arxiv.org/pdf/1511.05493.pdf

Construyendo máquinas que aprenden y piensan como las personas Brenden M. Lake, Tomer D. Ullman, Joshua B. Tenenbaum y Samuel J. Gershman Behavioral and Brain Sciences 2016 https://arxiv.org/pdf/1604.00289.pdf

Redes neuronales profundas pre-entrenadas dependientes del contexto para reconocimiento de voz de vocabulario grande George E. Dahl, Dong Yu, Li Deng y Alex Acero Transacciones IEEE sobre procesamiento de audio, lenguaje y lenguaje 2012 https://s3.amazonaws.com/ academia.edu.

Incorporación de entidades y relaciones para el aprendizaje y la inferencia en las bases del conocimiento Bishan Yang1, Wen-tau Yih2, Xiaodong He2, Jianfeng Gao2 y Li Deng2 ICLR paper 2015 https://arxiv.org/pdf/1412.6575.pdf

Un algoritmo de aprendizaje rápido para redes de creencias profundas Geoffrey E. Hinton, Simon Osindero, Yee-Whye Teh (comunicado por Yann Le Cun) Computación neuronal 18 2006 http://axon.cs.byu.edu/Dan/778/papers/Deep % 20Networks / hinton1 * .pdf

FINN: Un marco para una inferencia de red neuronal binaria rápida y escalable Yaman Umuroglu, et al 2016 https://arxiv.org/pdf/1612.07119.pdf

Del aprendizaje automático al razonamiento automático Léon Bottou 8/02/2011 https://arxiv.org/pdf/1102.1808.pdf

Aprendizaje profundo Yann LeCun1,2, Yoshua Bengio3 y Geoffrey Hinton4,5 Nature vol 521 2015 https://www.evl.uic.edu/creativecoding/courses/cs523/slides/week3/DeepLearning_LeCun.pdf


-1

Es posible, pero probablemente no sea una buena idea.

La prueba lógica es una de las áreas más antiguas de la IA, y existen técnicas especialmente diseñadas que no necesitan ser entrenadas, y que son más confiables que un enfoque de red neuronal, ya que no se basan en el razonamiento estadístico , y en su lugar use el amigo del matemático: razonamiento deductivo.

El campo principal se llama " Prueba de teorema automatizado ", y es lo suficientemente viejo como para calcificarse un poco como área de investigación. No hay muchas innovaciones, pero algunas personas aún trabajan en ello.

La idea básica es que la demostración de teoremas es una búsqueda guiada clásica o heurística: se parte de un estado que consiste en un conjunto de premisas aceptadas. Luego, aplica cualquier regla lógica de inferencia válida para generar nuevas premisas que también deben ser verdaderas, ampliando el conjunto de conocimientos que tiene. Eventualmente, puede probar una premisa deseada, ya sea a través de búsquedas enumerativas como la primera búsqueda de amplitud o la profundización iterativa , o mediante algo como A * con una heurística específica de dominio. Muchos solucionadores también usan una sola regla lógica ( unificación ) porque está completa y reduce el factor de ramificación de la búsqueda.


La falta de personas que todavía trabajan en él puede ser la causa de la falta de innovación. No debemos disuadir a Max tan rápido, especialmente porque el teorema automatizado que prueba el trabajo en los primeros días de LISP no aplicaba la gama más amplia de técnicas disponibles actualmente. ¿Por qué? Esto es de lo que hablé en el otro comentario. La gente del sistema de producción no interactuaba mucho con la gente del perceptrón. Hubo insultos, pero las universidades involucradas los han eliminado de la vista pública.
FauChristian
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.