Podemos analizar el problema de la siguiente manera:
< x0 0, y0 0, x1, y1>( x0 0- y0 0)2+ ( x1- y1)2------------------√), debería poder aprender esta relación con una precisión arbitrariamente cercana.
A continuación, si tiene una imagen similar a la que describe y la alimenta a través de una red neuronal diferente (p. Ej., Una CNN), y como etiquetas, utilizó los puntos de los dos puntos (una vez más < x0 0, y0 0, x1, y1>), entonces debería poder aprender esa relación con una precisión arbitrariamente cercana una vez más.
Por supuesto, no hay razón para hacer esto en dos redes neuronales separadas, por lo que podemos combinar las dos de extremo a extremo para tener un modelo que tome la imagen como entrada y la distancia como salida.
Sin embargo, este modelo necesitaría ser entrenado en datos etiquetados, por lo que necesitaría generar los datos usted mismo o etiquetar imágenes.
Pero si desea que aprenda la noción de cerrar una distancia de una manera menos supervisada, necesitaría utilizar el aprendizaje por refuerzo. En este caso, tendría que configurar un entorno que incentive al agente a reducir la distancia. Esto podría ser tan simple como obtener recompensa si una acción reduce la distancia.
Otro enfoque sería incentivar al agente utilizando recompensas futuras. Es decir, su recompensa no solo proviene de los resultados del próximo estado inmediato, sino que también hay contribuciones del siguiente estado posible, y el siguiente, y así sucesivamente. Esta es la idea detrás de Deep Q-Learning, e implemento un ejemplo simple (muy similar a lo que estás describiendo) en este cuaderno .
Entonces, ahora la pregunta es: ¿esta implementación ha hecho algo más que moverse al azar hasta que sigue un camino hacia el éxito?
En su ejemplo, habla de recompensar al agente cuando llega a la meta. Pero en lo que describí, ganó recompensa al acercarse a la meta (ya sea a través de la función Q o directamente desde el entorno). Puede hacerlo aprendiendo alguna idea abstracta de distancia (que puede ilustrarse en la versión supervisada).
Cuando un humano aprende esto, es por la misma razón exacta: el humano está ganando una recompensa por moverse en esa dirección a través de una sensación de recompensas futuras.
Yo diría que, con suficiente capacitación y datos, el aprendizaje por refuerzo podría aprender este concepto con facilidad. En lo que respecta a otras recompensas presentes en el tablero (por ejemplo, "minimizar la entropía del tablero e intentar obtener recompensas"), debe pensar qué es lo que está preguntando. ¿Prefieres que el agente minimice la distancia o maximice la recompensa? Porque, en general, no puede hacer ambas cosas. Si está buscando un equilibrio entre los dos, entonces realmente está redefiniendo la recompensa para considerar también la distancia.