Supongamos que tengo un panel de variables explicativas , para , , así como un vector de variables dependientes de resultados binarios . Por lo tanto, solo se observa en el momento final y no en ningún momento anterior. El caso totalmente general es tener múltiples para para cada unidad en cada momento , pero centrémonos en el caso por brevedad.t = 1 . . . T Y i T Y T X i j t j = 1 ... K i t K = 1
Las aplicaciones de tales pares "desequilibrados" con variables explicativas temporales correlacionadas son, por ejemplo, (precios diarios de acciones, dividendos trimestrales), (informes meteorológicos diarios, huracanes anuales) o (características de posición de ajedrez después de cada movimiento, resultado de ganancia / pérdida en El final del juego).
Estoy interesado en los coeficientes de regresión (posiblemente no lineales) para hacer predicciones de , sabiendo que en los datos de entrenamiento, dadas las primeras observaciones de para , conduce al resultado final X i t t < T Y i T
Viniendo de un fondo econométrico, no he visto muchos modelos de regresión aplicados a tales datos. OTOH, he visto las siguientes técnicas de aprendizaje automático que se aplican a dichos datos:
- haciendo aprendizaje supervisado en todo el conjunto de datos, por ejemplo, minimizando
simplemente extrapolando / imputando la observada a todos los puntos anteriores en el tiempo
Esto se siente "mal" porque no tendrá en cuenta la correlación temporal entre los diferentes puntos en el tiempo.
- haciendo aprendizaje de refuerzo como la diferencia temporal con el parámetro de aprendizaje y el parámetro de descuento , y resolviendo recursivamente través de la propagación hacia atrás a partir deλ t = T
con el gradiente de con respecto a . f ( ) β
Esto parece más "correcto" porque tiene en cuenta la estructura temporal, pero los parámetros y son algo "ad hoc".λ
Pregunta : ¿existe literatura sobre cómo mapear las técnicas de aprendizaje supervisadas / de refuerzo anteriores en un marco de regresión como se usa en la estadística / econometría clásica? En particular, me gustaría poder estimar los parámetros en "one go" (es decir, para todos los simultáneamente) haciendo mínimos cuadrados (no lineales) o máxima verosimilitud en modelos como t = 1 ... T
También me interesaría saber si los metaparámetros de aprendizaje de diferencia temporal y podrían recuperarse de una formulación de máxima verosimilitud.λ