He estado tratando de resolver este problema durante más de un año sin mucho progreso. Es parte de un proyecto de investigación que estoy haciendo, pero lo ilustraré con un ejemplo de historia que inventé, porque el dominio real del problema es un poco confuso (seguimiento ocular).
Usted es un avión que rastrea un barco enemigo que viaja a través del océano, por lo que ha recopilado una serie de coordenadas (x, y, tiempo) del barco. Usted sabe que un submarino oculto viaja con el barco para protegerlo, pero si bien existe una correlación entre sus posiciones, el submarino a menudo se aleja del barco, por lo que, aunque a menudo está cerca de él, también puede estar al otro lado del barco. mundo de vez en cuando. Desea predecir el camino del submarino, pero desafortunadamente está oculto para usted.
Pero un mes de abril notas que el submarino se olvida de esconderse, por lo que tienes una serie de coordenadas tanto para el submarino como para el barco a lo largo de 1,000 viajes. Con estos datos, le gustaría construir un modelo para predecir la trayectoria del submarino oculto dados solo los movimientos de la nave. La línea de base ingenua sería decir "posición del submarino conjetura =" posición actual del barco ", pero a partir de los datos de abril en los que el submarino era visible, se nota una tendencia de que el submarino esté un poco por delante del barco, así que" posición del submarino supongo que la posición del barco en 1 minuto "es una estimación aún mejor. Además, los datos de abril muestran que cuando el barco se detiene en el agua durante un período prolongado, es probable que el submarino esté muy lejos patrullando las aguas costeras. Hay otros patrones por supuesto.
¿Cómo construiría este modelo, dados los datos de abril como datos de entrenamiento, para predecir el camino del submarino? Mi solución actual es una regresión lineal ad-hoc donde los factores son "tiempo de viaje", "coordenada x del barco", "estuvo inactivo el barco durante 1 día", etc. y luego hacer que R calcule los pesos y realice una validación cruzada . Pero realmente me encantaría una forma de generar estos factores automáticamente a partir de los datos de abril. Además, un modelo que usa secuencia o tiempo sería bueno, ya que la regresión lineal no lo hace y creo que es relevante.
Gracias por leer todo esto y me complacería aclarar cualquier cosa.