Intento utilizar la regresión de RF para hacer predicciones sobre el rendimiento de una fábrica de papel.
Tengo datos minuto a minuto para las entradas (velocidad y cantidad de pulpa de madera que ingresa, etc.), así como para el rendimiento de la máquina (papel producido, energía consumida por la máquina) y estoy buscando hacer predicciones 10 minutos adelante en las variables de rendimiento.
Tengo 12 meses de datos, así que los he separado en 11 meses para el conjunto de entrenamiento y el último mes para las pruebas.
Hasta ahora, he creado 10 nuevas características que son valores rezagados de 1 a 10 minutos para cada una de las variables de rendimiento, y las utilicé, así como las entradas para hacer predicciones. El rendimiento en el conjunto de pruebas ha sido bastante bueno (el sistema es bastante predecible), pero me preocupa que me falte algo en mi enfoque.
Por ejemplo, en este documento , los autores exponen su enfoque al probar la capacidad predictiva de su modelo de bosque aleatorio:
La simulación continúa agregando iterativamente una nueva semana de datos, entrenando un nuevo modelo basado en los datos actualizados y prediciendo el número de brotes para la semana siguiente
¿En qué se diferencia esto de utilizar datos "posteriores" en las series de tiempo como prueba? ¿Debería validar mi modelo de regresión de RF con este enfoque y con el conjunto de datos de prueba? Además, ¿es este tipo de enfoque 'autorregresivo' para la regresión aleatoria del bosque válido para series de tiempo, e incluso necesito crear tantas variables rezagadas si estoy interesado en una predicción de 10 minutos en el futuro?