Pregunta: Quiero estar seguro de algo, ¿el uso de la validación cruzada k-fold con series de tiempo es sencillo o hay que prestar especial atención antes de usarlo?
Antecedentes: estoy modelando una serie temporal de 6 años (con cadena semi-markov), con una muestra de datos cada 5 min. Para comparar varios modelos, estoy usando una validación cruzada de 6 veces al separar los datos en 6 años, por lo que mis conjuntos de entrenamiento (para calcular los parámetros) tienen una duración de 5 años, y los conjuntos de prueba tienen una longitud de 1 año. No estoy teniendo en cuenta el orden de tiempo, por lo que mis diferentes conjuntos son:
- pliegue 1: entrenamiento [1 2 3 4 5], prueba [6]
- pliegue 2: entrenamiento [1 2 3 4 6], prueba [5]
- pliegue 3: entrenamiento [1 2 3 5 6], prueba [4]
- pliegue 4: entrenamiento [1 2 4 5 6], prueba [3]
- pliegue 5: entrenamiento [1 3 4 5 6], prueba [2]
- pliegue 6: entrenamiento [2 3 4 5 6], prueba [1].
Estoy haciendo la hipótesis de que cada año son independientes entre sí. ¿Cómo puedo verificar eso? ¿Hay alguna referencia que muestre la aplicabilidad de la validación cruzada k-fold con series de tiempo?