Tengo datos históricos de ventas de una panadería (diariamente, durante 3 años). Ahora quiero construir un modelo para predecir ventas futuras (usando características como día de la semana, variables climáticas, etc.).
¿Cómo debo dividir el conjunto de datos para ajustar y evaluar los modelos?
- ¿Tiene que ser un tren cronológico / validación / división de prueba?
- ¿Haría entonces un ajuste de hiperparámetro con el tren y el conjunto de validación?
- ¿Es la validación cruzada (anidada) una mala estrategia para un problema de series temporales?
EDITAR
Aquí hay algunos enlaces que encontré después de seguir la URL sugerida por @ ene100:
- Rob Hyndman describe el "origen del pronóstico continuo" en teoría y en la práctica (con código R)
- otros términos para el origen del pronóstico continuo son "optimización de avance" ( aquí o aquí ), "horizonte variable" u "origen móvil"
- parece que estas técnicas no se integrarán en scikit-learn en el futuro cercano, porque "la demanda y la seminalidad de estas técnicas no está clara" (se indica aquí ).
Y esta es otra sugerencia para la validación cruzada de series temporales.