He estado usando el paquete caret en R para construir modelos predictivos para clasificación y regresión. Caret proporciona una interfaz unificada para ajustar los hiperparámetros del modelo mediante validación cruzada o arranque de bandas. Por ejemplo, si está construyendo un modelo simple de 'vecinos más cercanos' para la clasificación, ¿cuántos vecinos debe usar? 2? 10? 100? Caret le ayuda a responder esta pregunta volviendo a muestrear sus datos, probando diferentes parámetros y luego agregando los resultados para decidir cuál produce la mejor precisión predictiva.
Me gusta este enfoque porque proporciona una metodología robusta para elegir hiperparámetros del modelo, y una vez que ha elegido los hiperparámetros finales, proporciona una estimación validada cruzada de cuán "bueno" es el modelo, utilizando la precisión para los modelos de clasificación y RMSE para modelos de regresión.
Ahora tengo algunos datos de series temporales para los que quiero construir un modelo de regresión, probablemente usando un bosque aleatorio. ¿Cuál es una buena técnica para evaluar la precisión predictiva de mi modelo, dada la naturaleza de los datos? Si los bosques aleatorios no se aplican realmente a los datos de series de tiempo, ¿cuál es la mejor manera de construir un modelo de conjunto preciso para el análisis de series de tiempo?