Digamos que un Modelo fue entrenado en la fecha utilizando los datos etiquetados disponibles, dividido en entrenamiento y prueba, es decir, , . Este modelo luego se implementa en producción y hace predicciones sobre los nuevos datos entrantes. Pasan algunos días , y hay un montón de datos etiquetados que se recopilan entre y días, llamémoslo . En mi enfoque actual, tomo muestras aleatorias de (toma, por ejemplo, para la división 80/20),
Entonces, de = (nuevos datos utilizados para ajustar el modelo existente entrenado en ) de = (nuevos datos agregados a la )
Este proceso de ajuste se repite a medida que pasa el tiempo.
Al hacer esto, obtengo un conjunto de pruebas cada vez más amplio, así como también evito volver a entrenar todo el modelo (esencialmente puedo tirar los datos antiguos como el modelo ha aprendido de ellos). El nuevo modelo generado es solo una versión afinada del anterior.
Tengo algunas preguntas sobre este enfoque:
- ¿Hay algún inconveniente obvio al hacer esto?
- ¿Necesitaría alguna vez volver a entrenar completamente el modelo (olvidando todo lo que se aprendió antes y entrenando el modelo con nuevas divisiones de entrenamiento / prueba) después de un tiempo o puede continuar el enfoque que describí anteriormente indefinidamente?
- ¿Cuál debería ser la condición para intercambiar el modelo implementado existente con el modelo recién ajustado?