Con los algoritmos de aprendizaje automático, a menudo es beneficioso usar el ajuste de escala o la normalización de funciones para ayudar al algoritmo a converger rápidamente durante el entrenamiento y para evitar que un conjunto de funciones dominen a otro. Tomemos, por ejemplo, el problema de predecir los precios de las acciones. Si incluye acciones de alto precio como Apple o Microsoft junto con algunas acciones de centavo, las características de alto valor que necesariamente extraerá de Apple y los precios de Microsoft abrumarán a las que extraiga de las acciones de centavo, y no estará entrenando en un base manzana a manzana (¡sin juego de palabras!), y el modelo entrenado resultante podría no generalizarse muy bien.
Sin embargo, imho "intentar descifrar y eliminar la tendencia de los datos" sería algo muy bueno. Extraer los diversos componentes cíclicos y de tendencia y normalizarlos restando sus medios respectivos y dividiéndolos por sus desviaciones estándar colocaría todos los datos para todas las series de tiempo en el mismo rango aproximado, y luego estaría entrenando en datos similares que, cuando reescalado al revertir la normalización, probablemente se generalizaría mucho mejor con fines predictivos.
Además, para cualquier serie de tiempo, podría ser el caso que la tendencia empape el componente cíclico, por lo que podría terminar entrenando con datos de tendencia que casi seguramente no funcionarán bien en series de tiempo cíclicas, y viceversa. Al separar los dos componentes y entrenar en cada uno con SVM o NN separados y luego recombinar las dos predicciones, puede terminar con un algoritmo más preciso y más fácil de generalizar.