Divulgación completa: no soy estadístico ni pretendo serlo. Soy un humilde administrador de TI. Por favor, juega gentil conmigo. :)
Soy responsable de recopilar y pronosticar el uso del almacenamiento en disco para nuestra empresa. Recopilamos nuestro uso de almacenamiento mensualmente y usamos una simple regresión lineal de doce meses para los pronósticos (en otras palabras, solo se consideran los doce meses anteriores de datos al hacer una proyección). Utilizamos esta información para la asignación y planificación de gastos de capital, por ejemplo, "Según este modelo, tendremos que comprar x cantidad si se almacena en y meses para satisfacer nuestras necesidades". Todo esto funciona lo suficientemente bien como para satisfacer nuestras necesidades.
Periódicamente, tenemos grandes movimientos de una sola vez en nuestros números que desalientan el pronóstico. Por ejemplo, alguien encuentra 500 GB de copias de seguridad antiguas que ya no se necesitan y las elimina. ¡Bien por ellos por recuperar el espacio! Sin embargo, nuestros pronósticos ahora están muy sesgados por esta gran caída en un mes. Siempre hemos aceptado que una caída como esta tarda entre 9 y 10 meses en salir de los modelos, pero eso puede ser mucho tiempo si estamos entrando en la temporada de planificación de gastos de capital.
Me pregunto si hay una manera de manejar estas variaciones de una sola vez, de modo que los valores pronosticados no se vean afectados tanto (por ejemplo, la pendiente de la línea no cambia tan dramáticamente), pero se tienen en cuenta (por ejemplo, un cambio de una sola vez en el valor de y asociado con un punto particular en el tiempo). Nuestros primeros intentos de abordar esto han arrojado algunos resultados feos (por ejemplo, curvas de crecimiento exponencial). Realizamos todo nuestro procesamiento en SQL Server si eso es importante.