Supongamos que tengo un poco más de 20,000 series de tiempo mensuales que abarcan desde enero de 2005 hasta diciembre de 2011. Cada uno de estos representa datos de ventas globales para un producto diferente. ¿Qué sucedería si, en lugar de calcular pronósticos para todos y cada uno de ellos, quisiera centrarme solo en un pequeño número de productos que "realmente importan"?
Podría clasificar esos productos por ingresos anuales totales y recortar la lista usando Pareto clásico. Aún así me parece que, aunque no contribuyen mucho al resultado final, algunos productos son tan fáciles de pronosticar que dejarlos fuera sería un mal juicio. Un producto que vendió 50 dólares cada mes durante los últimos 10 años puede no parecer mucho, pero requiere tan poco esfuerzo generar predicciones sobre ventas futuras que yo también podría hacerlo.
Digamos que divido mis productos en cuatro categorías: altos ingresos / fácil de pronosticar - bajos ingresos / fácil de pronosticar - altos ingresos / difícil de pronosticar - bajos ingresos / difícil de pronosticar.
Creo que sería razonable dejar atrás solo aquellas series de tiempo que pertenecen al cuarto grupo. Pero, ¿cómo puedo evaluar exactamente la "capacidad de predicción"?
El coeficiente de variación parece ser un buen punto de partida (también recuerdo haber visto algún artículo al respecto hace un tiempo). Pero, ¿qué pasa si mis series temporales exhiben estacionalidad / cambios de nivel / efectos de calendario / tendencias fuertes?
Me imagino que debería basar mi evaluación solo en la variabilidad del componente aleatorio y no en el de los datos "en bruto". ¿O me estoy perdiendo algo?
¿Alguien ha tropezado con un problema similar antes? ¿Cómo lo harían ustedes?
Como siempre, cualquier ayuda es muy apreciada.