Previsibilidad
Tienes razón en que esta es una cuestión de previsibilidad. Ha habido algunos artículos sobre previsibilidad en la revista Foresight del IIF orientada a profesionales . (Divulgación completa: soy editor asociado).
El problema es que la previsibilidad ya es difícil de evaluar en casos "simples".
Algunos ejemplos
Supongamos que tiene una serie temporal como esta pero no habla alemán:
¿Cómo modelaría el gran pico en abril y cómo incluiría esta información en cualquier pronóstico?
A menos que supiera que esta serie temporal es la venta de huevos en una cadena de supermercados suiza, que alcanza su punto máximo justo antes del calendario occidental de Pascua , no tendría la oportunidad. Además, con la Pascua moviéndose alrededor del calendario por hasta seis semanas, cualquier pronóstico que no incluya la fecha específica de Pascua (suponiendo, por ejemplo, que esto fue solo un pico estacional que se repetiría en una semana específica el próximo año) probablemente estaría muy mal.
Del mismo modo, suponga que tiene la línea azul a continuación y desea modelar lo que sucedió el 28-02-2010 de manera tan diferente de los patrones "normales" el 27-02-2010:
Una vez más, sin saber qué sucede cuando una ciudad llena de canadienses ve un partido olímpico de final de hockey sobre hielo en la televisión, no tienes ninguna posibilidad de entender lo que sucedió aquí, y no podrás predecir cuándo volverá a ocurrir algo como esto.
Finalmente, mira esto:
Esta es una serie temporal de ventas diarias en una tienda cash and carry . (A la derecha, tiene una tabla simple: 282 días tuvieron cero ventas, 42 días vieron ventas de 1 ... y un día vieron ventas de 500). No sé qué artículo es.
Hasta el día de hoy, no sé qué sucedió ese día con ventas de 500. Mi mejor conjetura es que algunos clientes pre-ordenaron una gran cantidad de cualquier producto que fuera y lo recogieron. Ahora, sin saber esto, cualquier pronóstico para este día en particular estará muy lejos. Por el contrario, suponga que esto sucedió justo antes de Pascua, y tenemos un algoritmo tonto e inteligente que cree que esto podría ser un efecto de Pascua (¿tal vez son huevos?) Y pronostica felizmente 500 unidades para la próxima Pascua. Oh, eso podría salir mal.
Resumen
En todos los casos, vemos cómo la capacidad de predicción solo puede entenderse bien una vez que tenemos una comprensión suficientemente profunda de los factores probables que influyen en nuestros datos. El problema es que, a menos que conozcamos estos factores, no sabemos que tal vez no los conozcamos. Según Donald Rumsfeld :
[T] aquí se conocen conocidos; Hay cosas que sabemos que sabemos. También sabemos que hay incógnitas conocidas; es decir, sabemos que hay algunas cosas que no sabemos. Pero también hay incógnitas desconocidas, las que no sabemos que no sabemos.
Si Pascua o la predilección de los canadienses por el hockey son desconocidos para nosotros, estamos estancados, y ni siquiera tenemos un camino a seguir, porque no sabemos qué preguntas debemos hacer.
La única forma de manejarlos es reunir conocimiento de dominio.
Conclusiones
Saco tres conclusiones de esto:
- Usted siempre tiene que incluir el conocimiento de dominio de la modelización y predicción.
- Incluso con conocimiento de dominio, no se garantiza que obtenga suficiente información para que sus pronósticos y predicciones sean aceptables para el usuario. Mira eso fuera de lugar arriba.
- Si "sus resultados son miserables", puede estar esperando más de lo que puede lograr. Si pronostica un lanzamiento de moneda justo, entonces no hay forma de obtener una precisión superior al 50%. Tampoco confíe en los puntos de referencia de precisión del pronóstico externo.
La línea de fondo
Así es como recomendaría construir modelos, y notar cuándo parar:
- Hable con alguien con conocimiento de dominio si aún no lo tiene.
- Identifique los principales impulsores de los datos que desea pronosticar, incluidas las interacciones probables, según el paso 1.
- Cree modelos de forma iterativa, incluidos los impulsores en orden decreciente de fuerza según el paso 2. Evalúe los modelos mediante validación cruzada o una muestra reservada.
- Si la precisión de su predicción no aumenta más, vuelva al paso 1 (por ejemplo, identificando predicciones erróneas evidentes que no puede explicar y discutiéndolas con el experto del dominio), o acepte que ha llegado al final de su capacidades de los modelos. Time-boxing su análisis de antemano ayuda.
Tenga en cuenta que no estoy abogando por probar diferentes clases de modelos si su modelo original se estabiliza. Por lo general, si comenzó con un modelo razonable, el uso de algo más sofisticado no generará un gran beneficio y simplemente puede estar "sobreajustado en el conjunto de prueba". He visto esto a menudo, y otras personas están de acuerdo .