Me gustaría evaluar varios modelos diferentes que proporcionan predicciones de comportamiento a nivel mensual. Los datos están equilibrados, 100,000 y T = 12. El resultado es asistir a un concierto en un mes determinado, por lo que es cero para ~ 80% de las personas en cualquier mes, pero hay una larga cola derecha de usuarios pesados. Las predicciones que tengo no parecen respetar la naturaleza del resultado: los conciertos fraccionales son frecuentes.
No sé nada de las modelos. Sólo observo 6 diferentes predicciones de recuadro negro y 1 , . . . , Y 6 para cada persona por mes. Tengo un año adicional de datos que los creadores de modelos no tenían para la estimación (aunque los asistentes al concierto siguen siendo los mismos), y me gustaría medir dónde funciona bien cada uno (en términos de precisión y precisión). Por ejemplo, ¿algún modelo predice bien para los asistentes frecuentes al concierto, pero falla para los adictos al sofá? ¿La predicción para enero es mejor que la predicción para diciembre? Alternativamente, sería bueno saber que las predicciones me permiten clasificar a las personas correctamente en términos de datos reales, incluso si no se puede confiar en la magnitud exacta.
Mi primer pensamiento fue ejecutar una regresión de efectos fijos de las variables ficticias pronosticadas y temporales y observar los RMSE o para cada modelo. Pero eso no responde a la pregunta sobre dónde funciona bien cada modelo o si las diferencias son significativas (a menos que arranque el RMSE). La distribución del resultado también me preocupa con este enfoque.
Mi segunda idea fue agrupar el resultado en 0, 1-3 y 3+, y calcular la matriz de confusión, pero esto ignora la dimensión del tiempo, a menos que haga 12 de estos. También es bastante burdo.
Conozco los comandos Stata concord
de TJ Steichen y NJ Cox, que tienen la by()
opción, pero eso requeriría colapsar los datos a los totales anuales. Esto calcula el índice de correlación de concordancia de Lin con intervalos de confianza, entre otras estadísticas útiles. CCC varía de -1 a 1, con un acuerdo perfecto en 1.
¿Cómo abordarías este problema? ¿Sugeriría calcular estadísticas como MAPE que son comunes en los pronósticos?
Cosas útiles encontradas hasta ahora:
- Diapositivas en una versión de medida repetida del coeficiente de correlación de concordancia de Lin