Métrica de evaluación de predicción para panel / datos longitudinales

Me gustaría evaluar varios modelos diferentes que proporcionan predicciones de comportamiento a nivel mensual. Los datos están equilibrados, 100,000 y 12. El resultado es asistir a un concierto en un mes determinado, por lo que es cero para ~ 80% de las personas en cualquier mes, pero hay una larga cola derecha de usuarios pesados. Las predicciones que tengo no parecen respetar la naturaleza del resultado: los conciertos fraccionales son frecuentes. $n=$ $T=$

No sé nada de las modelos. Sólo observo 6 diferentes predicciones de recuadro negro para cada persona por mes. Tengo un año adicional de datos que los creadores de modelos no tenían para la estimación (aunque los asistentes al concierto siguen siendo los mismos), y me gustaría medir dónde funciona bien cada uno (en términos de precisión y precisión). Por ejemplo, ¿algún modelo predice bien para los asistentes frecuentes al concierto, pero falla para los adictos al sofá? ¿La predicción para enero es mejor que la predicción para diciembre? Alternativamente, sería bueno saber que las predicciones me permiten clasificar a las personas correctamente en términos de datos reales, incluso si no se puede confiar en la magnitud exacta. $\hat y_1,...,\hat y_6$

Mi primer pensamiento fue ejecutar una regresión de efectos fijos de las variables ficticias pronosticadas y temporales y observar los RMSE o para cada modelo. Pero eso no responde a la pregunta sobre dónde funciona bien cada modelo o si las diferencias son significativas (a menos que arranque el RMSE). La distribución del resultado también me preocupa con este enfoque. $R^2$

Mi segunda idea fue agrupar el resultado en 0, 1-3 y 3+, y calcular la matriz de confusión, pero esto ignora la dimensión del tiempo, a menos que haga 12 de estos. También es bastante burdo.

Conozco los comandos Stata concordde TJ Steichen y NJ Cox, que tienen la by()opción, pero eso requeriría colapsar los datos a los totales anuales. Esto calcula el índice de correlación de concordancia de Lin con intervalos de confianza, entre otras estadísticas útiles. CCC varía de -1 a 1, con un acuerdo perfecto en 1.

$c$ somersdcluster $c=0.5$ $c=1$

¿Cómo abordarías este problema? ¿Sugeriría calcular estadísticas como MAPE que son comunes en los pronósticos?

Cosas útiles encontradas hasta ahora:

Diapositivas en una versión de medida repetida del coeficiente de correlación de concordancia de Lin

— Dimitriy V. Masterov
fuente

Necesitaremos saber más sobre el comportamiento, ¿es ordinal / binario / continuo? Debido a que este experimento es longitudinal, ¿le interesa predecir o predecir resultados en un individuo? Los modelos de efectos mixtos se usan para inferencia, no para predicción. No funcionan porque, para predecir , necesita una estimación del efecto aleatorio.

— AdamO

El comportamiento real es recuento o continuo. Las predicciones son todas continuas. Me gustaría ver qué tan buenas son las predicciones mensuales a nivel individual.

— Dimitriy V. Masterov

\hat{Y_{i = 12}} = f (X_{i = 12, 11, \dots, 1}, Y_{i = 11, 10, \dots, 1}

$\widehat{Y_{i=12}} = f(X_{i=12, 11, \cdots, 1}, Y_{i=11, 10, \cdots, 1}$

\hat{Y_{i = I}} = f (X_{i = I, I - 1, \dots, 1}, Y_{i = I - 1, I - 2, \dots, 1}

$\widehat{Y_{i=I}} = f(X_{i=I, I-1, \cdots, 1}, Y_{i=I-1, I-2, \cdots, 1}$

\hat{Y_{i}} = f (X_{i})

$\widehat{Y_{i}} = f(X_{i})$

i

$i$

{\hat{Y}}_{i, 1} = f (Y_{i, t - 1}, X_{i, t}) .

$\hat Y_{i,1}=f(Y_{i,t-1},X_{i,t}).$

{\hat{Y}}_{i, 2} = f ({\hat{Y}}_{i, 1}, X_{i, 2})

$\hat Y_{i,2}=f(\hat Y_{i,1},X_{i,2})$

Y_{i, t}

$Y_{i,t}$

{\hat{Y}}_{i, t}

$\hat Y_{i,t}$

la estimación implica una estimación de parámetros que puede ser parte del "entrenamiento" para un modelo predictivo, pero creo que quiere decir que su muestra se usa para entrenar un modelo predictivo. Lo que está diciendo aquí es un proceso de semi-markov condicional y tiene aplicaciones únicas en el pronóstico.

— AdamO

Para evaluar la capacidad predictiva de un pronóstico de semi-Markov, hay varios métodos disponibles dependiendo del tamaño de la muestra y otra información disponible.

Para evaluar cualquier modelo predictivo / pronóstico, tiene la opción de validación cruzada (específicamente validación cruzada de muestra dividida iterativa o de exclusión), donde un modelo se estima en una muestra de "entrenamiento" y la incertidumbre del modelo evaluada en una "validación" muestra. Dependiendo de la distribución del resultado, hay varias medidas disponibles por las cuales puede seleccionar un modelo entre un panel de modelos elegibles. Para las medidas generales no paramétricas para la selección del modelo, a la gente realmente le gusta AIC y BIC, especialmente el último.

Las estadísticas CCC y c se utilizan para evaluar predicciones binarias de sección transversal como las de pruebas / ensayos, por lo que tendrá que descartarlas si está prediciendo, por ejemplo, IMC o IQ. Miden la calibración (como la prueba Hosmer Lemeshow) y lo que se llama capacidad de estratificación de riesgo. No hay conexión intuitiva con resultados continuos allí, al menos no por lo que puedo decir.

RMSE, por otro lado, se utiliza para evaluar predicciones continuas (salvo el caso de predicción de riesgo en el que RMSE se conoce como puntaje de Brier, una herramienta de evaluación de modelo bastante arcaica y obsoleta). Esta es una herramienta excelente y probablemente se usa para calibrar más del 80% de los modelos predictivos que encontramos a diario (pronósticos meteorológicos, clasificaciones de energía, MPG en vehículos, etc.).

Una advertencia en la validación de muestras divididas o el remuestreo para evaluar los modelos de pronóstico es que solo puede estar interesado en los resultados futuros cuando su muestra lo deje prediciendo resultados pasados. ¡No hagas esto! No refleja la aplicación de los modelos y puede influir enormemente en la selección de manera negativa. Avance hacia adelante toda la información disponible y prediga resultados futuros no observados en todos los casos disponibles.

Casi cualquier libro de modelos lineales aplicados cubrirá predicciones, RMSE y los matices de la capacitación y validación de modelos. Un buen comienzo sería Kutner, Nachtsheim, Neter, Li, que también consideran el "Análisis de series de tiempo" de Diggle, el "Análisis de datos longitudinales" de Diggle Heagerty Zeger Lii y las "Estrategias de modelado de regresión" de Harrell.

— AdamO
fuente

CCC y Harrell's c pueden usarse con resultados continuos. CCC también tiene una implementación de medidas repetidas. Vea las referencias / enlaces que agregué en la pregunta.

— Dimitriy V. Masterov

No importa No estás clasificando.

— AdamO