Cómo comparar la precisión de dos modelos diferentes usando significación estadística

10

Estoy trabajando en la predicción de series de tiempo. Tengo dos conjuntos de datos y . Tengo tres modelos de predicción: . Todos esos modelos se entrenan utilizando muestras en el conjunto de datos , y su rendimiento se mide utilizando las muestras en el conjunto de datos . Digamos que las métricas de rendimiento son MSE (o cualquier otra cosa). Los MSE de esos modelos cuando se miden para el conjunto de datos son y . ¿Cómo puedo probar que la mejora de un modelo sobre otro es estadísticamente significativa? $D1=\{x_1, x_2,....x_n\}$ $D2=\{x_n+1, x_n+2, x_n+3,...., x_n+k\}$ $M1, M2, M3$ $D1$ $D2$ $D2$ $MSE_1, MSE_2,$ $MSE_3$

Por ejemplo, digamos , , , y el número total de muestras en el conjunto de datos función del cual se calculan esos MSE es 2000. ¿Cómo puedo probar que , y son significativamente diferentes? . Le agradecería mucho si alguien me puede ayudar en este problema. $MSE_1=200$ $MSE_2=205$ $MSE_3=210$ $D2$ $MSE_1$ $MSE_2$ $MSE_3$

— Mashud
fuente

1

Una de las publicaciones vinculadas anteriores alude al uso de una prueba de razón de probabilidad, aunque sus modelos deben estar anidados entre sí para que esto funcione (es decir, todos los parámetros en uno de los modelos deben estar presentes en el modelo con el que lo está probando) .

RMSE es claramente una medida de qué tan bien el modelo se ajusta a los datos. Sin embargo, también lo es la razón de probabilidad. La probabilidad para una persona determinada, dice la Sra. Chen, es la probabilidad de que una persona con todos sus parámetros tenga el resultado que tuvo. La probabilidad conjunta del conjunto de datos es la probabilidad de la Sra. Chen * la probabilidad de la Sra. Gundersen * la probabilidad de la Sra. Johnson * ... etc.

Agregar una covariable, o cualquier número de covariables, realmente no puede empeorar la razón de probabilidad, no creo. Pero puede mejorar la razón de probabilidad en una cantidad no significativa. Los modelos que se ajusten mejor tendrán una mayor probabilidad. Puede probar formalmente si el modelo A se ajusta mejor al modelo B. Debería tener algún tipo de función de prueba LR disponible en cualquier software que use, pero básicamente, el estadístico de prueba LR es -2 * la diferencia de los registros de las probabilidades, y se distribuye chi-cuadrado con df = la diferencia en el número de parámetros.

Además, comparar el AIC o BIC de los dos modelos y encontrar el más bajo también es aceptable. AIC y BIC son básicamente las probabilidades de registro penalizadas por el número de parámetros.

No estoy seguro de usar una prueba t para los RMSE, y realmente me apoyaría en ella a menos que pueda encontrar algún trabajo teórico que se haya realizado en el área. Básicamente, ¿sabes cómo los valores de RMSE se distribuyen asintóticamente? No estoy seguro. Alguna discusión adicional aquí:

http://www.stata.com/statalist/archive/2012-11/index.html#01017

— Weiwen Ng
fuente

0

Esta respuesta no tiene en cuenta el hecho de que sus datos forman una serie temporal, pero no creo que esto sea un problema.

Cuando se usa RMSE, esta publicación sugiere usar una prueba t: Prueba de importancia de RMSE de modelos

También podría usar la correlación de Pearson para evaluar su ajuste. De acuerdo con esta publicación, puede usar la prueba t de Wolfe para eso: importancia estadística del aumento de la correlación

Actualmente estoy tratando de aprender sobre el mismo problema. Agradecería yo mismo respuestas más detalladas.

— buechel
fuente

0

Hay dos formas principales de hacer esto, pero primero desafiaré la idea de que solo quieres elegir una. Lo más probable es que un modelo de conjunto de los tres modelos separados logre el mejor rendimiento de todos.

La forma principal, quizás la mejor, de hacerlo es usar el modelo para obtener intervalos de confianza alrededor de la métrica de evaluación. Esto se hace comúnmente mediante bootstrapping ( o Poisson bootstrap ).

La otra forma es usar una prueba estadística. Cada prueba hace suposiciones diferentes, y estas se usan a menudo para comparar un valor o muestra tomada de una distribución en lugar de una evaluación de un solo punto. Muchas de estas pruebas estadísticas requieren formalmente independencia, que generalmente no se tiene cuando se comparan múltiples resultados del mismo modelo o múltiples modelos con datos de series temporales.

Con la predicción de series de tiempo específicamente, debe hacer una prueba inversa con validación cruzada y evaluar el error de tren y prueba en cada momento ( ejemplo ). Cuando haga esto, dudo que sus modelos funcionen de manera tan similar que necesite una prueba estadística para diferenciarse; Lo más probable es que veas grandes diferencias.

Tenga en cuenta también que las métricas de evaluación histórica (comparar datos reales con el pronóstico) por sí solas son insuficientes para la evaluación de predicción. Dadas dos predicciones que se ajustan perfectamente a los datos históricos conocidos, pero una también coincide con las creencias previas sobre el futuro y la otra viola claramente (por ejemplo, si una desaparece a cero pero tiene razones para creer que eso no puede suceder), preferirá la predicción que coincida mejor con tu anterior.

— Michael Brundage
fuente