Efectos de muestreo en modelos de series temporales

9

Estoy trabajando extensamente con modelos de series de tiempo financieras, principalmente AR (I) MA y Kalman.

Un problema que sigo enfrentando es la frecuencia de muestreo. Inicialmente, pensaba que si se me ofrecía la posibilidad de tomar muestras con mayor frecuencia de un proceso subyacente, debería tomar muestras con la mayor frecuencia posible para tener una cantidad mucho mayor de muestras, por lo tanto, los parámetros de mi modelo tendrán menos variación.

En realidad, esta idea no resultó ser buena. Lo que sucedió es que si el proceso subyacente no exhibe suficiente variación, aumentar la frecuencia de muestreo en realidad significaría obtener muchos valores repetidos (iguales). Y construir un modelo sobre tales valores da como resultado modelos con coeficientes de modelo muy muy pequeños que no predicen bien en el futuro (por supuesto, la definición de "bien" es subjetiva y una mayor frecuencia requiere predecir muchos más pasos de muestra en el futuro para lograr el mismo paso de tiempo en una configuración de frecuencia más baja). El modelo aprende lo que más encuentra: una línea plana.

Quería hacer un enfoque de muestreo adaptativo, es decir, muestrear con mayor frecuencia cuando hay variación, y con menos frecuencia cuando no la hay. Sin embargo, esto no es fácil. En primer lugar, no está claro qué tipo de sesgo estoy introduciendo al hacerlo (y diferirá según cómo active la muestra / omisión). En segundo lugar, los modelos de series temporales como ARIMA no son adecuados para pasos de muestra desiguales.

¿Hay una buena manera de lidiar con este problema? También me hace preguntarme cómo se logra una transición perfecta entre los modelos de tiempo continuo y los modelos de tiempo discreto si los modelos se ven tan dramáticamente afectados por la frecuencia de muestreo (especialmente cuando los pasos de tiempo se hacen cada vez más pequeños). Cualquier apuntador a recursos externos también será apreciado.

Gracias

time-series sampling arima

— Cagdas Ozgenc
fuente

1

"la muestra con mayor frecuencia cuando hay variación, y con menos frecuencia cuando no la hay" podría funcionar en la muestra, pero eso sería difícil de usar para las predicciones fuera de la muestra. ¿Te interesa lo primero o lo segundo? Además, si encuentra regímenes con baja variación (o ninguna variación) seguidos de regímenes de alta variación, naturalmente necesitaría modelos separados para los dos. De lo contrario, tendría un modelo para todo el proceso y el muestreo a intervalos / frecuencias desiguales parecería intuitivamente subóptimo. Además, el último párrafo califica como una pregunta independiente, en mi humilde opinión.

— Richard Hardy

1

Además, puede considerar hacer que su título sea más informativo, algo que indique la idea de muestrear con mayor frecuencia en puntos de grandes movimientos.

— Richard Hardy

1

@ RichardHardy Pensé en cambiar de régimen. Sin embargo, son notoriamente difíciles de entrenar. ¿Sabes cómo identificar y entrenar a los modelos de cambio de régimen de forma dinámica (descubierto automáticamente sin especificar el punto de cambio de régimen por adelantado)? ¿Puedes mostrar algunos consejos?

— Cagdas Ozgenc

1

Es posible que los ARIMA no se adapten bien a su propósito, pero los modelos de espacio de estado son: puede tomar muestras con la frecuencia que desee (y, en principio, cuanto más mejor) y realizar una actualización temporal a intervalos fijos, como la dinámica de su proceso asumido puede exigir Una de las bellezas de los modelos de espacio de estado es que el proceso de observación es independiente del proceso del modelo, y se pueden usar intervalos de tiempo separados para cada uno.

— F. Tusell
fuente

Eso no está resolviendo mi problema. Incluso en un modelo de espacio de estado, los coeficientes del modelo deben determinarse primero. La metodología de actualización del espacio de estado se aplica al vector de estado en sí mismo, no a las matrices de coeficientes.

— Cagdas Ozgenc

No entiendo bien tu comentario. Si proyecta su modelo en forma de espacio de estado, puede calcular la probabilidad (suponiendo normalidad) utilizando el filtro Kalman, independientemente de la frecuencia de muestreo. Maximizando esa probabilidad, puede estimar los parámetros en las matrices del sistema.

— F. Tusell el

Eso es cierto si conoce el modelo de antemano. Cuando se conocen todas las matrices de transición de estado y las matrices de covarianza de ruido, puede realizar las actualizaciones y omitir los pasos de tiempo. Cuando se le dan solo los datos primero, debe inferir las matrices de transición. Y esas matrices diferirán entre un período de alta volatilidad y un período de baja volatilidad.

— Cagdas Ozgenc

1

Me gustaría señalarle el artículo.

Ghysels, E, P. Santa-Clara y R. Valkanov (2006): "Predicción de la volatilidad: aprovechando al máximo los datos de retorno muestreados en diferentes frecuencias", Journal of Econometrics, vol. 131, págs. 59-95.

Los autores emplean una técnica llamada MIDAS (muestreo de datos mixtos) por sí mismos para comparar las estimaciones de volatilidad basadas en datos muestreados a diferentes frecuencias. Es cierto que esto no es exactamente lo que estaba buscando, pero los autores afirman que su técnica es adecuada para comparar los resultados de manera significativa. Tal vez esto le brinde al menos una segunda forma de analizar sus datos. Parece que, en particular en el campo de la macroeconomía, este enfoque ha ganado cierto interés.

— Dr_Be
fuente

1

Gracias. El problema no es específico de series de tiempo financieras. Tome cualquier situación experimental y muestree con alta frecuencia en la dimensión del tiempo. Estás terminando con una larga línea plana y los modelos aprenden eso, una línea plana. Porque las muestras repetidas sobrepoblaron las muestras significativas que realmente reflejan la variación en el proceso subyacente. Esto es realmente problemático, y no puedo encontrar mucho relacionado con este tema.

— Cagdas Ozgenc

0

muestrear con mayor frecuencia cuando hay variación, y con menos frecuencia cuando no hay

Eso podría funcionar en la muestra, pero sería difícil de usar para las predicciones fuera de la muestra, a menos que descubra cómo predecir la variabilidad en sí (y eso no tiene por qué ser imposible). Además, si encuentra regímenes con baja variación (o ninguna variación) seguidos de regímenes de alta variación, naturalmente necesitaría modelos separados para los dos; Tener un modelo para todo el proceso y tomar muestras a intervalos / frecuencias desiguales parecería intuitivamente subóptimo. Usted mencionó los modelos de cambio de régimen (al responder mi comentario), y eso es una buena ilustración de lo que podría necesitar aquí.

Debería tomar muestras con la mayor frecuencia posible para tener una cantidad mucho mayor de muestras, por lo tanto, los parámetros de mi modelo tendrán menos variación.

Esto no es enteramente verdad. En una configuración de series de tiempo, lo que importa es el lapso de tiempo en lugar del número de observaciones. Por ejemplo, 120 observaciones mensuales (que abarcan 10 años) es una muestra más informativa que 209 observaciones semanales (que abarcan 4 años) cuando se prueba la presencia de una raíz unitaria; vea esta publicación de blog de Dave Giles y la última referencia en ella. O considere un caso limitante donde muestree con tanta frecuencia que esencialmente mida lo mismo varias veces. Eso aumentaría el tamaño de la muestra, pero no aportaría nueva información, lo que daría una impresión espuria de la precisión estimada. Entonces, ¿quizás no debería dedicar demasiado tiempo a aumentar la frecuencia de muestreo y construir algunos modelos correspondientes?

— Richard Hardy
fuente

Post realmente no responde la pregunta. El cambio de régimen es probablemente el camino a seguir.

— Cagdas Ozgenc