Varias preguntas sobre modelos estadísticos de series financieras de "persona de aprendizaje automático"

Para explicar por qué tengo esa estúpida pregunta que encontrarás a continuación, debo decir que soy más una persona de aprendizaje automático. Mientras trabajaba en problemas de bioinformática, todo estaba bien. Cuando escuché palabras como "regresión" o "curtosis y asimetría", en el primer caso solo sonreí, en el segundo caso hice un movimiento torpe con los hombros tratando de decir algo como: "sí, escuché sobre eso, e incluso sabe cómo calcularlo, pero ¿por qué en la Tierra alguien lo necesitará? ".

La situación cambió drásticamente cuando hace un año, solo por diversión, traté de aplicar mis conocimientos de aprendizaje automático a algunas series de tiempo financieras.

Comencé con la idea de hacer una Red Bayesiana a partir de señales proporcionadas por "indicadores" "técnicos" de "análisis". La idea falló. También fue algo agradable encontrar al menos dos temas con una idea similar en este sitio (que usaba redes neuronales en lugar de bayesianas).

Luego, después de mucho esfuerzo, pude construir una mezcla de kNN y regresión simbólica que entrené en datos de 1 hora entre 2000 y 2006 y probé en datos de 2007. Este modelo realmente dio una gran ganancia. Pero luego, cuando lo apliqué a los últimos datos, me di cuenta de que su precisión se redujo drásticamente debido a la crisis económica y ya no funciona porque algo cambió en el mercado y necesito más datos nuevos, que solo puedo obtener en un 2-5 años.

Bueno, se probaron muchas cosas más tarde y si todo comenzó como "solo por diversión", ya no sería divertido. Hasta que encontré conferencias en línea de Ruey S. Tsay sobre ARIMA, GARCH, TAR y todas las demás cosas completamente nuevas para mí.

Básicamente encontré un mundo completamente nuevo y realmente lo disfruto. En este momento pude adaptar mi primer modelo ARIMA, y luego lo ajusté para reducir el error rms dos veces mirando ACF, PACF, jugando con la estacionalidad, etc.

Bueno, la diversión está de vuelta, tuve mucha y espero tener aún más. Pero tenía algunas preguntas y encontré este gran sitio. Lea casi todos los temas sobre ARIMA y otras técnicas relacionadas aquí, junto con muchos otros temas generales relacionados con enfoques similares. Seguro que leeré más. Todavía estoy pensando en un enfoque mental de aprendizaje automático, que lleva a muchas preguntas estúpidas, para la mayoría de las cuales encuentro respuestas en este sitio.

Entonces, después de esta larga introducción, aquí están mis preguntas estúpidas restantes:

Si bien el enfoque de aprendizaje automático está más preocupado por encontrar el "patrón" en los datos, lo encuentro en contradicción con los modelos estadísticos para series de tiempo financieras que utilizan ampliamente la teoría de la caminata aleatoria (lo que hace que la existencia de patrones sea al menos cuestionable). Me doy cuenta de que es una descripción muy ingenua e incorrecta, pero lo que estoy tratando de decir es que la mayoría de las técnicas de aprendizaje automático están en contradicción conceptual con el enfoque estadístico del problema. No digo que algún enfoque sea mejor, solo digo que tienen contradicciones. ¿Es correcto y qué tan grande es esta contradicción?
Realmente me gustó la descripción y la idea del modelo TAR que para mí parece unir el aprendizaje automático con las estadísticas. Este es un modelo que quiero probar después de agregar GARCH a mi ARIMA. Pero tengo algunas preguntas al respecto:
- TAR definitivamente utiliza enfoques estadísticos y de aprendizaje automático. Entonces, teniendo en cuenta mi primera pregunta, ¿no hay un error cuando triyng encuentra el patrón para un conjunto de modelos, que se basan básicamente en la teoría que excluye los patrones? ¿O es solo una idea de cómo combinar dos modelos que estudian diferentes aspectos del mismo problema, en un modelo aún más poderoso?
- Cuando realice una búsqueda por palabra clave "ARIMA" en este sitio, alcanzará 15 páginas de temas, mientras que para TAR solo hay uno. Además, ¿por qué la gente se detuvo al aplicar AR? ¿Por qué no ampliar esta idea para modelos más complejos (como ARIMA)? ¿Es porque TAR no dio la mejora esperada sobre AR?
Sé que los métodos MCMC y otras cosas de aprendizaje automático se están mezclando actualmente con modelos estadísticos. Personalmente, también soy un gran admirador de los modelos ocultos de Markov y los campos aleatorios condicionales. ¿Conoces alguna mezcla de alguno de estos métodos con modelos estadísticos?

machine-learning arima finance

— GrayR
fuente

Tenga en cuenta que ARIMA generalmente se trata más de representación que de un modelo diferente a AR. Por lo general, puede reorganizar un modelo ARIMA en un modelo AR. Creo que se encuentra con problemas de estimación si no puede (estoy bastante seguro de que los modelos de series de tiempo no invertibles son difíciles de ajustar). Además, muchas de sus diferencias están más en la terminología que en los modelos. Un campo aleatorio condicional es básicamente un modelo mixto. Modelos ocultos de Markov son muy similares a los filtros de Kalman, etc, etc

— probabilityislogic

@probabilityislogic gracias por tu comentario. Sí, me doy cuenta de que hay mucho en común. En realidad, es muy tentador decir que todo el enfoque estadístico es el mismo que el aprendizaje automático, simplemente como algunos métodos nuevos. Simplemente tengo miedo de perder algo importante en ese caso, así que me estoy concentrando en las diferencias, para darme cuenta de las formas correctas e incorrectas de aplicar estos modelos. Es fácil para mí ver la similitud, son las diferencias que me temo perder.

— GrayR

Con respecto a la pregunta 1, las series de tiempo no tratan principalmente con caminatas aleatorias. Las series temporales estacionarias tienen una estructura de correlación modelada, por ejemplo, en modelos ARMA. El análisis de series de tiempo también analiza los efectos periódicos y la tendencia (llamamos a esas series de tiempo no estacionarias). La búsqueda de patrones en los datos no es incompatible con las estadísticas siempre que se reconozca que hay un patrón + un componente aleatorio y que el componente aleatorio debe considerarse en el análisis. Con respecto a la pregunta 2, no veo por qué llama a TAR una combinación de aprendizaje automático y estadísticas. Lo veo como un modelo de serie temporal más complicado que incluye un parámetro de umbral y 2 modelos AR. Supongo que tampoco veo una gran distinción entre el aprendizaje automático y las estadísticas. Veo el aprendizaje automático como parte del reconocimiento / clasificación de patrones estadísticos que cae dentro del ámbito del análisis multivariado. Me parece que TAR podría extenderse fácilmente para poner un umbral en un modelo ARMA. No sé si se ha probado o por qué podría no haberse desarrollado. Quizás alguien que trabaja con este tipo de modelos de series de tiempo pueda responder esa pregunta.

— Michael R. Chernick
fuente