Estoy buscando algunas técnicas robustas para eliminar los valores atípicos y los errores (cualquiera sea la causa) de los datos financieros de series temporales (es decir, tickdata).
Los datos de series de tiempo financieras tick-by-tick son muy desordenados. Contiene grandes brechas (de tiempo) cuando el intercambio está cerrado, y hace grandes saltos cuando el intercambio se abre nuevamente. Cuando el intercambio está abierto, todo tipo de factores introducen transacciones a niveles de precios que son incorrectos (no ocurrieron) y / o no son representativos del mercado (un aumento debido a un precio de oferta o demanda ingresado incorrectamente, por ejemplo). Este documento de tickdata.com (PDF) hace un buen trabajo al delinear el problema, pero ofrece pocas soluciones concretas.
La mayoría de los documentos que puedo encontrar en línea que mencionan este problema lo ignoran (se supone que los tickdata están filtrados) o incluyen el filtrado como parte de algún modelo comercial enorme que oculta cualquier paso útil de filtrado.
¿Alguien sabe de un trabajo más profundo en esta área?
Actualización: esta pregunta parece similar en la superficie pero:
- Las series de tiempo financieras son (al menos a nivel de tick) no periódicas.
- El efecto de apertura es un gran problema porque no puede simplemente usar los datos del último día como inicialización aunque realmente lo desee (porque de lo contrario no tiene nada). Los eventos externos pueden causar que la apertura del nuevo día difiera dramáticamente tanto en nivel absoluto como en volatilidad del día anterior.
- Frecuencia extremadamente irregular de datos entrantes. Cerca de la apertura y cierre del día, la cantidad de puntos de datos / segundo puede ser 10 veces mayor que el promedio durante el día. La otra pregunta trata con datos muestreados regularmente.
- Los "valores atípicos" en los datos financieros exhiben algunos patrones específicos que podrían detectarse con técnicas específicas no aplicables en otros dominios y, en parte, estoy buscando esas técnicas específicas.
- En casos más extremos (p. Ej., El bloqueo del flash), los valores atípicos pueden representar más del 75% de los datos en intervalos más largos (> 10 minutos). Además, la frecuencia (alta) de datos entrantes contiene información sobre el aspecto atípico de la situación.