Permítanme agregar mis 2 ¢, es mi trabajo obtener datos buenos y limpios para un fondo de cobertura, he visto bastantes fuentes de datos y proveedores de datos históricos. Esto se trata principalmente de datos de existencias de EE. UU.
Para empezar, si tiene algo de dinero, no se moleste en descargar datos de Yahoo, obtenga los datos del final del día directamente de los datos de CSI , aquí es donde Yahoo obtiene sus datos de EOD y AFAIK. Tienen una API donde puede extraer los datos al formato que desee. Creo que la suscripción anual de datos es de unos $ 100 dólares.
El principal problema con la descarga de datos de un servicio gratuito es que solo obtienes acciones que todavía existen, esto se llama Sesgo de supervivencia y puede darte resultados incorrectos si miras muchas acciones, porque solo incluirás las que lo hicieron así lejos y no los que fueron eliminados de la lista.
Para jugar con algunos datos intradiarios que vería en IQFeed , proporcionan varias API para extraer datos históricos, aunque son principalmente un conjunto para feeds en tiempo real. Pero aquí hay bastantes opciones, algunos corredores incluso proporcionan descargas de datos históricos a través de sus API, así que simplemente elige tu veneno.
PERO, por lo general, todos estos datos no están muy limpios, una vez que realmente comience de nuevo las pruebas, verá que faltan ciertas existencias o aparecen como dos símbolos diferentes, o las divisiones de existencias no se contabilizan correctamente, etc. Y luego se da cuenta de que el historial también se necesitan datos de dividendos, por lo que comienza a ejecutarse en círculos, parcheando datos de 100 fuentes de datos diferentes, etc. Por lo tanto, comenzar con una fuente de datos de "descuento" servirá, pero tan pronto como ejecute backtests más completos, podría tener problemas dependiendo de lo que haga. Si solo mira, digamos, las existencias del S&P 500, esto no será un problema y una alimentación intradía "barata" servirá.
Lo que no encontrará son datos intradía gratuitos. Quiero decir que puede encontrar algunos ejemplos, estoy seguro de que hay 5 años de datos de tics MSFT flotando, pero eso no lo llevará muy lejos.
Entonces, si necesita cosas reales (libro de pedidos de nivel II, todos los tics como han sucedido en todos los intercambios), una opción "asequible", pero excelente, es Nanex . En realidad, le enviarán un disco con terabytes de datos. Si no recuerdo mal, son alrededor de $ 3k-4K por año de datos. Pero confía en mí, una vez que comprendas lo difícil que es obtener buenos datos intradía, no pensarás que esto es mucho dinero.
No es para desanimarlo, pero obtener buenos datos es difícil, de hecho, muchos fondos de cobertura y bancos gastan cientos de miles de dólares al mes. para obtener datos en los que pueden confiar. Una vez más, puede comenzar en algún lugar y luego ir desde allí, pero es bueno verlo un poco en contexto.
Editar: La respuesta anterior es de mi propia experiencia. Este informe de Caltech sobre los datos disponibles proporcionará más información, y recomienda especialmente QuantQuote .