Mis alumnos hacen esto como su proyecto de clase. Algunos equipos alcanzaron el 70% de precisión, con muestras bastante pequeñas, lo que no está mal.
Digamos que tiene algunos datos como este:
Return Symbol News Text
-4% DELL Centegra and Dell Services recognized with Outsourcing Center's...
7% MSFT Rising Service Revenues Benefit VMWare
1% CSCO Cisco Systems (CSCO) Receives 5 Star Strong Buy Rating From S&P
4% GOOG Summary Box: Google eyes more government deals
7% AAPL Sohu says 2nd-quarter net income rises 10 percent on higher...
Desea predecir el retorno en función del texto.
Esto se llama minería de texto.
Lo que haces en última instancia es crear una matriz enorme como esta:
Return Centegra Rising Services Recognized...
-4% 0.23 0 0.11 0.34
7% 0 0.1 0.23 0
...
Tiene una columna para cada palabra única, y una fila para cada declaración, y una puntuación ponderada para cada palabra. La puntuación suele ser la puntuación TFIDF, o la frecuencia relativa de la palabra en el documento.
Luego ejecuta una regresión y ve si puede predecir qué palabras predicen el retorno. Probablemente necesite usar PCA primero.
Libro: Fundamentos de la minería de textos predictivos, Weiss
Software: RapidMiner con complemento de texto o R
También debe hacer una búsqueda en Google Académico y leer los pormenores.
Puedes ver mi serie de videos de minería de texto aquí