Pasé tres días incursionando tmdespués de leer un borrador de un amigo donde exploró un corpus de texto con UCINET, mostrando nubes de texto, gráficos de red de dos modos y descomposición de valor único (con gráficos, usando Stata). Me encontré con una gran cantidad de problemas: en Mac OS X, hay problemas con Java detrás de bibliotecas como Snowball (stemming) o Rgraphviz (gráficos).
Podría señalar a alguien , no paquetes - que he mirado tm, wordfishy wordscores, y saber acerca de NLTK - pero la investigación, si es posible con el código, en datos textuales, que utiliza con éxito tmo algo más para analizar los datos como los debates parlamentarios o documentos legislativos? Parece que no puedo encontrar mucho sobre el tema, y menos código para aprender.
Mi propio proyecto es un debate parlamentario de dos meses, con estas variables informadas en un archivo CSV: sesión parlamentaria, orador, grupo parlamentario, texto de intervención oral. Estoy buscando divergencias entre los hablantes y especialmente entre los grupos parlamentarios en el uso de términos raros y menos raros, por ejemplo, "charla de seguridad" contra charla de "libertades civiles".