Pasé tres días incursionando tm
después de leer un borrador de un amigo donde exploró un corpus de texto con UCINET, mostrando nubes de texto, gráficos de red de dos modos y descomposición de valor único (con gráficos, usando Stata). Me encontré con una gran cantidad de problemas: en Mac OS X, hay problemas con Java detrás de bibliotecas como Snowball (stemming) o Rgraphviz (gráficos).
Podría señalar a alguien , no paquetes - que he mirado tm
, wordfish
y wordscores
, y saber acerca de NLTK - pero la investigación, si es posible con el código, en datos textuales, que utiliza con éxito tm
o algo más para analizar los datos como los debates parlamentarios o documentos legislativos? Parece que no puedo encontrar mucho sobre el tema, y menos código para aprender.
Mi propio proyecto es un debate parlamentario de dos meses, con estas variables informadas en un archivo CSV: sesión parlamentaria, orador, grupo parlamentario, texto de intervención oral. Estoy buscando divergencias entre los hablantes y especialmente entre los grupos parlamentarios en el uso de términos raros y menos raros, por ejemplo, "charla de seguridad" contra charla de "libertades civiles".