Estoy tratando de ponerme al día con R. Finalmente, quiero usar las bibliotecas R para hacer la clasificación de texto. Me preguntaba cuáles son las experiencias de las personas con respecto a la escalabilidad de R cuando se trata de hacer una clasificación de texto.
Es probable que me encuentre con datos de altas dimensiones (~ 300k dimensiones). Estoy mirando el uso de SVM y Random Forest en particular como algoritmos de clasificación.
¿Las bibliotecas R se adaptarían al tamaño de mi problema?
Gracias.
EDITAR 1: Solo para aclarar, es probable que mi conjunto de datos tenga 1000-3000 filas (quizás un poco más) y 10 clases.
EDIT 2: como soy muy nuevo en R, solicitaré que los carteles sean más específicos siempre que sea posible. Por ejemplo, si está sugiriendo un flujo de trabajo / tubería, asegúrese de mencionar las bibliotecas R involucradas en cada paso si es posible. Algunos indicadores adicionales (a ejemplos, código de muestra, etc.) serían la guinda del pastel.
EDITAR 3: Primero, gracias a todos por sus comentarios. Y en segundo lugar, me disculpo, quizás debería haber dado más contexto para el problema. Soy nuevo en R pero no tanto en la clasificación de texto. Ya he realizado el preprocesamiento (derivación, eliminación de palabras vacías, conversión de tf-idf, etc.) en mi parte de mis datos usando el paquete tm , solo para tener una idea de las cosas. tm fue tan lento incluso con unos 200 documentos que me preocupaba la escalabilidad. Luego comencé a jugar con FSelector e incluso eso fue muy lento. Y ese es el punto en el que hice mi OP.
EDITAR 4: Se me ocurrió que tengo 10 clases y aproximadamente ~ 300 documentos de capacitación por clase, y de hecho estoy construyendo la matriz termXdoc a partir de todo el conjunto de capacitación, lo que resulta en una dimensionalidad muy alta. Pero, ¿qué hay de reducir cada problema de clasificación 1 fuera de k a una serie de problemas de clasificación binaria? Eso reduciría drásticamente la cantidad de documentos de capacitación (y por lo tanto la dimensionalidad) en cada uno de los pasos k-1 considerablemente, ¿no? Entonces, ¿este enfoque es bueno? ¿Cómo se compara en términos de precisión con la implementación habitual de varias clases?