Uso de la agrupación en el procesamiento de texto


11

Hola, esta es mi primera pregunta en la pila de Data Science. Quiero crear un algoritmo para la clasificación de texto. Supongamos que tengo un gran conjunto de textos y artículos. Digamos alrededor de 5000 textos simples. Primero uso una función simple para determinar la frecuencia de las palabras de cuatro caracteres y más. Luego uso esto como la característica de cada muestra de entrenamiento. Ahora quiero que mi algoritmo pueda agrupar los conjuntos de entrenamiento según sus características, que aquí es la frecuencia de cada palabra en el artículo. (Tenga en cuenta que en este ejemplo, cada artículo tendría su propia característica única, ya que cada artículo tiene una característica diferente, por ejemplo, un artículo tiene 10 "agua y 23" puro "y otro tiene 8" política "y 14" apalancamiento "). ¿Puede sugerir el mejor algoritmo de agrupamiento posible para este ejemplo?

Respuestas:


5

No sé si alguna vez leíste SenseCluster por Ted Pedersen: http://senseclusters.sourceforge.net/ . Muy buen papel para agrupar los sentidos.

Además, cuando analice palabras, piense que "computadora", "computadoras", "informática" ... representan un concepto, por lo que solo una característica. Muy importante para un correcto análisis.

Para hablar sobre el algoritmo de agrupación, puede utilizar una agrupación jerárquica . En cada paso del algo, fusiona los 2 textos más similares de acuerdo con sus características (usando una medida de disimilitud, distancia euclidiana, por ejemplo). Con esa medida de disimilitud, puede encontrar el mejor número de grupos y, por lo tanto, el mejor grupo para sus textos y artículos.

Buena suerte :)


6

Si desea continuar en su camino existente, sugiero que se normalice la frecuencia de cada término por su popularidad en todo el corpus, por lo que se promueven palabras raras y, por lo tanto, predictivas. Luego, use proyecciones aleatorias para reducir la dimensionalidad de estos vectores muy largos hasta el tamaño para que su algoritmo de agrupación funcione mejor (no desea agrupar en espacios de alta dimensión).

Pero hay otras formas de modelar temas. Lea este tutorial para obtener más información.



Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.