Bolsa de palabras vs modelo de espacio vectorial?

12

¿Cuál es / son la / s diferencia / s entre estos modelos de representación de texto: bolsa de palabras y modelo de espacio vectorial?

machine-learning text-mining

— samsamara
fuente

Bolsa de palabras es un conjunto que representa palabras únicas como un recuento. El espacio vectorial de término es un vector booleano disperso que también registra la posición de la palabra. Yo creo que.

— user122160

15

La bolsa de palabras y el modelo de espacio vectorial se refieren a diferentes aspectos de la caracterización de un cuerpo de texto, como un documento. Se describen bien en el libro de texto "Procesamiento del habla y el lenguaje" de Jurafsky y Martin, 2009, en la sección 23.1 sobre recuperación de información. Una referencia más breve es "Introducción a la recuperación de información" por Manning, Raghavan y Schütze, 2008, en la sección "El modelo de espacio vectorial para la puntuación".

La bolsa de palabras se refiere a qué tipo de información puede extraer de un documento (es decir, palabras de unigrama). El modelo de espacio vectorial se refiere a la estructura de datos para cada documento (es decir, un vector de características de pares de términos y términos). Ambos aspectos se complementan entre sí.

Más específicamente:

Bolsa de palabras : para un documento dado, extrae solo las palabras de unigrama (también conocidos como términos) para crear una lista de palabras desordenadas. Sin etiqueta POS, sin sintaxis, sin semántica, sin posición, sin bigrams, sin trigrams. Solo las palabras unigram en sí mismas, lo que hace que un montón de palabras representen el documento. Por lo tanto: bolsa de palabras .

Modelo de espacio vectorial : Dada la bolsa de palabras que extrajo del documento, crea un vector de características para el documento, donde cada característica es una palabra (término) y el valor de la característica es un peso de término. El término peso podría ser:

un valor binario (con 1 que indica que el término se produjo en el documento y 0 que indica que no);
un valor de frecuencia de término (que indica cuántas veces se produjo el término en el documento); o
un valor TF-IDF (por ejemplo, un pequeño número de coma flotante como 1.23).

El documento completo es, por lo tanto, un vector de características, y cada vector de características corresponde a un punto en un espacio vectorial . El modelo para este espacio vectorial es tal que hay un eje para cada término en el vocabulario, por lo que el espacio vectorial es V -dimensional, donde V es el tamaño del vocabulario. El vector también debería ser conceptualmente V- dimensional con una característica para cada término de vocabulario. Sin embargo, debido a que el vocabulario puede ser grande (del orden de V = 100,000s de términos), el vector de características de un documento típicamente contendrá solo los términos que ocurrieron en ese documento y omitirá los términos que no lo hicieron. Tal vector de características se considera escaso .

Un ejemplo de representación vectorial de un documento podría verse así:

DOCUMENT_ID_42 LABEL_POLITICS a 55 ability 1 about 5 absent 2 abuse 1 access 1
accompanied 1 accompanying 2 according 2 account 1 accounted 1 accurate 1
acknowledge 4 activities 1 actual 1 actually 2 administering 1 ...

donde este vector de ejemplo tiene una identificación de documento (por ejemplo, 42), una etiqueta de verdad básica (por ejemplo, política) y una lista de características y valores de características que comprenden pares de frecuencia de términos y términos. Aquí, se puede ver que la palabra "ausente" ocurrió 2 veces en este documento.

— stackoverflowuser2010
fuente

1

¿Es que al usar Bag of Words se asigna la frecuencia de palabras al elemento de matriz de términos de documento y en el modelo de espacio vectorial los elementos de matriz de términos de documento son bastante generales siempre que las operaciones (producto de puntos) en el espacio de vectores tengan sentido (pesos tf-idf, para ejemplo)?

— danas.zuokas
fuente

Sí, también estoy pensando que VSM es una versión mejorada de la bolsa de palabras.

— samsamara