¿A qué n los n-gramos se vuelven contraproducentes?

13

Al hacer el procesamiento del lenguaje natural, uno puede tomar un corpus y evaluar la probabilidad de que la siguiente palabra ocurra en una secuencia de n. n generalmente se elige como 2 o 3 (bigrams y trigrams).

¿Existe un punto conocido en el que el seguimiento de los datos para la enésima cadena se vuelve contraproducente, dada la cantidad de tiempo que lleva clasificar un corpus particular una vez en ese nivel? ¿O dada la cantidad de tiempo que tomaría buscar las probabilidades de un diccionario (estructura de datos)?

text-mining natural-language

— jonsca
fuente

relacionado con este otro hilo sobre la maldición de la dimensionalidad

— Antoine

2

¿Existe un punto conocido en el que el seguimiento de los datos para la enésima cadena se vuelve contraproducente, dada la cantidad de tiempo que lleva clasificar un corpus particular una vez en ese nivel?

Debería buscar tablas o gráficos de perplejidad frente a n-gramas .

Ejemplos:

http://www.itl.nist.gov/iad/mig/publications/proceedings/darpa97/html/seymore1/image2.gif :

http://images.myshared.ru/17/1041315/slide_16.jpg :

http://images.slideplayer.com/13/4173894/slides/slide_45.jpg :

La perplejidad depende de su modelo de idioma, tamaño de n-gramo y conjunto de datos. Como de costumbre, existe una compensación entre la calidad del modelo de idioma y el tiempo que tarda en ejecutarse. Los mejores modelos de lenguaje hoy en día se basan en redes neuronales, por lo que la elección del tamaño de n-gramos es menos problemática (pero luego debe elegir los tamaños de filtro si usa CNN, entre otros hiperparámetros ...).

— Franck Dernoncourt
fuente

12

Su medida de "contraproducente" podría ser arbitraria, por ejemplo. con mucha memoria rápida, podría procesarse más rápido (de manera más razonable).

Después de decir eso, entra en juego un crecimiento exponencial y, según mis propias observaciones, parece estar alrededor de la marca de 3-4. (No he visto ningún estudio específico).

Los trigramas tienen una ventaja sobre las bigramas, pero es pequeño. Nunca he implementado un 4 gramos, pero la mejora será mucho menor. Probablemente un orden similar de disminución de magnitud. P.ej. Si los trigramas mejoran las cosas un 10% sobre las bigramas, entonces una estimación razonable de 4 gramos podría ser una mejora del 1% sobre los trigramas.

$10,000$ $10000^2$ $10000^3$ $10000^4$

Necesitará un gran corpus para compensar el efecto de dilución, pero la Ley de Zipf dice que un gran corpus también tendrá aún más palabras únicas ...

Especulo que es por eso que vemos muchos modelos, implementaciones y demostraciones de bigram y trigram; pero no hay ejemplos completos de 4 gramos.

— winwaed
fuente

2

Un buen resumen Las páginas 48-53 ("diatriba cínica de divagación larga") del siguiente documento proporcionan más detalles al respecto (el documento incluye algunos resultados para n-gramos de orden superior también) research.microsoft.com/~joshuago/longcombine.pdf

— Yevgeny

2

El enlace está muerto. Aquí está la referencia completa y el enlace a la versión arXiv: Joshua T. Goodman (2001). Un poco de progreso en el modelado de idiomas: versión extendida. Microsoft Research: Redmond, WA (EE. UU.). Informe técnico MSR-TR-2001-72.

— torpe