¿Cuáles son los pros y los contras de aplicar información mutua puntual en una matriz de coincidencia de palabras antes de SVD?

Una forma de generar incrustaciones de palabras es la siguiente ( espejo ):

Obtenga un corpus, por ejemplo, "Me gusta volar. Me gusta la PNL. Me gusta el aprendizaje profundo".
Construya la matriz de concordancia de palabras a partir de ella:

Realice SVD en y mantenga las primeras columnas de U. $X$ $k$

Cada fila de la submatriz será la palabra incrustada de la palabra que representa la fila (fila 1 = "I", fila 2 = "me gusta", ...). $U_{1:|V|,1:k}$

Entre los pasos 2 y 3, a veces se aplica información mutua puntual (p . Ej., A. Herbelot y EM Vecchi. 2015. Construyendo un mundo compartido: mapeo de espacios semánticos distribuidos en modelos teóricos . Lisboa, Portugal .

¿Cuáles son los pros y los contras de aplicar información mutua puntual en una matriz de coincidencia de palabras antes de SVD?

— Franck Dernoncourt
fuente

según el libro de Dan Jurafsky y James H. Martin :

"Sin embargo, resulta que la frecuencia simple no es la mejor medida de asociación entre las palabras. Un problema es que la frecuencia bruta es muy sesgada y no muy discriminatoria. Si queremos saber qué tipos de contextos comparten el albaricoque y la piña pero no por medios digitales e información, no vamos a obtener una buena discriminación de palabras como, it o they, que ocurren con frecuencia con todo tipo de palabras y no son informativas sobre ninguna palabra en particular ".

a veces reemplazamos esta frecuencia cruda con información mutua positiva puntual:

PPMI (w, c) = max (\log_{2} \frac{P (w, c)}{P (w) P (c)}, 0)

$\text{PPMI}(w,c) = \max{\left(\log_{2}{\frac{P(w,c)}{P(w)P(c)}},0\right)}$

PMI por sí solo muestra cuánto es posible observar una palabra w con una palabra de contexto C en comparación con observarlas independientemente. En PPMI solo mantenemos valores positivos de PMI. Pensemos cuándo PMI es + o - y por qué solo conservamos los negativos:

¿Qué significa PMI positivo?

$\frac{P(w,c)}{(P(w)P(c))} > 1$
$P(w,c) > (P(w)P(c))$
sucede cuando y ocurren mutuamente más que individualmente como patada y pelota. ¡Nos gustaría conservarlos! $w$ $c$

¿Qué significa PMI negativo?

$\frac{P(w,c)}{(P(w)P(c))} < 1$
$P(w,c) < (P(w)P(c))$
¡significa que tanto como o uno de ellos tienden a ocurrir individualmente! Puede indicar estadísticas poco confiables debido a datos limitados, de lo contrario, muestra coincidencias no informativas, por ejemplo, 'la' y 'bola'. ('the' ocurre con la mayoría de las palabras también.) $w$ $c$

El PMI o, en particular, el PPMI nos ayuda a detectar tales situaciones con una ocurrencia informativa.

— Maryam Hnr
fuente