según el libro de Dan Jurafsky y James H. Martin :
"Sin embargo, resulta que la frecuencia simple no es la mejor medida de asociación entre las palabras. Un problema es que la frecuencia bruta es muy sesgada y no muy discriminatoria. Si queremos saber qué tipos de contextos comparten el albaricoque y la piña pero no por medios digitales e información, no vamos a obtener una buena discriminación de palabras como, it o they, que ocurren con frecuencia con todo tipo de palabras y no son informativas sobre ninguna palabra en particular ".
a veces reemplazamos esta frecuencia cruda con información mutua positiva puntual:
PPMI(w,c)=max(log2P(w,c)P(w)P(c),0)
PMI por sí solo muestra cuánto es posible observar una palabra w con una palabra de contexto C en comparación con observarlas independientemente. En PPMI solo mantenemos valores positivos de PMI. Pensemos cuándo PMI es + o - y por qué solo conservamos los negativos:
¿Qué significa PMI positivo?
P(w,c)(P(w)P(c))>1
P(w,c)>(P(w)P(c))
sucede cuando y ocurren mutuamente más que individualmente como patada y pelota. ¡Nos gustaría conservarlos!wc
¿Qué significa PMI negativo?
P(w,c)(P(w)P(c))<1
P(w,c)<(P(w)P(c))
¡significa que tanto como o uno de ellos tienden a ocurrir individualmente! Puede indicar estadísticas poco confiables debido a datos limitados, de lo contrario, muestra coincidencias no informativas, por ejemplo, 'la' y 'bola'. ('the' ocurre con la mayoría de las palabras también.)wc
El PMI o, en particular, el PPMI nos ayuda a detectar tales situaciones con una ocurrencia informativa.