Por lo que he visto, la fórmula de suavizado de Kneser-Ney (segundo orden) se da de una forma u otra como
con el factor de normalización dado como
y la probabilidad de continuación de una palabra w n
donde es el número de contextos w en los que se vio o, más simple, el número de palabras distintas ∙ que preceden a la palabra dada w . Por lo que he entendido, la fórmula se puede aplicar de forma recursiva.
Ahora esto maneja bien las palabras conocidas en contextos desconocidos para diferentes longitudes de n gramos, pero lo que no explica es qué hacer cuando hay palabras fuera del diccionario. Intenté seguir este ejemplo que establece que en el paso de recursión para unigramas, . El documento luego usa esto, citando a Chen y Goodman, para justificar la fórmula anterior comoP 1 K N (w)=Pcont( .
Sin embargo, no veo cómo funciona en presencia de una palabra desconocida . En estos casos P c o n t ( desconocido ) = 0 ya que, obviamente, la palabra desconocida no continúa nada con respecto al conjunto de entrenamiento. Del mismo modo, el recuento de n-gramos seráC(wn-1,desconocido)=0.
Además, todo el term might be zero if a sequence of unknown words - say, a trigram of OOD words - is encountered.
What am I missing?