En muchas aplicaciones de procesamiento de lenguaje natural, como corrección ortográfica, traducción automática y reconocimiento de voz, utilizamos modelos de lenguaje. Los modelos de lenguaje se crean generalmente contando con qué frecuencia ocurren secuencias de palabras (n-gramos) en un corpus grande y normalizando los recuentos para crear una probabilidad. Para tener en cuenta los n-gramos no vistos, utilizamos métodos de suavizado (vea varios enumerados aquí ) que toman parte de la masa de probabilidad de los n-gramos que están atestiguadas en el modelo y distribuyen esta masa entre n-gramos de orden inferior (secuencias de palabras más cortas ) probabilidades de retroceso.
Muchas de las técnicas de suavizado se vuelven matemáticamente complejas debido a la restricción de que los cálculos deben mantener la distribución como una probabilidad (debe sumar 1).
¿Cuál es la razón de esta restricción? ¿Cuál es la ventaja de usar probabilidades estrictas para la predicción en lugar de puntajes de cualquier otro tipo?
PD La referencia correspondiente al enlace es [Stanley F. Chen y Joshua Goodman (1998), "Un estudio empírico de técnicas de suavizado para el modelado del lenguaje"].