Estaba leyendo sobre la clasificación Naive Bayes hoy. Leí, bajo el encabezado de Estimación de parámetros con agregar 1 suavizado :
Deje que refiera a una clase (como Positivo o Negativo), y deje que refiera a una ficha o palabra.
El estimador de máxima verosimilitud para es
Esta estimación de podría ser problemática ya que nos daría una probabilidad para documentos con palabras desconocidas. Una forma común de resolver este problema es usar el suavizado de Laplace.
Deje que V sea el conjunto de palabras en el conjunto de entrenamiento, agregue un nuevo elemento (por desconocido) al conjunto de palabras.
Definir
donde refiere al vocabulario (las palabras en el conjunto de entrenamiento).
En particular, cualquier palabra desconocida tendrá probabilidad
Mi pregunta es esta: ¿por qué nos molestamos con este suavizado de Laplace? Si estas palabras desconocidas que encontramos en el conjunto de pruebas tienen una probabilidad que obviamente es casi cero, es decir, , ¿cuál es el punto de incluirlos en el modelo? ¿Por qué no simplemente ignorarlos y eliminarlos?