Un predictor de Naive Bayes hace sus predicciones usando esta fórmula:
donde es un factor de normalización. Esto requiere estimar los parámetros partir de los datos. Si hacemos esto con -smoothing, obtenemos la estimaciónP ( X i = x i | Y = y ) k
donde hay valores posibles para . Estoy bien con esto. Sin embargo, para lo anterior, tenemosX i
donde hay ejemplos en el conjunto de datos. ¿Por qué no suavizamos también lo anterior? O más bien, ¿ suavizamos lo anterior? Si es así, ¿qué parámetro de suavizado elegimos? Parece un poco tonto elegir también , ya que estamos haciendo un cálculo diferente. ¿Hay consenso? ¿O no importa demasiado?