Las redes bayesianas (BN) son modelos generativos. Suponga que tiene un conjunto de entradas, , y la salida . Los BN le permiten aprender la distribución conjunta , a diferencia de la regresión logística o la máquina de vectores de soporte, que modela la distribución condicional .Y P ( X , Y ) P ( Y | X )XYPAG( X, Y)PAG( YEl | X)
Aprender la distribución de probabilidad conjunta (modelo generativo) de los datos es más difícil que aprender la probabilidad condicional (modelos discriminativos). Sin embargo, el primero proporciona un modelo más versátil donde puede ejecutar consultas como o , etc. Con el modelo discriminativo, su único objetivo es aprender .P ( X 1 | X 2 = A , X 3 = B ) P ( Y | X )PAG( X1El | Y)PAG( X1El | X2= A , X3= B )PAG( YEl | X)
BN utiliza DAG para prescribir la distribución conjunta. Por lo tanto, son modelos gráficos.
Ventajas:
Cuando faltan muchos datos, por ejemplo, en medicina, los BN pueden ser muy efectivos ya que modelar la distribución conjunta (es decir, su afirmación sobre cómo se generaron los datos) reduce su dependencia de tener un conjunto de datos completamente observado.
Cuando desee modelar un dominio de una manera que sea visualmente transparente y también pretenda capturar las relaciones , los BN pueden ser muy poderosos. Tenga en cuenta que el supuesto de causalidad en BN está abierto a debate sin embargo.causa → efecto
Aprender la distribución conjunta es una tarea difícil, modelarla para variables discretas (a través del cálculo de tablas de probabilidad condicional, es decir, CPT) es sustancialmente más fácil que tratar de hacer lo mismo para las variables continuas. Por lo tanto, los BN son prácticamente más comunes con variables discretas.
Los BN no solo permiten la inferencia observacional (como lo permiten todos los modelos de aprendizaje automático) sino también las intervenciones causales . Esta es una ventaja comúnmente descuidada y subestimada de los BN y está relacionada con el razonamiento contrafactual.