No se basa en mi conocimiento, pero aquí hay un documento (en inglés bastante simple) que creo que es muy relevante para la pregunta:
Blei, Kucukelbir y McAuliffe 2016. Inferencia variacional: una revisión para estadísticos . https://arxiv.org/abs/1601.00670
Del resumen:
Uno de los problemas centrales de las estadísticas modernas es aproximar las densidades de probabilidad difíciles de calcular. Este problema es especialmente importante en las estadísticas bayesianas, que enmarcan todas las inferencias sobre cantidades desconocidas como un cálculo que involucra la densidad posterior. En este artículo, revisamos la inferencia variacional (VI), un método de aprendizaje automático que aproxima las densidades de probabilidad a través de la optimización. VI se ha utilizado en muchas aplicaciones y tiende a ser más rápido que los métodos clásicos, como el muestreo de Monte Carlo en cadena de Markov. La idea detrás de VI es primero plantear una familia de densidades y luego encontrar al miembro de esa familia que está cerca del objetivo. La cercanía se mide por la divergencia de Kullback-Leibler. Revisamos las ideas detrás de la inferencia variacional de campo medio, discutimos el caso especial de VI aplicado a modelos familiares exponenciales, presentamos un ejemplo completo con una mezcla bayesiana de gaussianos y derivamos una variante que utiliza la optimización estocástica para escalar datos masivos. Discutimos la investigación moderna en VI y destacamos importantes problemas abiertos. VI es poderoso, pero aún no se entiende bien . Nuestra esperanza al escribir este artículo es catalizar la investigación estadística sobre esta clase de algoritmos.
También ofrecen orientación sobre cuándo los estadísticos deben usar el muestreo de Monte Carlo en cadena de Markov y cuándo la inferencia variacional (consulte el párrafo Comparación de inferencia variacional y MCMC en el artículo).