Para una respuesta larga, vea Blei, Kucukelbir y McAuliffe aquí . Esta respuesta corta se basa en gran medida de allí.
- MCMC es asintóticamente exacto; VI no lo es . En el límite, MCMC se aproximará exactamente a la distribución objetivo. VI viene sin garantía.
- MCMC es computacionalmente costoso . En general, VI es más rápido.
Es decir, cuando tenemos tiempo computacional para matar y valorar la precisión de nuestras estimaciones, MCMC gana. Si podemos tolerar sacrificar eso por conveniencia, o estamos trabajando con datos tan grandes que tenemos que hacer una compensación, VI es una opción natural.
O, como se describió de manera más elocuente y exhaustiva por los autores mencionados anteriormente:
Por lo tanto, la inferencia variacional es adecuada para grandes conjuntos de datos y escenarios en los que queremos explorar rápidamente muchos modelos; MCMC es adecuado para conjuntos de datos más pequeños y escenarios en los que pagamos un costo computacional más alto por muestras más precisas. Por ejemplo, podríamos usar MCMC en un entorno donde pasamos 20 años recolectando un conjunto de datos pequeño pero costoso, donde confiamos en que nuestro modelo es apropiado y donde requerimos inferencias precisas. Podríamos usar inferencia variacional cuando ajustemos un modelo probabilístico de texto a mil millones de documentos de texto y donde las inferencias se utilizarán para servir los resultados de búsqueda a una gran población de usuarios. En este escenario, podemos usar la computación distribuida y la optimización estocástica para escalar y acelerar la inferencia, y podemos explorar fácilmente muchos modelos diferentes de datos.