La respuesta corta de @bean lo explica muy bien. Sin embargo, me gustaría señalar la sección 1.1 del documento Gibbs Sampling para los no iniciados por Resnik y Hardisty que lleva el asunto a mayor profundidad. Estoy escribiendo algunas líneas de este documento con modificaciones muy leves (Esta respuesta repite algunas de las cosas que OP sabe por razones de integridad)
MLE
Formalmente, MLE produce la elección (del parámetro del modelo) con mayor probabilidad de generar los datos observados.
MAPA
Un MAP estimado es la opción más probable dada la información observada. A diferencia de MLE, la estimación MAP aplica la regla de Bayes, de modo que nuestra estimación puede tener en cuenta el conocimiento previo sobre lo que esperamos que tengan nuestros parámetros en forma de una distribución de probabilidad previa.
Captura
Las estimaciones MLE y MAP nos están dando la mejor estimación, de acuerdo con sus respectivas definiciones de "mejor". Pero tenga en cuenta que el uso de una sola estimación, ya sea MLE o MAP, arroja información. En principio, el parámetro podría tener cualquier valor (del dominio); ¿no podríamos obtener mejores estimaciones si tomamos en cuenta toda la distribución, en lugar de un solo valor estimado para el parámetro? Si hacemos eso, estamos utilizando toda la información sobre el parámetro que podemos extraer de los datos observados, X.
Entonces, con esta trampa, es posible que no queramos usar ninguno de ellos. Además, como ya lo mencionaron Bean y Tim, si tiene que usar uno de ellos, use MAP si lo tiene antes. Si no tiene antecedentes, MAP se reduce a MLE. Los anteriores conjugados ayudarán a resolver el problema analíticamente; de lo contrario, use Gibbs Sampling