Así es como lo pienso:
DKL(p(yi|xi)||q(yi|xi,θ))=H(p(yi|xi,θ),q(yi|xi,θ))−H(p(yi|xi,θ))(1)
dónde p y qson dos distribuciones de probabilidad. En el aprendizaje automático, generalmente sabemosp, que es la distribución del objetivo. Por ejemplo, en un problema de clasificación binaria,Y={0,1}, Así que si yi=1, p(yi=1|x)=1 y p(yi=0|x)=0, y viceversa. Dado cadayi∀i=1,2,…,N, dónde N es el número total de puntos en el conjunto de datos, generalmente queremos minimizar la divergencia KL DKL(p,q) entre la distribución del objetivo p(yi|x) y nuestra distribución prevista q(yi|x,θ), promediado sobre todo i. (Lo hacemos ajustando los parámetros de nuestro modeloθ. Por lo tanto, para cada ejemplo de entrenamiento, el modelo está escupiendo una distribución sobre las etiquetas de clase0 y 1.) Para cada ejemplo, dado que el objetivo es fijo, su distribución nunca cambia. Así,H(p(yi|xi)) es constante para cada i, independientemente de los parámetros de nuestro modelo actual θson. Por lo tanto, el minimizador deDKL(p,q) es igual al minimizador de H(p,q).
Si tuviste una situación donde p y q fueron variables (digamos, en las cuales x1∼p y x2∼q eran dos variables latentes) y deseaba hacer coincidir las dos distribuciones, entonces tendría que elegir entre minimizar DKL y minimizando H(p,q). Esto es porque minimizandoDKL implica maximizar H(p) mientras minimiza H(p,q) implica minimizar H(p). Para ver esto último, podemos resolver la ecuación (1) para H(p,q):
H(p,q)=DKL(p,q)+H(p)(2)
El primero produciría una amplia distribución para pmientras que el último produciría uno que se concentra en uno o algunos modos. Tenga en cuenta que es su elección como profesional de ML si desea minimizarDKL(p,q) o DKL(q,p). Una pequeña discusión de esto se da en el contexto de inferencia variacional (VI) a continuación.
En VI, debes elegir entre minimizar DKL(p,q) y DKL(q,p), que no son iguales ya que la divergencia KL no es simétrica. Si una vez más tratamosp como se conoce, luego minimizando DKL(p,q) daría lugar a una distribución q que es nítido y enfocado en una o algunas áreas mientras minimiza DKL(q,p) daría lugar a una distribución q que es amplio y cubre una amplia gama del dominio de q. Nuevamente, esto último se debe a que minimizaDKL(q,p) implica maximizar la entropía de q.