Cuando usamos el algoritmo de aprendizaje de CD persistente para máquinas Bolzmann restringidas, comenzamos nuestra cadena de muestreo de Gibbs en la primera iteración en un punto de datos, pero a diferencia del CD normal, en las siguientes iteraciones no comenzamos sobre nuestra cadena. En cambio, comenzamos donde terminó la cadena de muestreo de Gibbs en la iteración anterior.
En el algoritmo de CD normal, cada iteración evalúa un mini lote de puntos de datos y calcula las cadenas de muestreo de Gibbs a partir de esos puntos de datos.
En CD persistente, ¿debemos mantener las cadenas de muestreo de Gibbs para cada punto de datos? ¿O deberíamos mantener también un mini lote de cadenas de muestreo de Gibbs, que comenzaron en puntos de datos que actualmente no se evalúan en la iteración actual?
Me parece que mantener las cadenas de muestreo de Gibbs para cada punto de datos será demasiado engorroso, pero, por otro lado, parece inadecuado comparar las señales de la muestra actual con las señales después de una larga cadena de Gibbs que no comenzó en la corriente la muestra .