Antecedentes: gran parte de la investigación moderna en los últimos ~ 4 años (post alexnet ) parece haberse alejado del uso de preentrenamiento generativo para redes neuronales para lograr resultados de clasificación de vanguardia.
Por ejemplo, los mejores resultados para mnist aquí incluyen solo 2 artículos de los 50 principales que parecen estar utilizando modelos generativos, los cuales son RBM. Los otros 48 artículos ganadores tratan sobre diferentes arquitecturas de avance discriminantes con mucho esfuerzo para encontrar mejores inicializaciones de peso novedosas y funciones de activación diferentes del sigmoide utilizado en la RBM y en muchas redes neuronales más antiguas.
Pregunta: ¿Hay alguna razón moderna para usar máquinas de Boltzmann restringidas?
Si no, ¿existe una modificación de facto que se pueda aplicar a estas arquitecturas de avance para hacer que cualquiera de sus capas sea generativa?
Motivación: pregunto porque algunos de los modelos que veo disponibles, por lo general variantes del RBM, no necesariamente tienen contrapartidas discriminatorias análogas obvias a estas capas / modelos generativos, y viceversa. Por ejemplo:
CRBM (aunque uno podría argumentar que la CNN utilizó arquitecturas de avance es la arquitectura análoga discriminativa)
Además, estos también fueron claramente pre alexnet, de 2010, 2011 y 2009 respetuosamente.