Revisión de máquinas de Boltzmann restringidas
Una máquina de Boltzmann restringida (RBM) es un modelo generativo , que aprende una distribución de probabilidad sobre la entrada. Eso significa que, después de ser entrenado, el RBM puede generar nuevas muestras a partir de la distribución de probabilidad aprendida. La distribución de probabilidad sobre las unidades visibles viene dada por
p ( v ∣ h ) = V ∏ i = 0 p ( v i ∣ h ) ,
donde
p ( v i ∣ h ) = σ ( a i + Hv
p ( v ∣ h ) = ∏i = 0Vp ( vyo∣ h ) ,
y
σes la función sigmoidea,
aies el sesgo del nodo visible
i, y
wjies el peso de
hja
vi. De estas dos ecuaciones, se deduce que
p(v∣h)solo depende de los estados ocultos
h. Eso significa que la información sobre cómose generauna muestra visible
v, debe almacenarse en las unidades ocultas, los pesos y los sesgos.
p ( vyo∣ h ) = σ( ayo+ ∑j = 0Hwj ihj)
σunyoyowj ihjvip(v∣h)hv
Usando RBMs para la clasificación
h
Este vector oculto es solo una versión transformada de los datos de entrada; esto no puede clasificar nada por sí mismo. Para hacer una clasificación, entrenaría cualquier clasificador (clasificador lineal, SVM, una red neuronal de avance, o cualquier otra cosa) con el vector oculto en lugar de los datos de entrenamiento "en bruto" como entradas.
Si está construyendo una red de creencias profundas (DBN), que se usó para entrenar previamente redes neuronales de alimentación profunda de manera no supervisada, tomaría este vector oculto y lo usaría como entrada para un nuevo RBM, que usted apila en lo alto de ello. De esa manera, puede entrenar la red capa por capa hasta alcanzar el tamaño deseado, sin necesidad de ningún dato etiquetado. Finalmente, agregaría, por ejemplo, una capa softmax a la parte superior, y entrenaría a toda la red con retropropagación en su tarea de clasificación.