¿Se pueden utilizar los autoencoders para el aprendizaje supervisado?


9

¿Se pueden utilizar los codificadores automáticos para el aprendizaje supervisado sin agregar una capa de salida ? ¿Podemos simplemente alimentarlo con un vector de entrada-salida concatenado para entrenamiento y reconstruir la parte de salida de la parte de entrada al hacer inferencia? La parte de salida se trataría como valores faltantes durante la inferencia y se aplicaría alguna imputación.


No entiendo del todo. Si lo entrena con vectores de entrada-salida, también necesitará vectores de salida mientras hace inferencia para alimentarlo a la red. ¿Qué vas a hacer al respecto?
Didam I

No, serían tratados como valores perdidos e imputados de alguna manera. El autoencoder intentaría reconstruirlo (pueden ser necesarias varias iteraciones). La pregunta es precisamente sobre la viabilidad de esta idea. Lo editaré para aclarar.
rcpinto

Respuestas:


2

Uno de esos trabajos que conozco y que implementé es el aprendizaje semi-supervisado usando Ladder Networks . Cito aquí su descripción del modelo:

Nuestro enfoque sigue a Valpola (2015), quien propuso una red Ladder donde la tarea auxiliar es eliminar las representaciones en todos los niveles del modelo. La estructura del modelo es un codificador automático con saltos de conexión desde el codificador al decodificador y la tarea de aprendizaje es similar a la de la eliminación de ruido de los codificadores automáticos, pero se aplica a cada capa, no solo a las entradas. Las conexiones de salto alivian la presión de representar detalles en las capas superiores del modelo porque, a través de las conexiones de salto, el decodificador puede recuperar cualquier detalle descartado por el codificador.

Para obtener más explicaciones sobre la arquitectura, consulte Deconstructing the Ladder Network Architecture de Yoshua Bengio.


1

Recuerdo haber leído documentos sobre tales sistemas, si te entiendo correctamente, pero no puedo recordar los títulos en este momento.

La idea era utilizar RNN generativos basados ​​en caracteres, entrenarlos en secuencias codificadas como "datadatadatadata | answer", y luego al alimentarlos con "otherdatadata |" entonces continuaría generando algún tipo de respuesta esperada.

Pero, por lo que recuerdo, eso fue solo una buena ilustración, ya que si tiene los datos para hacer algo supervisado, obtendrá mejores resultados con los métodos convencionales.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.