Estoy modelando 15000 tweets para la predicción de sentimientos usando un LSTM de una sola capa con 128 unidades ocultas usando una representación similar a word2vec con 80 dimensiones. Obtengo una precisión de descenso (38% con aleatorio = 20%) después de 1 época. Más entrenamiento hace que la precisión de validación comience a disminuir a medida que la precisión del entrenamiento comienza a subir, una clara señal de sobreajuste.
Por lo tanto, estoy pensando en formas de hacer la regularización. Prefiero no reducir el número de unidades ocultas (128 parece un poco bajo ya). Actualmente uso el abandono con una probabilidad del 50%, pero esto quizás podría incrementarse. El optimizador es Adam con los parámetros predeterminados para Keras ( http://keras.io/optimizers/#adam ).
¿Cuáles son algunas formas efectivas de reducir el sobreajuste para este modelo en mi conjunto de datos?