¿Se ha replicado el rendimiento del estado de la técnica de usar vectores de párrafo para el análisis de sentimientos?

Me impresionaron los resultados en el documento ICML 2014 " Representaciones distribuidas de oraciones y documentos " de Le y Mikolov. La técnica que describen, llamada "vectores de párrafo", aprende representaciones sin supervisión de párrafos / documentos arbitrariamente largos, basados en una extensión del modelo word2vec. El documento informa sobre el rendimiento más avanzado en el análisis de sentimientos utilizando esta técnica.

Esperaba evaluar esta técnica en otros problemas de clasificación de texto, como una alternativa a la representación tradicional de la bolsa de palabras. Sin embargo, me encontré con una publicación del segundo autor en un hilo en el grupo de Google word2vec que me dio una pausa:

Intenté reproducir los resultados de Quoc durante el verano; Podría obtener tasas de error en el conjunto de datos IMDB de alrededor de 9.4% - 10% (dependiendo de qué tan buena sea la normalización del texto). Sin embargo, no pude acercarme a lo que Quoc informó en el documento (error del 7,4%, esa es una gran diferencia) ... Por supuesto, también le preguntamos a Quoc sobre el código; prometió publicarlo, pero hasta ahora no ha pasado nada. ... Estoy empezando a pensar que los resultados de Quoc en realidad no son reproducibles.

¿Alguien ha tenido éxito reproduciendo estos resultados todavía?

— bskaggs
fuente

¿Ha cambiado esta situación todavía? Sé que Gensim ha implementado una versión de doc2vec (vectores de párrafo / documento), consulte: radimrehurek.com/gensim/models/doc2vec.html pero no intento reproducir los resultados en el documento citado aquí.

— Doctorambient

Sí, hubo intentos de reproducir los resultados en papel usando gensim : vea el cuaderno doc2vec IPython .

— Radim

Nota al pie en http://arxiv.org/abs/1412.5335 (uno de los autores es Tomas Mikolov) dice

En nuestros experimentos, para hacer coincidir los resultados de (Le y Mikolov, 2014), seguimos la sugerencia de Quoc Le de utilizar softmax jerárquico en lugar de muestreo negativo. Sin embargo, esto produce el resultado de precisión del 92.6% solo cuando los datos de entrenamiento y prueba no se barajan. Por lo tanto, consideramos que este resultado no es válido.

— Mikhail Korobov
fuente

No entiendo por qué "no barajado" ==> no válido. ¿No hay una división bien definida entre el conjunto de tren / prueba? Entonces, ¿qué es el tren / prueba depende de cómo barajas el conjunto de datos (original)? El orden del conjunto de pruebas no debería importar (no hay evaluación dinámica, ¿verdad?). Y el orden del conjunto de entrenamiento tampoco debería importar mucho ...

— capybaralet

@ user2429920 Si están obteniendo diferencias, entonces claramente el orden sí importa de alguna manera.

— JAB