Número de épocas en la implementación de Gensim Word2Vec


14

Hay un iterparámetro en la gensimimplementación de Word2Vec

clase gensim.models.word2vec.Word2Vec (oraciones = Ninguno, tamaño = 100, alfa = 0.025, ventana = 5, min_count = 5, max_vocab_size = Ninguno, muestra = 0, semilla = 1, trabajadores = 1, min_alpha = 0.0001, sg = 1, hs = 1, negativo = 0, cbow_mean = 0, hashfxn =, iter = 1 , null_word = 0, trim_rule = Ninguno, sorted_vocab = 1)

que especifica el número de épocas, es decir:

iter = número de iteraciones (épocas) sobre el corpus.

¿Alguien sabe si eso ayuda a mejorar el modelo sobre el corpus?

¿Hay alguna razón por la cual iterse establece en 1 de forma predeterminada? ¿No hay mucho efecto en aumentar el no. de épocas?

¿Hay alguna evaluación científica / empírica de cómo establecer el no. de épocas?

A diferencia de la tarea de clasificación / regresión, el método de búsqueda de cuadrícula realmente no funcionaría ya que los vectores se generan de manera no supervisada y la función objetivo es simplemente por softmax jerárquico o muestreo negativo.

¿Existe un mecanismo de detención temprana para acortar el no. de épocas una vez que convergen los vectores? ¿Y puede converger el objetivo jerárquico softmax o el muestreo negativo?

Respuestas:


5

Aumentar el número de épocas generalmente beneficia la calidad de las representaciones de palabras. En los experimentos que realicé donde el objetivo era utilizar las incrustaciones de palabras como características para la clasificación de texto, establecer las épocas en 15 en lugar de 5, aumentó el rendimiento.


2

Miré aquí y descubrí que el valor predeterminado cambió de 1 a 5. Aparentemente, los autores creen que más épocas mejorarán los resultados .

No puedo decir por experiencia, todavía.


2

Entrené mi modelo w2v en google news 300 durante [2, 10, 100] épocas y el mejor fue en 10 épocas. Después de toda esa espera, me sorprendió que 100 épocas fueran malas.

epoch   wall                    
------ ------                    
2       56 s                    
10      4m 44s (284s)           
100     47m 27s (2847 s)    

1

Aumentar el recuento de iter (número de épocas) aumenta dramáticamente el tiempo de entrenamiento. Word2Vec proporciona resultados de calidad solo si alimenta una cantidad masiva de documentos, por lo tanto, no es razonable recorrerlos incluso dos veces, aunque en realidad hace que las incrustaciones de palabras resultantes sean más precisas.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.