La respuesta de Andrey Kutuzov a través de grupos de Google se sintió satisfactoria
Yo diría que los algoritmos word2vec se basan en ambos.
Cuando la gente dice distributional representation
, generalmente se refieren al aspecto lingüístico: el significado es contexto, conoce la palabra por su compañía y otras citas famosas.
Pero cuando la gente dice distributed representation
, en su mayoría no tiene nada que ver con la lingüística. Se trata más del aspecto informático. Si entiendo Mikolov y otros correctamente, la palabra
distributed
en sus documentos significa que cada componente individual de una representación vectorial no tiene ningún significado propio. Las características interpretables (por ejemplo, los contextos de palabras en el caso de word2vec) están ocultas y distributed
entre los componentes vectoriales no interpretables: cada componente es responsable de varias características interpretables, y cada característica interpretable está vinculada a varios componentes.
Entonces, word2vec (y doc2vec) usa representaciones distribuidas técnicamente, como una forma de representar la semántica léxica. Y al mismo tiempo, se basa conceptualmente en la hipótesis de distribución: funciona solo porque la hipótesis de distribución es verdadera (los significados de las palabras se correlacionan con sus contextos típicos).
Pero, por supuesto, a menudo los términos distributed
y distributional
se usan indistintamente, lo que aumenta el malentendido :)