word2vec
Last updated
Last updated
看上面的链接内容,直接从第5章开始看。
Parallelizing Word2Vec in Shared and Distributed Memory
https://arxiv.org/abs/1604.04661
https://github.com/IntelLabs/pWord2Vec
https://www.zhihu.com/question/53011711/answer/133115595 word2vec相较于之前的Word Embedding方法好在什么地方呢?
两个词经常一块出现<=>两个词在某方面有相似语义<=>两个向量在某些维度取值类似
http://p.migdal.pl/2017/01/06/king-man-woman-queen-why.html king - man + woman is queen; but why?
上面这篇文章要细读
仅仅利用了word co-occurrence 。忽略了语法等。
interchanged 。A small, fluffy roosety climbed a tree. 根据上下文,可以认为roosety就是松鼠squirrel,因为这两个可以交换。
用pointwise mutual information (PMI)度量两个point的距离 ,一般用近似的 。这个就是向量内积,衡量两个vector接近。
上面的PMI可以用来做推荐系统
GloVe: Global Vectors for Word Representation
word2vec原理(二) 基于Hierarchical Softmax的模型
算出句子每个词向量之后用
Finding similar documents with Word2Vec and WMD 下的WMD_tutorial.ipynb