word2vec

截图 word2vec 中的数学原理详解

看上面的链接内容，直接从第5章开始看。

$L=\log \prod_{u} P(u|Content(w))$
$P(u|Content(w)) = \sigma(X_w^T \theta^u) \quad or \quad \sigma(-X_w^T \theta^u)$

Parallelizing Word2Vec in Shared and Distributed Memory

https://www.zhihu.com/question/53011711/answer/133115595 word2vec相较于之前的Word Embedding方法好在什么地方呢？

两个词经常一块出现<=>两个词在某方面有相似语义<=>两个向量在某些维度取值类似

上面这篇文章要细读

仅仅利用了word co-occurrence 。忽略了语法等。
interchanged 。A small, fluffy roosety climbed a tree. 根据上下文，可以认为roosety就是松鼠squirrel，因为这两个可以交换。
用pointwise mutual information (PMI)度量两个point的距离 $PMI(a, b) = \log \left[ \frac{P(a,b)}{P(a)P(b)} \right] = \log \left[ \frac{P(a|b)}{P(a)} \right]$ ，一般用近似的 $PMI(a, b) = \vec{v}_a \cdot \vec{v}_b$ 。这个就是向量内积，衡量两个vector接近。
上面的PMI可以用来做推荐系统