TF-IDF

TF=(词语在文章中出现次数)/ (文章总词数)

IDF=log (语料库文档总数/(包含该词的文档数+1))

TF - IDF = TF * IDF

TF-IDF算法可以理解为相对熵的应用:词频在整个语料库的分布与词频在具体文档中分布之间的差异性。

http://blog.csdn.net/zrc199021/article/details/53728499 TF-IDF原理及使用

Last updated