TF-IDF
TF=(词语在文章中出现次数)/ (文章总词数)
IDF=log (语料库文档总数/(包含该词的文档数+1))
TF - IDF = TF * IDF
TF-IDF算法可以理解为相对熵的应用:词频在整个语料库的分布与词频在具体文档中分布之间的差异性。
http://blog.csdn.net/zrc199021/article/details/53728499 TF-IDF原理及使用
Last updated
TF=(词语在文章中出现次数)/ (文章总词数)
IDF=log (语料库文档总数/(包含该词的文档数+1))
TF - IDF = TF * IDF
TF-IDF算法可以理解为相对熵的应用:词频在整个语料库的分布与词频在具体文档中分布之间的差异性。
http://blog.csdn.net/zrc199021/article/details/53728499 TF-IDF原理及使用
Last updated