Last updated 4 years ago
Was this helpful?
TF=(词语在文章中出现次数)/ (文章总词数)
IDF=log (语料库文档总数/(包含该词的文档数+1))
TF - IDF = TF * IDF
TF-IDF算法可以理解为相对熵的应用:词频在整个语料库的分布与词频在具体文档中分布之间的差异性。
TF-IDF原理及使用