TFIDF算法介绍

Blog Content

自然语言处理机器学习数据挖掘 2013-02-03 09:20:21

基本公式：

TF = 某词在文章中出现的次数/文章包含的总词数（或者等于某词出现的次数）

DF = （包含某词的文档数）/（语料库的文档总数）

IDF = log（（语料库的文档总数）/（包含某词的文档数+1））

TFIDF = TF*IDF

算法选择：

TF-IDF算法总结：

优点：简单快速，结果比较符合实际情况。

缺点：单纯以"词频"衡量一个词的重要性，不够全面，有时重要的词可能出现次数并不多。无法体现词的位置信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同。（一种解决方法是，对全文的第一段和每一段的第一句话，给予较大的权重。）