基本公式:
TF = 某词在文章中出现的次数/文章包含的总词数(或者等于某词出现的次数)
DF = (包含某词的文档数)/(语料库的文档总数)
IDF = log((语料库的文档总数)/(包含某词的文档数+1))
TFIDF = TF*IDF
算法选择:
在提取关键词之前必须剔除掉停用词。
利用IDF调低常用词权重:剔除停用词之后,比如“中国”等,要计算IDF前提是有充实的语料库。利用IDF作为惩罚权重,就可以计算词的TFIDF。
构建模型指标选择:TFIDF。TF受高频词影响较大,排除;在正负样本未分开统计的情况下,DF 对于部分词汇在正向样本和负向样本的相同,无法区分。
TF-IDF算法总结:
优点:简单快速,结果比较符合实际情况。
缺点:单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同。(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。)