One - One Code All

Blog Content

TFIDF算法介绍

自然语言处理 机器学习 数据挖掘   2013-02-03 09:20:21

基本公式:

TF = 某词在文章中出现的次数/文章包含的总词数(或者等于某词出现的次数)

DF = (包含某词的文档数)/(语料库的文档总数)

IDF = log((语料库的文档总数)/(包含某词的文档数+1))

TFIDF = TF*IDF


算法选择:

  1. 在提取关键词之前必须剔除掉停用词。

  2. 利用IDF调低常用词权重:剔除停用词之后,比如“中国”等,要计算IDF前提是有充实的语料库。利用IDF作为惩罚权重,就可以计算词的TFIDF。

  3. 构建模型指标选择:TFIDF。TF受高频词影响较大,排除;在正负样本未分开统计的情况下,DF 对于部分词汇在正向样本和负向样本的相同,无法区分。


TF-IDF算法总结:

优点:简单快速,结果比较符合实际情况。

缺点:单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同。(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。)



上一篇:自然语言处理基本操作
下一篇:数据预处理之归一化、标准化和正则化的关系

The minute you think of giving up, think of the reason why you held on so long.