One - One Code All

Blog Content

文本表示之词向量空间模型

自然语言处理   2012-01-11 22:18:29

向量空间模型 VSM

1、主要步骤
- 将文本的基本语言单位(字、词、词组、短语)抽取,组成特征项,用tn表示
- 将tn按在文本中的重要性给出权重wn
- 将文本抽象为(t1,w1,t2,w2,……,tn,wn)简化为(w1,w2,……,wn)即为文本的向量 空间模型。

2、权值计算
- 布尔权值:可取值1/0表示该特征是否在文本中出现。
- 词频权值:用特征在文档中出现的频数表示
- TF/IDF权值:公式有两种,一种考虑文本信息量,另一种不考虑。下面举不考虑信息量的例子。

词频 (TF) 是一词语出现的次数除以该文件的总词语数。如某文总词数100个,“中国”出现了3次,则其词频就是3/100=0.03。

文档频率 (IDF) :有多少文档出现过“中国”一词,除以文档总数。如“中国”一词在1000份文档出现过,而文档总数是10,000,000份的话,其逆向文件频率就是 log(10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12。


上一篇:文本表示词向量模型
下一篇:文本特征提取方法

The minute you think of giving up, think of the reason why you held on so long.