One - One Code All

Blog Content

文本表示模型

自然语言处理   2012-01-07 08:26:12

文档或文本的表示模型是对文本特征进行特征加权,将文本表示成计算机可以处理的数学向量。

大概有以下几种:

  1. 布尔模型:基于特征项的严格匹配模型,它可以看作是向量模型的一种特例,根据特征是否在文档中出现,特征的权值只能取1或0。主要优点是速度快,易于表达一定程度的结构化信息,如同义关系电脑微机机算机或词组文本过滤系统。其缺点是把布尔模型作为文本的表示很不精确,不能反映特征项对于文本的重要性。

  2. 向量空间模型(VSM):在向量空间模型中,文档被看作一系列无序词条的集合,向量空间模型的缺点在于项之间线性无关的假设,TFIDF。

  3. 概率模型:基于概率排队原理的文本表示模型。对于用户给定的查询,概率模型计算所有文档的概率,并按照文档概率的大小对文本进行降序排列。概率模型是利用词条与词条以及词条与文档之间的概念相关性来进行信息检索的文本表示模型,它克服了 VSM 模型和布尔模型忽略词条相关性的缺点。

  4. 图空间模型:如后缀树模型和频繁词集超图模型等,用图的形式反映特征间的相邻关系和次序关系,但复杂的图处理,影响了后续机器学习的速度。


上一篇:哈夫曼树,最优二叉树
下一篇:文本表示词向量模型

The minute you think of giving up, think of the reason why you held on so long.