一、特征权重的表示方法:
布尔权重;
词频权重;
TF-IDF权重;
二、常用特征选择方法:
文档频率:训练文档中出现特征项的文档数,出现文档数多的词被认为是重要的,被保留的可能性大。在使用时,需要设置阈值,小于该阈值的特征项全部去除。文档频率的缺点为可能会删除出现次数较少但是包含重要信息的稀有词。
信息增益:特征项在文本中出现前后的信息熵之差。特征项的信息增益值越大,说明该特征项包含更多对分类有帮助的信息。
卡方统计量:用来描述实际值与理论值的偏差,根据结果判断一个结论是否正确。
互信息:用来度量特征项t与类别c同时出现的关系。在类c中出现概率高的特征项t比其他类别具有更高的互信息值。
几率比:着重关注目标类c的值,特别适用于二元分类器。