自然语言处理基本操作

onecodeall

Blog Content

自然语言处理 2013-02-02 17:19:05

处理对象：自由文本（结构化文本、半结构化文本）。

常见的基本操作如下：

分词：分词算法分为词典方法和统计方法。其中，基于词典和人工规则的方法是按照一定的策略将待分析词与词典中的词条进行匹配（正向匹配、逆向匹配、最大匹配）。统计方法是基本字符串在语料库中出现的统计频率，典型的算法有HMM\CRF等。其中CRF相比HMM有更弱的上下文无相关性假设，理论上效果更好一点。
词性标注：需先定义出词性的类别：名词、动词、形容词、连词、副词、标点符号等。词性标注是语音识别、句法分析、信息抽取技术的基础技术之一，词性标注是标注问题，可以采用最大熵、HMM或CRF等具体算法进行模型的训练。自动问答系统中，为了提高用户问题匹配后端知识库的召回率，对一些关键词进行了过滤，包括连词、副词对于全文检索系统，理论上可以通过对用户输入的查询条件进行词性过滤，但由于全文检索是基于词袋模型的机械匹配，并且采用IDF作为特征值之一，因此词性标注的效果不大。
句法分析：确定句子的句法结构，主谓宾、动宾、定中、动补等。在问答系统和信息检索领域有重要的作用。
命名实体识别：命名实体识别是定位句子中出现的人名、地名、机构名、专有名词等。命名实体属于标注问题，因此可以采用HMM\CRF等进行模型的训练。基于统计的命名实体识别需要基于分词、词性标注等技术。命名实体定义了五大类类型：设施（FAC）\地理政治实体（GPE）\位置（LOC）\人物（PER）。在实际应用中，可以根据自己的业务需求，定义实体类别，并进行模型训练。
实体关系抽取：自动识别非结构化文档中两个实体之间的关联关系，属于信息抽取领域的基础知识之一。近年来，搜索领域流行的知识图谱技术是构建实体关系。实体关系抽取有多种方式，包括规则匹配、有监督学习、无监督学习。其中有监督学习需要预先定义实体关系类别，并通常将问题建模为分类问题。有监督学习需要预先人工标注语料库。
其他应用：自然语言处理和文本的表示；词的关联性挖掘及分析；话题的挖掘和分析；观点挖掘和情感分析；基于文本的预测

上一篇：Python3 函数注解
下一篇：TFIDF算法介绍

One - One Code All

Blog Content

自然语言处理基本操作

The minute you think of giving up, think of the reason why you held on so long.