一种基于领域词典和语义角色的评价对象抽取方法
【专利摘要】本发明涉及一种基于领域词典和语义角色的评价对象抽取方法,属于自然语言处理应用【技术领域】,包括以下步骤:首先根据词性、依存和语义角色信息,构建评价对象的领域词典DL,然后充分挖掘词汇、依存、相对位置和语义角色四方面的特征,与DL一起利用条件随机场(CRFs)进行模型训练和预测,从而完成评价对象的抽取工作。对比现有技术,根据中文句子特别是微博、论坛评论信息结构灵活多样、构成方法变化多、句子特征较少的特点,充分利用不同层级句法和语义信息,结合基于规则和机器学习的评价对象抽取方法的优点,自动快速而且准确地找到语料中置信度较高的评价对象,提高了中文句子评价对象抽取的准确率。
【专利说明】一种基于领域词典和语义角色的评价对象抽取方法
【技术领域】
[0001] 本发明涉及一种中文句子评价对象抽取方法,特别涉及一种基于领域词典和语 义角色的评价对象抽取方法,属于自然语言处理应用【技术领域】。
【背景技术】
[0002] 随着互联网特别是web2. 0的发展,越来越多的人不仅仅通过网络获取信息,而且 还更多的参与到网络的交流。博客、微博、论坛的形成发展极大地改变了人们的使用互联网 的方式。伴随着互联网的发展,通过人工的方式了解网络的海量信息,对网络上的信息进行 整合分析变得越来越困难。对网络文本的抓取和分析技术就是这样的应用背景下应运而 生。由于越来越多的网络文本信息,如何使用自然语言处理技术来分析网络的文本是当前 研究的一个主题。情感要素抽取是对文本中重要的情感要素比如评价词,评价对象,评价者 等进行提取,是细粒度的情感挖掘,也变得越来越重要。
[0003] 大数据时代的到来,对网络上的信息进行有效的整合分析已经是研究者一个十分 重要的研究课题。情感信息抽取,特别是细粒度的情感要素抽取,在近几年得到了越来越多 的重视。情感要素抽取对情感信息抽取技术的研究有着十分重要的研究意义,在网络评论 信息分析处理、舆情监控、信息预测等领域发挥了越来越重要的影响。
[0004] 评价对象抽取技术的研究,对上层情感信息检索、分类以及专家系统等进一 步的研究,有着十分重要的学术价值。评价对象抽取(Opinion Targets Extraction/ I dent ificat i on)是对句子中观点的指向词进行识别。评价对象指的是句子中表述观点和发 表评论所针对的对象;评价词是句子中发表观点所用的词汇,也称为情感词。随着评价对象 抽取任务的提出,相继出现了不同的抽取算法,主要分为基于规则的方法和基于机器学习 的方法。通常基于规则的方法主要是采用句子中词、词性等模板特征,例如基于关联规则的 方法。基于规则的方法对特定领域的效果较好,但是领域适应性较差。基于机器学习的方 法在近年来才得以在评价对象抽取任务上进行研究。当前主要有CRFs、HMM、LDA等机器学 习模型。基于机器学习的方法,受到目前句子短、特征少、语料库不足等影响,不能满足当前 实际使用的需要。
【发明内容】
[0005] 本发明的目的是为了解决现有基于规则的评价对象抽取方法领域适应性差、基于 机器学习的方法对有限的中文标注语料库不能充分挖掘出特征的问题,提出一种基于领域 词典和语义角色的中文句子评价对象抽取方法。
[0006] 为实现上述目的,本发明所采用的技术方案如下:
[0007] 本发明技术方案的思想是首先根据词性、依存和语义角色信息,构建评价对象的 领域词典DL,然后充分挖掘词汇、依存、相对位置和语义角色四方面的特征,与DL -起利用 条件随机场(CRFs)进行模型训练和预测,从而完成评价对象的抽取工作。
[0008] -种基于领域词典和语义角色的评价对象抽取方法,该方法包括以下步骤:
[0009] 步骤一、语料预处理:对语料集S的每一个句子按照规则(Rules)进行过滤,然后 对过滤后的句子集合进行分词、词性标注得到语料集T ;
[0010] 步骤二、领域词典(DL)构建:首先通过对语料集T进行分析,总结出词性序列模板 集合(posT),并将posT中的每一个模板分别与T中每一个已分词的句子的词性序列进行匹 配,得到评价对象集合A ;然后对T中的每一个句子进行依存结果类型分析,通过分析评价 对象与评价词之间的依存关系类型,得到评价对象集合B ;接下来通过一个基于语义角色 的评价对象提取算法,得到评价对象集合C ;最后,对集合A、B、C取并集,得到集合D,作为 最终的DL ;
[0011] 步骤三、CRFs特征选择:使用词汇特征、依存特征、相对位置特征和语义角色特征 作为CRFs的特征;所述词汇特征部分,选择当前词及其词性作为此部分特征;所述依存特 征部分,选取当前词与中心词是否存在依存关系、该依存关系的类型、当前词的父节点以及 父节点的词性作为此部分特征;所述相对位置特征部分,以当前词与评价词之间的距离是 否小于η作为本部分特征,η是一个大于零的自然数;所述语义角色特征部分,选取语义角 色名字和评价词词性作为该部分的特征;
[0012] 步骤四、利用CRFs进行评价对象抽取:首先对语料集Τ进行Β,I,0标注,然后将 步骤三提取的四部分特征、步骤二构建的DL及ΒΙ0标注一起加入CRFs进行训练;并使用此 训练后的CRFs对步骤三提取的四部分特征和步骤二构建的DL进行评价对象识别,给出ΒΙ0 分类结果;
[0013] 步骤五、抽取完成,输出抽取结果0T集合,即分类结果为B或以B开头后跟若干个 I的词的集合。
[0014] 所述Rules包含以下六项内容:
[0015] 规则1:去除纯英文句子;
[0016] 规则2 :对句子进行"//"划分,并且使分句顺序倒置;
[0017] 规则3 :对句子中用户名和网址进行删除;
[0018] 规则4 :对连续出现的多个相同标点符号,用第一个标点符号进行替换,同时去除 表情标示符;
[0019] 规则5 :对于微博中特殊的"#内容#",则把较短内容直接作为候选评价对象,较长 内容作为一个单独的句子另行分析;
[0020] 规则6 :对句子中的代词,选择其前句或后句中的名词性主语将其替换。
[0021] 所述posT的获取过程如下:
[0022] 首先对语料集T中的词性标注进行替换,将属于比较词、主张词和程度副词的词 语的词性标注改成cmp,aw和adv ;对于T中的每一个句子,提取其评价对象前两个、前一 个、后两个、后一个词与评价对象的词性一起作为模板提取出来,如果评价对象不是一个单 独的词,而是由多个词的组合,则将这些组合词的词性,组合起来形成模板;按照这种规则 处理T中的所有句子,并计算每一个模板的出现概率;最后,将出现概率最高的m个模板提 取出来作为P〇sT,m是一个大于零的自然数。
[0023] 所述集合A的获取过程如下:
[0024] 将posT中的每一个模板分别与T中每一个已分词的句子的词性序列进行匹配,将 匹配得到的所有词性序列中词性为η的词提取出来,去掉重复,构成集合A。
[0025] 所述集合B的获取过程如下:
[0026] 对语料集T中的每个句子进行依存分析,找出与评价词集合0中的词存在ATT或 SBV关系的词作为评价对象,加入集合B,然后再选取与已知评级对象B中现存词的关系为 C00的词,也添加入B,形成最终的集合B。
[0027] 所述基于语义角色的评价对象提取算法具体内容如下:
[0028] 对于句子中的评价词,如果评价词词性为动词,则选取受事者(即该动作的承受 者)作为评价对象,而如果评价词词性为形容词,则选取施事者(即该动作的发出者)作为 评价对象。
[0029] 所述ΒΙ0标注的具体过程如下:
[0030] 首先对于每一个句子,找出对应的评价对象;然后遍历该句子分词结果中的每一 个词,如果其是该句所对应的评价对象中的第一个词,则标注为B ;若其是该句所对应的评 价对象中的其他词,则标注为I ;其他情况,全部标注为〇。
[0031] 有益效果
[0032] 本发明对比现有技术,根据中文句子特别是微博、论坛评论信息结构灵活多样、构 成方法变化多、句子特征较少的特点,利用基于规则的句子过滤方法,去掉了部分冗余的信 息,然后通过挖掘句子词汇、句法和语义各方面的信息,通过规则的方法建立评价对象的领 域词典;并将其和语义角色特征,辅以其他三种常用特征一起使用CRFs进行识别,充分利 用了不同层级句法和语义信息,使用户能够更快速而且准确地找到语料中置信度较高的评 价对象,提高了中文句子评价对象抽取的准确率。
【专利附图】
【附图说明】
[0033] 图1为本发明方法的流程图。
【具体实施方式】
[0034] 下面结合实施例对本发明做进一步说明。
[0035] 本实施例选取第六届中文倾向性分析评测(The Sixth Chinese Opinion Analysis Evaluation,简称C0AE2014)任务四提供的数据集作为实验语料集,用于领域词 典的创建和CRFs的训练。该语料集中,对于每一个句子,都含有标注好的评价对象(0T :是 评价对象)。
[0036] 步骤一,对语料集S(多为微博、论坛中的句子)按照规则(Rules)进行初步过滤。 Rules的具体内容如下:
[0037] 规则1 :去除纯英文句子(目前主要专注于中文句子的分析);
[0038] 规则2 :对句子进行"//"划分,并且使分句顺序倒置;例如用户a转发了用户b的 微博"iphone5S很漂亮。",并在此微博中说"我很喜欢!",在语料集S中则表示为:"我很喜 欢! //iph〇ne5S很漂亮。",经过此条规则过滤之后,得到"iphone5S很漂亮。我很喜欢! ", 这样就保证句子的转发关系,使后面的句子基于前面的句子进行分析。
[0039] 规则3 :对句子中用户名进行删除,即删除"@+用户名"结构,删除"http:z7t.cn/ h87oy"这样的网址结构;
[0040] 规则4 :对连续出现的多个相同标点符号,如"。。。。。。"," !!!! "等,采用第一个标 点符号进行替换,同时去除微博中表情标示符;
[0041] 规则5 :对于微博中特殊的"#内容#",则把较短内容直接作为候选评价对象,较长 内容作为一个单独的句子另行分析;
[0042] 规则6 :对句子中的代词,选择其前句或后句中的名词性主语将其替换;例如句子 "这款iphone好漂亮。我觉得它比三星漂亮多了!"针对第二个句子中的"它",我们则用其 前句的"iphone"代替;
[0043] 接着对通过以上规则过滤后得到的句子集合,分别进行分词和词性标注,得到集 合T ;分词和词性标注可以手工进行,也可以使用现有的工具进行,如ICTCLAS,结巴分词, 本实施例中使用ICTCLAS。
[0044] 步骤二,开始构建领域词典:
[0045] 首先,根据处理后的语料集合T,在其中标注好的评价对象0T附近,对其词性和词 本身进行分析,具体分析流程如下:
[0046] 对于语料集T中每一个分好词的句子,例如句子"轻薄的机身很漂亮。"分词以及 词性标注的结果为{ "轻薄/adj" "的/de" "机身/η" "很/d" "漂亮/adj" "。/wp"};其 中本句所对应的评价对象是"机身"。首先我们遍历句子,去掉词性标注为wp的标点符号, 同时将属于比较词、主张词和程度副词的词语的词性标注改成cmp,aw和adv ;得到集合如 下{ "轻薄/adj" "的/de" "机身/η" "很/adv" "漂亮/adj"}我们以评价对象"机身"为 中心,分别按以下方式来提取模板:
[0047] a、前两个词的词性+评价对象的词性;
[0048] b、评价对象的词性+后两个词的词性;
[0049] c、评价对象的词性+后一个词的词性;
[0050] d、前一个词的词性+评价对象的词性;
[0051] e、如果一个评价对象不是一个单独的词,而是多个词的组合,则将这些组合词的 词性按照其在句子中的出现顺序依次连接起来作为评价对象的词性形成模板;
[0052] 则以上例子提取出的模板为"adj+de+n" "n+adv+adj" "n+adv" "de+n" ;按上述 流程处理语料集T中的每一个句子,提取模板;同时计算每一个模板的出现概率,将出现概 率最高的m个模板作为词性序列模板提取出来作为posT,经多次实验,取m = 6,因此posT 的模板内容具体如表1所示:
[0053] 表1词性序列模板
[0054]
【权利要求】
1. 一种基于领域词典和语义角色的评价对象抽取方法,其特征在于,包括以下步骤: 步骤一、语料预处理:对语料集S的每一个句子按照规则(Rules)进行过滤,然后对过 滤后的句子集合进行分词、词性标注,得到语料集T ;RuleS的具体内容如下: 规则1 :去除纯英文句子; 规则2 :对句子进行"//"划分,并且使分句顺序倒置; 规则3 :对句子中用户名和网址进行删除; 规则4 :对连续出现的多个相同标点符号,用第一个标点符号进行替换,同时去除表情 标示符; 规则5 :对于微博中特殊的"#内容#",则把较短内容直接作为候选评价对象,较长内容 作为一个单独的句子另行分析; 规则6 :对句子中的代词,选择其前句或后句中的名词性主语将其替换; 步骤二、领域词典(DL)构建:首先通过对语料集T进行分析,总结出词性序列模板集合 (posT),并将posT中的每一个模板分别与T中每一个已分词的句子的词性序列进行匹配, 得到评价对象集合A ;然后对T中的每一个句子进行依存结果类型分析,通过分析评价对象 与评价词之间的依存关系类型,得到评价对象集合B;接下来通过一个基于语义角色的评 价对象提取算法,得到评价对象集合C ;最后,对集合A、B、C取并集,得到集合D,作为最终 的DL ; 所述posT的获取过程如下: 首先对语料集T中的词性标注进行替换,将属于比较词、主张词和程度副词的词语的 词性标注改成cmp,aw和adv ;对于T中的每一个句子,提取其评价对象前两个、前一个、后 两个、后一个词与评价对象的词性一起作为模板提取出来,如果评价对象不是一个单独的 词,而是由多个词的组合,则将这些组合词的词性,组合起来形成模板;按照这种规则处理 T中的所有句子,并计算每一个模板的出现概率;最后,将出现概率最高的m个模板提取出 来作为posT,m是一个大于零的自然数; 所述集合A的获取过程如下: 将posT中的每一个模板分别与T中每一个已分词的句子的词性序列进行匹配,将匹配 得到的所有词性序列中词性为η (名词)的词提取出来,去掉重复,构成集合A ; 所述集合B的获取过程如下: 对语料集T中的每个句子进行依存分析,找出与评价词集合0中的词存在ATT或SBV 关系的词作为评价对象,加入集合B,然后再选取与已知评级对象B中现存词的关系为C00 的词,也添加入B,形成最终的集合B ; 所述基于语义角色的评价对象提取算法具体内容如下: 对于句子中的评价词,如果评价词词性为动词,则选取受事者(即该动作的承受者)作 为评价对象,而如果评价词词性为形容词,则选取施事者(即该动作的发出者)作为评价对 象; 步骤三、CRFs特征选择:使用词汇特征、依存特征、相对位置特征和语义角色特征作为 CRFs的特征;所述词汇特征部分,选择当前词及其词性作为此部分特征;所述依存特征部 分,选取当前词与中心词是否存在依存关系、该依存关系的类型、当前词的父节点以及父节 点的词性作为此部分特征;所述相对位置特征部分,以当前词与评价词之间的距离是否小 于η作为本部分特征,η是一个大于零的自然数;所述语义角色特征部分,选取语义角色名 字和评价词词性作为该部分的特征; 步骤四、利用CRFs进行评价对象抽取:首先对语料集Τ进行Β,I,0标注,然后将步骤三 提取的CRFs特征、步骤二构建的DL以及BIO标注一起加入CRFs进行训练;并使用此训练 后的CRFs对步骤三提取的四部分特征和步骤二构建的DL进行评价对象识别,给出BIO分 类结果; 所述BIO标注的具体过程如下: 首先对于每一个句子,找出对应的评价对象;然后遍历该句子分词结果中的每一个词, 如果其是该句所对应的评价对象中的第一个词,则标注为B ;若其是该句所对应的评价对 象中的其他词,则标注为I ;其他情况,全部标注为〇 ; 步骤五、抽取完成,输出抽取结果0T集合,即分类结果为B或以B开头后跟若干个I的 词的组合的集合。
2. 根据权利要求1所述的一种基于领域词典和语义角色的评价对象抽取方法,其特征 在于,m = 6。
3. 根据权利要求1或2所述的一种基于领域词典和语义角色的评价对象抽取方法,其 特征在于,η = 5。
【文档编号】G06F17/30GK104268160SQ201410453074
【公开日】2015年1月7日 申请日期:2014年9月5日 优先权日:2014年9月5日
【发明者】冯冲, 廖纯, 杨森, 黄河燕 申请人:北京理工大学