情绪触发事件的抽取方法
【专利摘要】本发明公开了一种情绪触发事件的抽取方法,包括以下步骤,语料处理过程:将每个篇章按标点符号分成若干子句;根据每个子句与情绪触发事件的关系,对每个子句进行标注;特征提取及训练过程:提取训练语料中的子句的特征;针对训练语料中的所有子句训练出分类器;情绪触发事件抽取过程:将待抽取的篇章按标点符号分成若干子句;抽取每个子句的特征;用训练出的分类器对每个子句进行分类,判断其是否为情绪触发事件,并将情绪触发事件的子句输出。本发明情绪触发事件的抽取方法有助于帮助自动处理和分析同情绪相关的事件,进而应用于突发事件监测、情感摘要等其他任务中,具有强大的实用价值。
【专利说明】情绪触发事件的抽取方法
【技术领域】
[0001]本发明涉及自然语言处理及模式识别【技术领域】,特别是涉及一种情绪触发事件的抽取方法。
【背景技术】
[0002]文本情绪分析是自然语言处理(NLP)研究中的一个重要研究方向。该方向旨在研究如何自动分析文本所表达的情绪及与情绪相关的信息。目前,主流的情感分析研究主要集中在情绪分类上面,该任务旨在对文本表达的情绪(例如:高兴、伤心、惊讶等)进行自动分类。然而,该任务所关注的情绪信息仅仅是情绪的类别,还是处在比较浅层的情绪信息。为了更好的理解文本表达的情绪信息,迫切需要对文本表达的关于情绪的更深层次的信息,例如,情绪的体验者、情绪的原因、情绪的结果等,进行进一步的探讨和研究。
[0003]在语言学研究方面,大多数关于情绪语言学的模型都将情绪的触发触发事件作为一个重要的组成部分。因此,研究情绪触发的触发事件可以帮助理解情绪的发展及作用的语言学机制。此外,情绪触发事件识别的 研究有助于帮助自动处理和分析同情绪相关的事件,进而应用于突发事件监测、情感摘要等其他任务中。
[0004]虽然情绪分析研究已经开展多年,但是大部分的研究主要集中在情绪识别和分类方面,对于情绪触发事件分析的研究还未开展。
【发明内容】
[0005]有鉴于此,本发明的目的在于提供一种情绪触发事件的抽取方法,在给出一些训练样本的情况下,提取基本特征、上下文特征和语言学特征,利用最大熵分类工具训练出分类器,实现对文本的情绪触发事件抽取。
[0006]本发明的基本思想是:
[0007]首先,对已有的训练语料进行处理,将训练语料中的每个篇章按照标点符号(‘,’、
’、‘ ! ’)分成多个子句,并根据其是否与情绪触发事件重合或是其中的一个片段,给
出其相应标签。然后,抽取每个子句的特征,包括基本特征,上下文特征和语言学特征,利用最大熵分类工具训练分类器。最后,将需要进行情绪触发事件抽取的篇章按标签符号(‘,’、’)分成多个子句,用训练出的分类器对每个子句进行分类,判断其是否为情绪触发事件,将分类结果为I的子句作为情绪触发事件输出。
[0008]为了实现上述目的,本发明实施例提供的技术方案如下:
[0009]一种情绪触发事件的抽取方法,所述方法包括以下步骤,
[0010]S1、语料处理过程:
[0011]SI 1、将每个篇章按标点符号分成若干子句;
[0012]S12、根据每个子句与情绪触发事件的关系,对每个子句进行标注;
[0013]S2、特征提取及训练过程:
[0014]S21、提取训练语料中的子句的特征;[0015]S22、针对训练语料中的所有子句训练出分类器;[0016]S3、情绪触发事件抽取过程:
[0017]S31、将待抽取的篇章按标点符号分成若干子句;
[0018]S32、抽取每个子句的特征;
[0019]S33、用训练出的分类器对每个子句进行分类,判断其是否为情绪触发事件,并将情绪触发事件的子句输出。
[0020]作为本发明的进一步改进,所述步骤SI I和S31中的标点符号包括、
![0021]作为本发明的进一步改进,所述步骤S21和S32中子句的特征包括:基本特征,上下文特征和语言学特征。
[0022]作为本发明的进一步改进,所述基本特征包括:名词、动词、名词个数、动词个数。
[0023]作为本发明的进一步改进,所述上下文特征包括前一个子句和后一个子句的基本特征。
[0024]作为本发明的进一步改进,所述语言学特征为语言学规则产生的特征,所述语言学规则包括:
[0025]规则1:情绪词后面出现‘而’、‘因此’、‘于是’、‘就’、‘所以’、‘便’、‘使’、‘将’这
样的触发词,将触发词后面的子句识别成情绪触发事件;
[0026]规则2:情绪词后面紧跟着“的”、“地”、“得”,而且后面是动词,则该动词为情绪触
发事件。
[0027]作为本发明的进一步改进,所述步骤S12具体为:
[0028]若子句与情绪触发事件重合或是情绪触发事件中的一个片段,则该子句标注为1,否则标注为O。
[0029]作为本发明的进一步改进,所述步骤S33具体为:
[0030]用训练出的分类器对每个子句按标注I和O进行分类,标注为I的为情绪触发事件,将分类结果为I的子句作为情绪触发事件输出。
[0031]作为本发明的进一步改进,所述步骤S22中分类器的训练采用最大熵分类工具。
[0032]本发明具有以下有益效果:
[0033]本发明情绪触发事件的抽取方法有助于帮助自动处理和分析同情绪相关的事件,进而应用于突发事件监测、情感摘要等其他任务中,具有强大的实用价值。
【专利附图】
【附图说明】
[0034]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0035]图1为本发明情绪触发事件的抽取方法的流程示意图;
[0036]图2为本发明一【具体实施方式】中在不同规模的标注数据下的实验结果。
【具体实施方式】[0037]为了使本【技术领域】的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0038]本发明主要实现对文本进行情绪触发事件提取的任务,为该任务建立分类模型,将之转化为子句的分类问题。目前尚未有情绪触发事件提取的研究,该项任务有助于帮助自动处理和分析同情绪相关的事件,进而应用于突发事件监测、情感摘要等其他任务中,具有强大的实用价值。
[0039]为了便于叙述,先将本发明涉及的常用的术语与标记介绍如下:
[0040]定义1:篇章(section):用来训练或判断的文本,文本长度不限,常由多个子句组成。
[0041]定义2:子句(clause):用标点符号(‘,’、‘。’、‘?’、‘! ’)分割篇章得到,作为本
发明中分类的基本单位。
[0042]定义3:情绪触发事件(emotional triggers):由于某种情绪而产生的事件,情绪和事件之间具有因果联系。
[0043]定义4:情绪触发事件抽取(emotional triggers extraction):输入是一个文本,输出是该文本中的情绪触发事件。
[0044]本发明的核心思想就是为该任务建立分类模型,将篇章按照标点符号、‘?’、‘!’)分成多个子句,对每个子句建立新的标签,若其与情感触发事件重合或是其中一部分,则标注为1,否则为O。对篇章情绪触发事件的抽取转化为对其子句的分类问题,将分类结果为I的子句输出作为篇章的情绪触发事件。
[0045]本发明情绪触发事件的抽取方法具体步骤如下:
[0046]S1、语料处理过程:
[0047]SI 1、将每个篇章按标点符号’、‘ ! ’)分成若干子句;
[0048]S12、根据每个子句与情绪触发事件的关系,对每个子句进行标注。若子句与情绪触发事件重合或是情绪触发事件中的一个片段,则该子句标注为I,否则标注为O ;
[0049]S2、特征提取及训练过程:
[0050]S21、提取训练语料中的子句的特征,包括基本特征,上下文特征和语言学特征;
[0051]S22、针对训练语料中的所有子句采用最大熵分类工具训练出分类器;
[0052]S3、情绪触发事件抽取过程:
[0053]S31、将待抽取的篇章按标点符号’、‘ ! ’)分成若干子句;
[0054]S32、抽取每个子句的特征,包括基本特征,上下文特征和语言学特征;
[0055]S33、用训练出的分类器对每个子句进行分类,判断其是否为情绪触发事件,并将情绪触发事件的子句输出。具体为:用训练出的分类器对每个子句按标注I和O进行分类,标注为I的为情绪触发事件,将分类结果为I的子句作为情绪触发事件输出。
[0056]结合图1所示,本发明一【具体实施方式】中,情绪触发事件的抽取方法主要由语料处理过程,特征提取及训练过程,触发事件抽取过程组成。
[0057]语料处理过程,对原始语料进行处理,原始语料由篇章组成,具有篇章的情绪与其对应的情绪触发事件的标注。语料处理过程将原始语料中的篇章按照标点符号‘?’、‘!’)分成多个子句,根据原始语料对情绪触发事件的标注进行判断,从而对每个子句进行新的标注,若当前子句与情绪触发事件重合或是其中的一个片段,则标注其为1,否则标注为O。
[0058]特征提取及训练过程,对训练语料中的子句进行特征提取,特征主要包括基本特征,上下文特征和语言学特征,基本特征主要是词特征,本发明中选取子句的名词,动词,名词个数,动词个数作为基本特征。上下文特征主要是前一个子句和后一个子句的基本特征。语言学特征主要是相应语言学规则产生的特征。训练过程利用最大熵分类工具训练出分类器。
[0059]触发事件抽取过程,将需要进行情绪触发事件抽取的篇章按照标点符号(‘,’、
’)分成多个子句,用训练好的分类器对子句进行分类,将分类结果为I的子句作为情绪触发事件输出。
[0060]下面详细说明本发明方法所涉及的各个细节问题。
[0061]1.基本特征
[0062]基本特征主要是词特征,本发明中的基本特征主要选取名词,动词,名词个数,动词个数这四种特征,具体解释见表1:
[0063]表1:基本特征
[0064]
【权利要求】
1.一种情绪触发事件的抽取方法,其特征在于,所述方法包括以下步骤, 51、语料处理过程: 511、将每个篇章按标点符号分成若干子句; 512、根据每个子句与情绪触发事件的关系,对每个子句进行标注; 52、特征提取及训练过程: 521、提取训练语料中的子句的特征; 522、针对训练语料中的所有子句训练出分类器; 53、情绪触发事件抽取过程: 531、将待抽取的篇章按标点符号分成若干子句; 532、抽取每个子句的特征; 533、用训练出的分类器对每个子句进行分类,判断其是否为情绪触发事件,并将情绪触发事件的子句输出。
2.根据权利要求1所述的方法,其特征在于,所述步骤Sll和S31中的标点符号包括i y i y ? y ? I y?Λ0Λ.Λ.0
3.根据权利要求1所述的方法,其特征在于,所述步骤S21和S32中子句的特征包括:基本特征,上下文特征和语言学特征。
4.根据权利要求3所述的方法,其特征在于,所述基本特征包括:名词、动词、名词个数、动词个数。
5.根据权利要求4所述的方法,其特征在于,所述上下文特征包括前一个子句和后一个子句的基本特征。
6.根据权利要求3所述的方法,其特征在于,所述语言学特征为语言学规则产生的特征,所述语言学规则包括: 规则1:情绪词后面出现‘而’、‘因此’、‘于是’、‘就’、‘所以’、‘便’、‘使’、‘将’这样的触发词,将触发词后面的子句识别成情绪触发事件; 规则2:情绪词后面紧跟着“的”、“地”、“得”,而且后面是动词,则该动词为情绪触发事件。
7.根据权利要求1所述的方法,其特征在于,所述步骤S12具体为: 若子句与情绪触发事件重合或是情绪触发事件中的一个片段,则该子句标注为1,否则标注为O。
8.根据权利要求7所述的方法,其特征在于,所述步骤S33具体为: 用训练出的分类器对每个子句按标注I和O进行分类,标注为I的为情绪触发事件,将分类结果为I的子句作为情绪触发事件输出。
9.根据权利要求1所述的方法,其特征在于,所述步骤S22中分类器的训练采用最大熵分类工具。
【文档编号】G06F17/27GK103530283SQ201310513634
【公开日】2014年1月22日 申请日期:2013年10月25日 优先权日:2013年10月25日
【发明者】李寿山, 高伟, 周国栋 申请人:苏州大学