情感信息的提取方法及装置与流程

文档序号:11432219阅读:221来源:国知局
情感信息的提取方法及装置与流程

本发明涉及自然语言处理技术领域,尤其涉及一种情感信息的提取方法及装置。



背景技术:

随着互联网的飞速发展,人们越来越多地在网络上表达自己的观点与情感,这类文本往往以商品评论、论坛评论、博客的形式存在,并且大部分文本能很好的反映人们的看法和意见。而通过人工的方法来分析这些海量文本中的情感信息需要耗费大量的时间,人力和物力,在这种背景下,情感分析技术应运而生,并在自然语言处理研究领域得到了广大研究者的关注,具有很大的应用价值。而情感分析技术研究主要集中于情感信息提取工作,即提取文本信息中的:评价词语(polarityword)和评价对象(opiniontarget)。评价词语即情感词,指带有情感色彩的词语,在情感信息抽取中起着非常重要的作用。评价对象指某段评论中所讨论的主题,具体表现为评论文本中评价词语所修饰的对象。

目前,现有的情感信息抽取方法主要分为两类:人工构建和关联规则挖掘。而现有的两类方法对情感评价对象抽取来说,主要存在以下问题:人工构建的方法相当耗时耗力,并且构建出来的评价对象集合,对新出现的对象不能很好的识别;基于关联规则的抽取方法没有充分考虑短语评价对象的结构特征以及评价对象的领域相关性,会产生很多的噪声。



技术实现要素:

鉴于上述问题,提出了本发明,以便提供一种克服上述问题或者至少部分地解决上述问题的情感信息的提取方法及装置。

为达到上述目的,本发明主要提供如下技术方案:

一方面,本发明实施例提供了一种情感信息的提取方法,该方法包括:

获取待提取情感信息的语料;

通过情感词典对概率标注模型进行修正;

根据所述修正的概率标注模型对所述语料进行标签标注,所述标注的标签中包括评价对象标签和情感词标签;

从所述语料的标注结果中提取所述评价对象标签对应的词语和所述情感词标签对应的词语。

另一方面,本发明实施例还提供一种情感信息的提取装置,该装置包括:

获取单元,用于获取待提取情感信息的语料;

修正单元,用于通过情感词典对概率标注模型进行修正;

标注单元,用于根据所述修正的概率标注模型对所述语料进行标签标注,所述标注的标签中包括评价对象标签和情感词标签;

提取单元,用于从所述语料的标注结果中提取所述评价对象标签对应的词语和所述情感词标签对应的词语。

借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:

本发明实施例提供的一种情感信息的提取方法及装置,首先获取待提取情感信息的语料,然后通过情感词典对概率标注模型进行修正,再根据所述修正的概率标注模型对所述语料进行标签标注,所述标注的标签中包括评价对象标签和情感词标签,最后从所述语料的标注结果中提取所述评价对象标签对应的词语和所述情感词标签对应的词语。与目前通过人工构建方法或关联规则挖掘方法进行提取情感信息相比,本发明实施例通过使用情感词典指导概率标注模型的方式,提高概率标注模型中标注数据的准确性,且使用情感词典指导概率标注模型的方法能够有效利用评价对象的上下文环境,有效的建立了评价对象和情感词之间的对应关系,另外使用概率标注模型有效的减少了人工工作的成本,因此通过本发明实施例可以提高概率标注的准确性,从而提高了情感信息提取的准确性。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1为本发明实施例提供的一种情感信息的提取方法流程图;

图2为本发明实施例提供的另一种情感信息的提取方法流程图;

图3为本发明实施例提供的一种情感信息的提取装置的组成框图;

图4为本发明实施例提供的另一种情感信息的提取装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明作详细说明。

本发明实施例提供了一种情感信息的提取方法,如图1所示,所述方法包括:

101、获取待提取情感信息的语料。

其中,所述待提取情感信息的语料具体可以为商品评论、论坛评论、博客等带有情感语气的文本数据,本发明实施例不做具体限定。

102、通过情感词典对概率标注模型进行修正。

对于本发明实施例,通过情感词典对概率标注模型进行修正具体可以为:首先根据情感词典对待提取情感信息的语料进行标注情感词标签,即标注出待提取情感信息语料中和情感词典对应的词语标签,然后将通过情感词典标注的待提取情感信息的语料送入概率标注模型中,根据待提取情感信息语料中已标注的情感词标签,及情感词的上下文等信息指导概率标注模型,即通过情感词典在待提取情感信息语料中标注的情感词标签对概 率标注模型进行修正,从而使得概率标注模型更加准确,进而提高了语料标准的准确性。

例如,当一个句子中存在情感词典中的一个词语时,该词语的标签将不通过概率标注模型来确定,而是直接打上情感词标签,然后将打上情感词标签的句子送入到概率标注模型中,并且在概率标注模型计算其他标签时,要考虑通过情感词典标注情感词标签的上下文信息,以减少将其他副词或者形容词打上情感词标签的可能性,同时降低了当前词语满足特征被打上情感词之外的其他标签的概率。从而使得概率标注模型更加准确,进而提高了对待提取情感信息的语料标注标签的准确性。

103、根据所述修正的概率标注模型对所述语料进行标签标注。

其中,所述标注的标签中包括评价对象标签和情感词标签,情感词标签指带有情感色彩的词语,在情感信息抽取中起着非常重要的作用,评价对象标签是抽取待提取情感信息的语料中情感表达所面向的对象,该任务是情感信息抽取任务研究最为广泛的一项任务。在本发明实施例中,标注的标签中除了包括评价对象标签和情感词标签,还包括连接词标签、标点符号标签、助词标签等,本发明实施例不做具体限定。

在本发明实施例中,对所述语料进行标注的标签为表1中的标签模型集合,其中通过标签名称sbv和vob表示评价对象标签,标签名称ob表示情感词标签。需要说明的是,通过本发明标注的评价对象标签中包括评价对象和感情词的对应关系,如sbv表示评价对象位于情感词前,构成评价对象-评价词语结构;vob表示评价对象位于情感词后,构成评价词语-评价对象结构。从而通过本发明实施例标注的标签,可以更准确地建立评价词语和评价对象之间的对应关系,提高概率标注的准确性。

表1

104、从所述语料的标注结果中提取所述评价对象标签对应的词语和所述情感词标签对应的词语。

在本发明实施例中,通过步骤103标注的标签,结合标签的实际意义,将待提取情感信息语料中的sbv和vob评价对象标签抽取出来,并且将与他们对应的ob标签抽取出来,从而完成了评价对象与情感词的抽取工作。本发明实施例通过使用情感词典指导概率标注模型的方式,提高概率标注模型中数据标注的准确性,且使用情感词典指导概率标注模型的方法能够有效利用评价对象的上下文环境,有效的建立评价对象和情感词之间的对应关系,另外使用概率标注模型有效的减少了人工工作的成本,因此通过本发明实施例可以提高概率标注的准确性,从而提高了情感信息提取的准确性。

本发明实施例提供的一种情感信息的提取方法,首先获取待提取情感信息的语料,然后通过情感词典对概率标注模型进行修正,再根据所述修正的概率标注模型对所述语料进行标签标注,所述标注的标签中包括评价对象标签和情感词标签,最后从所述语料的标注结果中提取所述评价对象标签对应的词语和所述情感词标签对应的词语。与目前通过人工构建方法或关联规则挖掘方法进行提取情感信息相比,本发明实施例通过使用情感词典指导概率标注模型的方式,提高概率标注模型中标注数据的准确性,且使用情感词典指导概率标注模型的方法能够有效利用评价对象的上下文环境,有效的建立了评价对象和情感词之间的对应关系,另外使用概率标注模型有效的减少了人工工作的成本,因此通过本发明实施例可以提高概率标注的准确性,从而提高了情感信息提取的准确性。

本发明实施例提供了另一种情感信息的提取方法,如图2所示,所述 方法包括:

201、获取待提取情感信息的语料。

其中,所述待提取情感信息的语料具体可以为商品评论、论坛评论、博客等带有情感语气的文本数据,本发明实施例不做具体限定。

202、通过情感词典对条件随机场模型进行修正。

对于本发明实施例,步骤202包括:查询所述语料中与所述情感词典中相同的词语;将所述相同的词语标注上所述情感词标签;通过所述情感词典标注的情感词标签及所述情感词标签对应的上下文信息修正所述条件随机场模型。

在本发明实施例中,通过情感词典对概率标注模型进行修正具体可以为:首先查询语料中与所述情感词典中相同的词语,然后将相同的词语标注上情感词标签,即标注出待提取情感信息语料中和情感词典对应的词语标签,接着将通过情感词典标注情感词标签的语料送入概率标注模型中,最后根据待提取情感信息语料中已标注的情感词标签,及情感词的上下文等信息指导概率标注模型,即通过情感词典在待提取情感信息语料中标注的情感词标签对概率标注模型进行修正,从而使得概率标注模型更加准确,进而提高了语料标准的准确性。

203、根据所述修正的条件随机场模型对所述语料进行标签标注。

其中,所述条件随机场模型为所述概率标注模型中的一种,所述标注的标签中包括评价对象标签和情感词标签,情感词标签指带有情感色彩的词语,在情感信息抽取中起着非常重要的作用,评价对象标签是抽取待提取情感信息的语料中情感表达所面向的对象,该任务是情感信息抽取任务研究最为广泛的一项任务。在本发明实施例中,标注的标签中除了包括评价对象标签和情感词标签,还包括连接词标签、标点符号标签、助词标签等,本发明实施例不做具体限定。

需要说明的是,由于条件随机场模型既具有判别式模型的优点,又具有产生式模型的优点,考虑语料上下文中标注的标签间的转移概率并进行全局参数优化,解决了其他判别式模型难以避免的标记偏置问题,因此条件随机场模型能够更有效的应用于垂直领域的评价关系抽取中。另外条件 随机场模型可以单字为特征,结合上下文语义特征、及词性和边界组合特征、依存句法特征构成条件随机场模型的特征函数,完成概率标注模型的模型训练过程,从而通过条件随机场模型可以提高语料标签标注的准确性。

对于本发明实施例,所述根据所述修正的条件随机场模型对所述语料进行标签标注之前,所述方法还包括:对训练语料进行分词处理;通过预置标签模型集合,结合所述训练语料的上下文语义特征、单字特征及分词词性与词性的边界位置的结合特征对所述训练语料进行标签标注;其中,所述预置标签模型集合中包括所述评价对象标签和所述情感词标签,所述评价对象标签中包含有评价所述评价对象的情感词的位置信息;根据所述标注标签的训练语料生成所述条件随机场模型。在本法发明实施例中,对训练语料进行分词处理是指将训练语料切分成一个一个单独的词,就是将连续的字序列按照一定的规范重新组合成词序列的过程,然后获取重新组合的词序列的词性。如“我喜欢旅游”分词后变为:我/r,喜欢/a,旅游/n,其中,“r”表示代词、“a”表示形容词、“n”表示名词。

需要说明的是,由于选用词和词性作为特征,较多依赖于分词和词性标注的准确率,尤其对于一些不规则语料来说分词效果较差导致标注的准确率很低。因此本发明实施例采用单字特征,结合分词结果中每个字的上下文语义,及分词词性与词性的边界位置特征对所述训练语料进行标签标注,缓解了分词和词性标注的不准确对标注结果产生的影响,从而可以提高训练语料标注的准确性。例如,对“性价比较高”按照词性进行分词并进行词性标注的结果为:性价/n、比较/v、高/a,其中,n表示名词、v表示动词、a表示形容词。而通过本发明采用的[词性+边界]组合特征,同时将上下文语义关系考虑在内,可将上述语句标注成:性价比/sbv、较高/ob。

对于本发明实施例,所述预置标签模型集合中的标签可以根据语句划分的实际情况进行配置的,也可以由系统默认配置,本发明实施例不做具体限定。在本发明实施例中,标注的标签中除了包括评价对象标签和情感词标签,还包括连接词标签、标点符号标签、助词标签等,本发明实施例不做具体限定。对所述语料进行标注的标签为表1中的标签模型集合,其中通过标签名称sbv和vob表示评价对象标签,标签名称ob表示情感 词标签。需要说明的是,通过本发明标注的评价对象标签中包括评价对象和感情词的对应关系,如sbv表示评价对象位于情感词前,构成评价对象-评价词语结构;vob表示评价对象位于情感词后,构成评价词语-评价对象结构。并通过评价词语和评价对象之间的对应关系,利用已知情感词典指导评价对象的标注。从而通过本发明实施例标注的标签,可以提高概率标注的准确性。

204、从所述语料的标注结果中提取标注所述评价对象标签的词语和与所述评价对象标签对应的情感词标签的词语。

在本发明实施例中,通过步骤203标注的标签,结合标签的实际意义,将待提取情感信息语料中的sbv和vob评价对象标签抽取出来,并且将与他们对应的ob标签抽取出来,从而完成了评价对象与情感词的抽取工作。本发明实施例通过使用情感词典指导概率标注模型的方式,提高概率标注模型中标注数据的准确性,且使用情感词典指导概率标注模型的方法能够有效利用评价对象的上下文环境,有效的建立评价对象和评价词之间的对应关系,另外使用概率标注模型有效的减少了人工工作的成本,因此通过本发明实施例可以提高概率标注的准确性,从而提高了情感信息提取的准确性。

本发明实施例提供的另一种情感信息的提取方法,首先获取待提取情感信息的语料,然后通过情感词典对概率标注模型进行修正,再根据所述修正的概率标注模型对所述语料进行标签标注,所述标注的标签中包括评价对象标签和情感词标签,最后从所述语料的标注结果中提取所述评价对象标签对应的词语和所述情感词标签对应的词语。与目前通过人工构建方法或关联规则挖掘方法进行提取情感信息相比,本发明实施例通过使用情感词典指导概率标注模型的方式,提高概率标注模型中标注数据的准确性,且使用情感词典指导概率标注模型的方法能够有效利用评价对象的上下文环境,有效的建立了评价对象和情感词之间的对应关系,另外使用概率标注模型有效的减少了人工工作的成本,因此通过本发明实施例可以提高概率标注的准确性,从而提高了情感信息提取的准确性。

进一步地,本发明实施例提供一种情感信息的提取装置,如图3所示, 所述装置包括:获取单元31、修正单元32、标注单元33、提取单元34。

获取单元31,用于获取待提取情感信息的语料;

修正单元32,用于通过情感词典对概率标注模型进行修正;

标注单元33,用于根据所述修正的概率标注模型对所述语料进行标签标注,所述标注的标签中包括评价对象标签和情感词标签;

提取单元34,用于从所述语料的标注结果中提取所述评价对象标签对应的词语和所述情感词标签对应的词语。

需要说明的是,本发明实施例提供的一种情感信息的提取装置所涉及各功能单元的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。

本发明实施例提供的一种情感信息的提取装置,首先获取待提取情感信息的语料,然后通过情感词典对概率标注模型进行修正,再根据所述修正的概率标注模型对所述语料进行标签标注,所述标注的标签中包括评价对象标签和情感词标签,最后从所述语料的标注结果中提取所述评价对象标签对应的词语和所述情感词标签对应的词语。与目前通过人工构建方法或关联规则挖掘方法进行提取情感信息相比,本发明实施例通过使用情感词典指导概率标注模型的方式,提高概率标注模型中标注数据的准确性,且使用情感词典指导概率标注模型的方法能够有效利用评价对象的上下文环境,有效的建立了评价对象和情感词之间的对应关系,另外使用概率标注模型有效的减少了人工工作的成本,因此通过本发明实施例可以提高概率标注的准确性,从而提高了情感信息提取的准确性。

进一步地,本发明实施例提供另一种情感信息的提取装置,如图4所示,所述装置包括:获取单元41、修正单元42、标注单元43、提取单元44。

获取单元41,用于获取待提取情感信息的语料;

修正单元42,用于通过情感词典对概率标注模型进行修正;

标注单元42,用于根据所述修正的概率标注模型对所述语料进行标签标注,所述标注的标签中包括评价对象标签和情感词标签;

提取单元44,用于从所述语料的标注结果中提取所述评价对象标签对应的词语和所述情感词标签对应的词语。

对于本发明实施例,所述概率标注模型为条件随机场模型,所述条件随机场模型为所述概率标注模型中的一种。

所述修正单元42,具体用于通过情感词典对条件随机场模型进行修正;

所述标注单元43,具体用于通过所述修正的条件随机场模型对所述语料进行标签标注。

对于本发明实施例,所述装置还包括:分词单元45,生成单元46;

所述分词单元45,用于对训练语料进行分词处理;

所述标注单元43,还用于通过预置标签模型集合,结合所述训练语料的上下文语义特征,单字特征及分词词性与词性的边界位置的结合特征对所述训练语料进行标签标注;其中,所述预置标签模型集合中包括所述评价对象标签和所述情感词标签,所述评价对象标签中包含有评价所述评价对象的情感词的位置信息;

所述生成单元46,用于根据所述标注标签的训练语料生成所述条件随机场模型。

对于本发明实施例,所述标注单元43包括:

查询模块431,用于查询所述语料中与所述情感词典中相同的词语;

标注模块432,用于将所述相同的词语标注上所述情感词标签;

确定模块433,用于通过所述情感词典标注的情感词标签及所述情感词标签对应的上下文信息修正所述条件随机场模型。

所述提取单元44,具体用于从所述语料的标注结果中提取标注所述评价对象标签的词语和与所述评价对象标签对应的情感词标签的词语。

需要说明的是,本发明实施例提供的一种情感信息统计装置所涉及各功能单元的其他相应描述,可以参考图2所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。

本发明实施例提供的另一种情感信息的提取装置,首先获取待提取情感信息的语料,然后通过情感词典对概率标注模型进行修正,再根据所述 修正的概率标注模型对所述语料进行标签标注,所述标注的标签中包括评价对象标签和情感词标签,最后从所述语料的标注结果中提取所述评价对象标签对应的词语和所述情感词标签对应的词语。与目前通过人工构建方法或关联规则挖掘方法进行提取情感信息相比,本发明实施例通过使用情感词典指导概率标注模型的方式,提高概率标注模型中标注数据的准确性,且使用情感词典指导概率标注模型的方法能够有效利用评价对象的上下文环境,有效的建立了评价对象和情感词之间的对应关系,另外使用概率标注模型有效的减少了人工工作的成本,因此通过本发明实施例可以提高概率标注的准确性,从而提高了情感信息提取的准确性。

所述情感信息的提取装置包括处理器和存储器,上述获取单元、标注单元、提取单元、分词单元和生成单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高情感信息提取的准确率。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取待提取情感信息的语料;通过情感词典对概率标注模型进行修正;根据所述修正的概率标注模型对所述语料进行标签标注,所述标注的标签中包括评价对象标签和情感词标签;从所述语料的标注结果中提取所述评价对象标签对应的词语和所述情感词标签对应的词语。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁 盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1