一种基于局部信息表示的细粒度情感元素抽取方法与流程

文档序号:13297342阅读:248来源:国知局
本发明涉及细粒度情感元素抽取,具体涉及一种基于局部信息表示的细粒度情感元素抽取方法。
背景技术
::细粒度情感元素抽取旨在从文本中抽取出评价持有者、评价对象和评价表达(如图1)。评价持有者是文本中发出观点的实体;评价表达是指文本中代表情绪、情感、意见或其他个人状态的主观表述,通常以形容词或形容词短语形式出现,如“漂亮”,“不大高兴”;评价对象是指文本中被讨论的主题,具体表现为文本中评价表达所修饰的对象。由于产品评论和社交网络文本中大多带有明确的用户id信息,因而对评价持有者抽取研究相对淡化,学术界将更多的精力放到评价对象抽取和评价表达抽取任务上。目前用来抽取评价对象和评价表达的方法主要分为两类:(1)基于句法规则匹配的方法。例如:qiu等人[1]采用了一种称为双向传播的算法(doublepropagation),通过使用依存句法分析器获取情感词与评价对象的关系,并在两者之间传播信息,在迭代过程中对种子情感词进行bootstraping来扩充情感词集并抽取出评价对象。(2)基于有指导的机器学习算法。在基于机器学习的算法中,细粒度情感元素抽取通常被当作字符级别序列标注问题。具有代表性的机器学习算法包括基于特征的crf算法[2]和基于神经网络的序列标注算法[3][4][5]。由于前者较为依赖专家编写的特征模板和手工情感词典等外部特征,并且领域通用性弱,基于神经网络的表示学习算法受到了更多的青睐,例如irosy等人[3]将词向量特征应用到深层循环神经网络结构,用来抽取评价表达。liu等人[4]在基于lstm的循环神经网络中实验了多种类型的词向量特征,证明了其在评价对象抽取任务上的有效性。通过观察lstm循环神经网络的评价对象抽取结果,我们发现:一方面,它在抽取类似“setup”等存在一词多义的短语时,不能很好地利用紧随其后的单词信息(如“is”等be动词),导致短语词性判断错误、抽取结果缺漏较多;另一方面,由于评价对象一般较短,相邻词表征的局部信息对判断当前词是否是评价对象的一部分至关重要。技术实现要素:本发明的目的是为了解决现有的细粒度情感元素抽取方法当抽取评价对象时,不能很好地利用紧随其后的单词,导致短语词性判断错误、抽取结果缺漏较多,并且难以判断当前词是否是评价对象一部分的缺点,而提出一种基于局部信息表示的细粒度情感元素抽取方法。一种基于局部信息表示的细粒度情感元素抽取方法,包括:步骤一、将预设窗口大小中的每一个单词通过lookuptable查找词特征的向量表示,将得到的词向量分别输入至lstm模型中;并将所述得到的词向量组合为一个向量输入至前馈神经网络模型中;步骤二、将lstm模型隐层特征表示ht以及前馈神经网络模型的局部上下文特征表示hlr进行拼接,得到拼接后的结果hcon:hcon=[ht,hlr]步骤三、将hcon送入输出层使用softmax函数作标签分类。本发明还提供了另一种基于局部信息表示的细粒度情感元素抽取方法,包括:步骤一、将预设窗口大小中的每一个单词通过lookuptable查找词特征的向量表示,将得到的词向量分别输入至含有双向循环结构的blstm模型中;并将所述得到的词向量组合为一个向量输入至前馈神经网络模型中;步骤二、将blstm模型隐层的正向特征表示和反向特征表示进行拼接组成隐层特征表示ht,并将隐层特征表示ht与前馈神经网络模型的局部上下文特征表示hlr进行拼接,得到拼接后的结果hcon:hcon=[ht,hlr]步骤三、将hcon送入输出层使用softmax函数作标签分类。本发明的有益效果为:1、当抽取一词多义的短语时,考虑到短语的上下文,能够更为准确地判断词性,抽取结果的准确度更高;2、能够更准确地判断当前词是否是评价对象一部分;3、本发明当使用lstm模型时,在laptop数据集的f1值能够达到73.49;本发明当使用blstm模型时,在restaurant数据集的f1值能够达到80.62。附图说明图1为针对例句“软粉告诉我,这次win10创意者更新很酷”的抽取结果;图2为具体实施方式一的基于局部信息表示的细粒度情感元素抽取方法的示意图;其中softmax表示用于作标签分类的函数;“hidden”、“linear”、“lookup”、“tanh”为lstm模型和前馈神经网络中的相应层,属于领域内常用的表达形式;“creatorupdateis”是选用的英文例句中的连续三个单词。图3为具体实施方式四的基于局部信息表示的细粒度情感元素抽取方法的示意图;图4为具体实施方式一的流程图。具体实施方式具体实施方式一:本实施方式的基于局部信息表示的细粒度情感元素抽取方法,包括:步骤一、将预设窗口大小中的每一个单词通过lookuptable查找词特征的向量表示,将得到的词向量分别输入至lstm模型中;并将所述得到的词向量组合为一个向量输入至前馈神经网络模型中;步骤二、将lstm模型隐层特征表示ht以及前馈神经网络模型的局部上下文特征表示hlr进行拼接,得到拼接后的结果hcon:hcon=[ht,hlr]步骤三、将hcon送入输出层使用softmax函数作标签分类,得到分类结果。本文的方法也将评价对象抽取看作一个序列标注任务,即对每一个单词预测其是否为一个评价对象的一部分。模型首先使用一个lstm循环网络来计算长距离文本依赖信息,对于每一个单词输入,获得其隐层输出的特征表示ht。同时,我们用一个单独的前馈神经网络来计算局部上下文特征表示hlr。模型的结构框图如图2所示:最终,将两部分的隐层表示拼接为hcon。hcon=[ht,hlr]hcon作为充分考虑局部信息的当前词特征表示,被送入输出层使用softmax函数作标签分类。需要说明的是,这里ht和hlr的过程可以分别独立进行,只在输出层结合,这意味着在训练过程中,当误差从输出层传播到前馈神经网络结构和lstm神经网络结构时,可以对两种网络结构独立进行误差反向传播。具体实施方式二:本实施方式与具体实施方式一不同的是:softmax函数中,每个标签计算结果p(yt=k|s,θ)的表达式为:其中,表示最后一个隐含层到输出层的权重,k表示某一标签类别,k表示所有可能的标签集合,s,θ分别表示当前句子及模型参数,yt表示当前预测的标签结果。其它步骤及参数与具体实施方式一相同。具体实施方式三:本实施方式与具体实施方式一或二不同的是:预设窗口的大小为3。对于用来学习局部信息的前馈神经网络,试验了不同窗口大小的词向量输入,发现窗口大小为3(上一个词,当前词,下一个词)时抽取效果最优。所以对于局部信息表示模型,窗口大小统一设置为3。其它步骤及参数与具体实施方式一或二相同。具体实施方式四:本实施方式提供一种基于局部信息表示的细粒度情感元素抽取方法,包括:步骤一、将预设窗口大小中的每一个单词通过lookuptable查找词特征的向量表示,将得到的词向量分别输入至含有双向循环结构的blstm模型中;并将所述得到的词向量组合为一个向量输入至前馈神经网络模型中;步骤二、将blstm模型隐层的正向特征表示和反向特征表示进行拼接组成隐层特征表示ht,并将隐层特征表示ht与前馈神经网络模型的局部上下文特征表示hlr进行拼接,得到拼接后的结果hcon:hcon=[ht,hlr]步骤三、将hcon送入输出层使用softmax函数作标签分类,得到分类结果。本实施方式与具体实施方式一的不同之处在于,将lstm模型替代为含有双向循环结构的blstm模型,相应地,其中,隐层特征表示ht是由blstm模型隐层的正向特征表示和反向特征表示进行拼接组成的。而前馈神经网络模型的部分不做改变。如图3所示。具体实施方式五:本实施方式与具体实施方式一至四之一不同的是:softmax函数中,每个标签计算结果p(yt=k|s,θ)的表达式为:其中,表示最后一个隐含层到输出层的权重,k表示某一标签类别,k表示所有可能的标签集合,s,θ分别表示当前句子及模型参数,yt表示当前预测的标签结果。其它步骤及参数与具体实施方式四相同。具体实施方式六:本实施方式与具体实施方式四或五不同的是:预设窗口的大小为3。其它步骤及参数与具体实施方式四或五相同。<实施例>一、实验数据及评价标准本文使用semeval2014aspectbasedsentimentanalysis[6]提供的laptop和restaurant数据集作为实验数据。数据集的大小如下表1所示:表1:semeval2014absa任务数据集我们采用了与semeval2014评测任务相同的评价方法,即根据评价对象标记完全匹配的情况时的f1值来评价抽取结果。候选评价对象只有与人工标注评价对象完全匹配时才算正确。二、训练参数设置实验中,我们使用了50维的senna词向量和300维的google词向量作为输入,并在训练过程中更新词向量。我们用unknown代替在训练数据中出现次数少于5次的单词,用digit代替数字。对于用来学习局部信息的前馈神经网络,我们试验了不同窗口大小的词向量输入,发现窗口大小为3(上一个词,当前词,下一个词)时抽取效果最优。所以对于局部信息表示模型,窗口大小统一设置为3。我们从训练集中随机匀出10%的数据作为验证集,我们选择在验证集上表现最好的模型分类测试数据。三、实验结果表2:基于lstm的模型和crf基准模型在semeval2014absa数据集的抽取结果的f1值从表中可以看出,考虑了局部信息的lstm+lr和blstm+lr的模型相比一般的lstm模型在laptop数据集上提升了0.09~0.77,在restaurant数据集上提升了0.73~1.1不等。表3:普通lstm模型(lstm)和融合局部信息表示的lstm模型(lstm+lr)抽取结果。[]表示抽取出的评价对象通过观察对比不同模型的抽取结果,我们发现考虑了局部信息表示的模型能很好地解决上文提到的“setup”、“trackpad”类型的问题。本文针对评价对象抽取任务,提出了基于局部信息表示的lstm循环神经网络的序列标注模型,通过额外使用一个前馈神经网络自动学习局部信息表示来提升抽取效果,并在semeval2014数据集上验证了模型的有效性。虽然本发明只在评价对象抽取任务上进行了实验,但是本发明的模型同样可以应用在评价表达抽取任务上。本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。参考文献[1]qiug,liub,buj,etal.opinionwordexpansionandtargetextractionthroughdoublepropagation[j].computationallinguistics,2011,37(1):9-27.[2]choiy,cardiec,riloe,etal.identifyingsourcesofopinionswithconditionalrandomfieldsandextractionpatterns[c]//proceedingsoftheconferenceonhumanlanguagetechnologyandempiricalmethodsinnaturallanguageprocessing.associationforcomputationallinguistics,2005:355-362.[3]irsoyo,andclairec.opinionminingwithdeeprecurrentneuralnetworks[c]//conferenceonempiricalmethodsinnaturallanguageprocessing(emnlp2014).2014.[4]liup,jotys,mengh.fine-grainedopinionminingwithrecurrentneuralnetworksandwordembeddings[c]//conferenceonempiricalmethodsinnaturallanguageprocessing(emnlp2015).2015.[5]mesnilg,hex,dengl,etal.investigationofrecurrent-neural-networkarchitecturesandlearningmethodsforspokenlanguageunderstanding[c]//interspeech.2013:3771-3775.[6]pontikim,galanisd,pavlopoulosj,etal.semeval-2014task4:aspectbasedsentimentanalysis[c]//proceedingsofthe8thinternationalworkshoponsemanticevaluation(semeval2014).2014:27-35.当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1