一种文本概念图构造方法与流程

文档序号:19310494发布日期:2019-12-03 23:27阅读:324来源:国知局
一种文本概念图构造方法与流程

本发明涉及一种文本概念图构造方法,特别是一种基于关系融合的文本概念图构造方法,属于跨语言信息检索领域。



背景技术:

信息检索是数据库存储、搜索和检索过程中的一种行为。而随着非英语内容(中文、印地语等)的快速增长,互联网不再是单一语言。随着全球经济的日益全球化,用其他语言查找信息的能力正成为一项强制性任务。在数字时代,语言的多样性正成为理解和熟悉的障碍。因此,跨语言信息检索(crosslanguageinformationretrieval,clir)一直是自然语言处理方向的重要领域,是很多应用的基础。传统的文本跨语言信息检索方法主要依赖于翻译技术,通过对源文本的翻译,在另一种语言环境中进行信息检索。近年来,基于语义的文本处理方法在很多自然语言处理领域中表现优秀。概念图结构是人工智能对知识的拓展式表示方法,单一逻辑可以很容易的被概念图表示,同时还可以对单一逻辑组合的高阶逻辑等进行形式化表示。

概念图是由sowa提出的一种有限二部图,在图中节点表示概念,节点之间由直线相连,表示概念间的关系。概念图是由概念和关系组成的有序集合,因此保留了文本中的大量信息,是一种优秀的文本表示方式。概念图是一种对文本全文的概括,它在尽可能保留文本含义的情况下用较少的显示信息表示文本全文。概念图引入了图的概念,在使用文字更少的情况下,概念图能够表达更多的信息,是对文本信息更好的抽取。概念图中特有的关系传递关系,也能让文本内容有更好的表达。同时,概念图本质上是实体和关系的三元组合的集合,这种语言结构在跨语言处理中也比自然语言构成的文本摘要更有优越性。在文本跨语言信息检索中,可以通过把组成源文本的概念图自动提取出来,通过跨语言文本的概念图相似度来检索相似文本。



技术实现要素:

针对上述现有技术,本发明要解决的技术问题是提供一种文本概念图构造方法,实现在文本跨语言信息检索中跨越语言障碍,在不经过翻译的情况下,实现语义检索的效果。

为解决上述技术问题,本发明的一种文本概念图构造方法,包括以下步骤:

s1:对检索集合中的双语语料进行预处理,并进行双语语料对齐;

s2:利用神经网络构建融合attention机制lstm网络的生成式自动摘要模型;

s3:生成融合语法树的概念图。

本发明还包括:

1.s1中预处理包括:中文语料预处理使用统计方法和词性标注法进行分词,并根据维特比算法找到使条件概率p(t|w)最大化的词性标注序列最后进行去停用词处理,其中满足:

其中,t为分词词汇序列,w为给定的未分词序列,i为第i个词汇序列,n为词汇序列的总个数;

英文语料预处理首先使用pyenchant类库进行拼写检查从而解决拼写和词汇变形问题,使用nltk类库进行对复数形式的还原,最后进行去停用词处理。

2.s1中双语语料对齐包括:双语语料库进行分别拓展,对单语语料进行构造,具体表示为:

c=cz+ce+cze

其中cz和ce分别表示对语言z和语言e的语料进行机器翻译后形成的新的平行语料,并与原生平行双语语料库cze进行合并,扩充双语语料库,用在分别对单语向量化表示进行训练,通过将平行语料进行随机词混合,将得到的混合语料作为训练数据,将双语词嵌入转换为同一语义空间的词嵌入。

3.s2中生成式自动摘要模型为rnn编码器-解码器架构,假定x表示由m字组成的输入句子序列x=[x1,...,xm],其中每个词xi是词汇集合v的一部分,大小为|v|=v,设目标序列y=[y1,...,yn],表示n个单词,其中n<m使得x的含义得以保留:y=argmaxyp(y|x),其中y是表示n个单词序列的随机变量;条件概率依据参数函数建模,参数为:p(y*x)=p(y*x;θ),其中θ是是句子摘要对的条件概率最大化的参数。

生成式自动摘要模型的构建包括解码器端端设计和编码器端设计,其中解码器端设计具体为:

解码器端使用递归神经网络进行建模具体为:

p(yt|{y1,...yt-1},x;θ)=pt=gθ1(ht,ct)

其中ht为rnn中的隐藏层:

ht=gθ1(yt-1,ht-1,ct)

ct为编码器模块的输出,是作为当前状态ht-1和输入序列x的函数计算出的的上下文向量,同时还有:

ht=σ(w1yt-1+w2ht-1+w3ct)

pt=ρ(w4ht+w5ct)

其中wi(i=1,…,5)为一个可学习优化的参数矩阵,w{1,2,3}∈rd*d而w{4,5}∈rd*v,d为文本序列长度,v为词汇序列长度,σ为sigmoid函数;

其中,编码器端设计具体为:用bk∈rq×d表示一个可学习的权重矩阵用于将连续的词进行词嵌入时卷积,在k=(1,...,d)的情况下,得到的卷积结果为:

假设序列中的第i个单词xi为可以嵌入到d维向量空间中,xi在句中的位置与向量空间d中的词嵌入li(li∈rd)相关联,其中ai=xi+li表示最后的完全嵌入结果,其中为矩阵bk中的第j列,这表示维度为d的最终词嵌入结果zi为zi=[zi1,...,zid],其中zi为词嵌入结果,zi1,...zid为词向量的列向量表示。

4.s3具体包括关键实体识别、属性发现与附加和基于bi-lstm的概念图构建;

关键实体识别包括:通过textrank的方法对文本中关键的词语进行发现,并计算出每个词语的关键词权重后,以关键词为初始词,寻找与其相关的其他词性,从而构成简单三元组关系,使用pyltp进行分析依存句法关系,提取主语+谓语+宾语结构、定语后置+动宾结构和介宾关系+主谓动补结构实体关系表示结构;

属性发现与附加包括:通过对句子中的词和主题的重要性进行判断,把每4句摘要文本作为一个batch进行处理;并在关键实体识别前再进行一次简要的textrank摘要,选取权重的前4名作为新的输入,完成对名词属性的附加;使用pyltp中的语义角色功能,通过候选词库,对否定词进行过滤,然后附加于动词和形容词上组成新词,完成对动词属性的附加;对句中的因果关系prp进行发现,因果关系一旦被发现,就保存在关系集合里,然后作为重要关系存在与句子中;

基于bi-lstm的概念图构建包括:通过对关系的拓展来获取间接关系,先把有关联的概念进行连接;然后再通过边融合的方法对所有关系进行融合,抽取重要实体关系组;并利用深度学习模型对文本进行训练,此模型由5层组成:嵌入层,blstm层,边表示层,路径融合层,分类层。

本发明有益效果:本发明提出了一种基于关系融合的文本概念图构造方法,该方法针对长文本融合attention机制lstm网络的形成生成式自动摘要,在摘要在把文章压缩15%左右的情况下保留了文章72%的主题,然后利用边融合的技术,对摘要中的重要关系进行识别抽取,对关键实体与关系进行保留,构建概念图。

本发明的方法在文本跨语言信息检索中,跨越了语言障碍,在不经过翻译的情况下,实现了语义检索的效果。

附图说明

图1基于关系融合的文本概念图生成的流程图

图2概念图构造生成结构图

图3自动摘要模型结构图

图4概念图路径融合模型结构图

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明是对文本生成一个文本概念图的方法,该发明的技术路线及工作流程可以分为三个阶段。第一阶段,对语料库的文本进行句子分词、词干化、词性标注等预处理;第二阶段,构造生成式摘要模型,对长文本进行自动摘要;第三阶段,通过关系建立概念间链接,再通过边的扩展和融合方法对次重要关系进行消除,引入间接关系并保留重要关系,生成概念间的拓扑图结构。

1.生成式摘要模型构建

文本摘要是对文本全文的一种低维语义表示,在过去的自动摘要技术中,最主要的方法是通过对文本中句子的权重排序来选出重要的句子,从而组成摘要。但是这样的摘要有两个很明显的缺点:第一,从文本各个部分截取的句子很难组成通顺有逻辑的短文本,摘要的可读性较差;第二,由于文本是从全文中摘取的句子,这些句子的表意能力和人工手写的短文本摘要是有很大差距的,从而无法建立完整的语义信息。

生成式摘要模型是通过神经网络模型,对全文文章进行理解后自动生成摘要,新生成的摘要和全文中的句子是互相独立的,因此,生成式摘要能够对全文语义进行最大限度的覆盖。

2.融合语法树的概念图构造

对文本进行关键实体识别,在计算出每个词语的关键词权重后,可以以关键词为初始词,寻找与其相关的其他词性,从而构成简单三元组关系如主语+谓语+宾语结构等。利用边融合的技术,对摘要中的重要关系进行识别抽取,对关键实体与关系进行保留,构建概念图。

本发明提出了基于关系融合的文本概念图构造方法;本发明提出了以生成式摘要取代长文本,融合句法分析和关系提取的概念图生成方法。在实现中,首先需要对检索集合中的双语语料进行预处理,经过对单语语料的翻译扩充形成新的平行语料集,并对新的语料进行分词、词干化、去停用词等预处理。利用神经网络构建融合attention机制lstm网络的生成式自动摘要模型,该模型包含encoder端与decoder端的设计。向模型中输入文本后,encoder端对句子序列进行解码并生成一个向量c,decoder负责从这个向量c提取语义信息,并生成文本的摘要。通过对摘要中的文本进行关键实体识别、并额外发现并扩充一些实体关系,最后基于bi-lstm构建包含语义信息的概念图。

参考图1和图2,如图1和图2所示,一种基于关系融合的文本概念图构造方法。包括以下步骤:

s1,基于融合attention机制lstm网络的生成式自动摘要;

s2,融合语法树的概念图生成;

所述步骤s1包括双语语料库处理、双语语料对齐、双语生成摘要模型构建;

所述步骤s2包括关键实体识别、属性发现与附加、基于bi-lstm的概念图构建。

所述双语语料库处理包括:中文语料预处理使用基于统计方法和词性标注法相结合的方法进行分词,并根据维特比算法(viterbi)找到使条件概率p(t|w)最大化的词性标注序列最后进行去停用词处理。

英文预料预处理首先处理拼写等词汇变形问题,使用pyenchant类库可以进行拼写检查以及nltk类库进行对复数形式的还原,最后同样进行去停用词处理。

所述双语语料对齐包括:为保证自动摘要模型的一般性和健壮性,本专利将所需双语语料库进行拓展,对单语语料进行构造,具体表示为:

c=cz+ce+cze(2)

其中cz和ce分别表示z语言语料lz和le语言语料,可以对他们进行拓展,与原生平行双语语料库cze进行合并,扩充双语语料库,用在分别对单语向量化表示进行训练,通过将平行语料进行随机词混合,将得到的混合语料作为训练数据,将双语词嵌入转换为同一语义空间的词嵌入。

所述双语生成式摘要模型构建包括:生成式文本摘要主要依靠神经网络实现,主要思想为sequence-to-sequence(序列到序列思想),sequence-to-sequence又称为编码器-解码器(encoder、decoder)结构。其中encoder层、decoder层均由数层神经网络比如cnn、rnn或者lstm构成,encoder负责把输入的文本表示为一个向量c;decoder负责从这个向量c中提取语义信息,对语义进行分析,生成序列化的摘要。如图3所示,将文本“中国队凭借优秀的成绩在长沙击败韩国”输入模型中,经过分词等预处理后encoder端将文本转化为向量,attention表示突出了每个词语对句子的重要程度,再经过decoder端保留文本的重要语义信息,最终输出“中国队击败”这一摘要式的文本。

假定x表示由m字组成的输入句子序列x=[x1,...,xm],其中每个词xi是词汇集合v的一部分,大小为|v|=v。我们的目标是生成一个目标序列y=[y1,...,yn],表示n个单词,其中n<m使得x的含义得以保留:y=argmaxyp(y|x),其中y是表示n个单词序列的随机变量。

一般情况下,条件概率依据参数函数建模,参数为:p(y*x)=p(y*x;θ)。训练目的是寻找在训练语料库中,使得句子摘要对的条件概率最大化的参数θ。如果模型用来训练生成摘要的下一个单词,在给定前面的单词的情况下,上面的条件可以被分解为独立的条件概率乘积:

p(y|x;θ)=ynt=p(yt|{y1,...,yt-1},x;θ)(3)

在本发明的自动生成式摘要中,对该条件概率进行建模,并使用rnn编码器解码器架构。值得注意的是,由于在seq2seq模型中,实际对语料的语言类别是不敏感的,因此跨语言的语料都可以使用该模型进行训练,只不过需要分开进行训练。

(1)decoder端设计

decoder部分使用递归神经网络进行建模如下:

p(yt|{y1,...yt-1},x;θ)=pt=gθ1(ht,ct)(4)

其中ht为rnn中的隐藏层:

ht=gθ1(yt-1,ht-1,ct)(5)

这里的ct是编码器模块的输出。它可以看作是作为当前状态ht-1和输入序列x的函数计算出的的上下文向量。同时还有:

ht=σ(w1yt-1+w2ht-1+w3ct)(6)

pt=ρ(w4ht+w5ct)(7)

其中wi(i=1,…,5)为一个可学习优化的参数矩阵,w{1,2,3}∈rd*d而w{4,5}∈rd*vd为文本序列长度,v为词汇序列长度。σ为sigmoid函数。

(2)encoder端设计

在encoder中,每个时序部分t的上下文表示向量ct,假设序列中的第i个单词xi为可以嵌入到d维向量空间中,对于每一个输入的句子序列x而言,都有一定的延迟。而且,xi在句中的位置也与向量空间d中的词嵌入li(li∈rd)相关联,然后用ai=xi+li给出最后的完全嵌入结果。用bk∈rq×d表示一个可学习的权重矩阵,用于将连续的词进行词嵌入时卷积。在k=(1,…,d)的情况下,得到的卷积结果为:

其中为矩阵bk中的第j列,这表示维度为d的最终词嵌入结果zi为zi=[zi1,...,zid]。需要注意的是输入序列中,每一个单词xi都与一个最终嵌入结果zi相关联。向量zi可以看做是集成了与xi共同出现的上下文信息。本发明将卷积矩阵bk的宽度设为5,在处理输入序列边缘的词时,使用虚词将边缘词的空白邻接词补齐,再对嵌入向量zi进行训练。

在给定输入序列中的词向量后,我们的编码器输出了一个带有上下文信息的向量:

(3)模型训练

在给定训练语料xi为文本原文,yi为参考摘要,即可通过上述的encoder-decoder模型进行训练。本发明用随机梯度下降法对模型进行优化,同时引入最大似然函数对参数θ进行估计:

这里的θ即为模型中需要学习的参数,学习的目标是当训练完成后,给定一个输入序列x,可以自动生成一个摘要y,使得概率p(y|x)最大化。目标的优化是由在每个时序中路径k的数量来进行参数化。

所述关键实体识别包括:本发明通过textrank的方法对文本中关键的词语进行发现。在实体识别中,由于实体往往是领域内专业术语或是简单名词和名词的组合,因此在识别中可以跳过其他词性的词。在计算出每个词语的关键词权重后,可以以关键词为初始词,寻找与其相关的其他词性,从而构成简单三元组关系。

本发明使用pyltp用于分析依存句法关系,提取几种简单的实体关系表示结构如下:

(1)主语+谓语+宾语结构,这种结构中主谓关系sbv一般与动宾关系vob共同出现,其中v指代同一个实体或词;

(2)定语后置+动宾结构,这种结构表现为修饰关系att,需要对att进行修饰判断,识别其主语是否在动宾关系vob中出现;

(3)介宾关系+主谓动补结构,这种结构表现为动补结构cmp与动宾关系vob共同出现,其中v指代同一个实体或词。

所述属性发现与附加包括:本发明针对属性的附加上,发现了额外的名词属性、动词属性、特殊属性附加。在名词属性的附加上,消除了在长句中,名词修饰关系(att)的个数和复杂度是过高的,导致识别情景过于复杂,进而出现“修饰词爆炸”现象。在动词属性的附加上,认为否定修饰词不同于右附加关系,一般是作为独立部分存在于句子中。本发明通过候选词库,对否定词进行过滤,然后附加于动词和形容词上组成新词。在特殊属性附加上,由于科技类或是论文文本中,常会出现一些特殊属性。因此,需要对句中的因果关系进行发现,这就是目的或原因prp。因果关系一旦被发现,就会被保存在关系集合里,然后作为重要关系存在与句子中。因果关系的存在涉及到间接关系的传递,因此在概念图的构造中有更重要的作用,需要提高关系权重。

所述基于bi-lstm的概念图构建包括:

本发明针对关系的传递性,提出根据对图形路径的融合构造更加合理的概念图,此模型通过对一个完整概念图的迭代对新的简洁的概念图进行构造:和上述提到的概念图一样,概念对应于节点,关系对应于有向边,此模型用一个概念和他的邻居概念作为初始化,一步一步进行关系迭代,这样,每个概念都通过关系联系起来。然后通过迭代,对每个概念相关的多条关系路径进行融合,把间接关系融合成直接关系,过滤非重要关系,最终形成简洁的概念图。并利用深度学习模型对文本进行训练,如图4所示,此模型由5层组成:嵌入层(embeddinglayer),blstm层(blstmlayer),边表示层(edgerepresentationlayer),路径融合层(walkaggregationlayer),分类层(classificationlayer)。

具体流程如下:

第一步为嵌入层,需要输出三个向量表示实体单词、实体语义类别和相对位置,这三个向量维度为nw、nt、np。其中单词表示为w,语义类型表示为t。

在bi-lstm层,上一层的输出将输入到一个双向的网络中,这也是bi-lstm的核心,然后这一层再输出h作为包含序列信息的词嵌入。bi-lstm实际上是对输入文本正向序列和反向序列都进行处理,将两者的输出结合起来作为最终的结果。lstm对于经典rnn的优势是保留了前置序列的信息,从而对文本的全局信息有更好的表示。

在边表示层中,概念-关系-实体的三元组中包含两个实体ei和ej。在概念为复数词表示时,需要求这些个数为i的单词的隐藏层输出向量平均值,将其作为概念的最终表示向量,即

其中i表示组成实体e的单词的数量,这里只用简单算术平均对bi-lstm算出最终结果。构造三元组中的实体(ei,ej)之间的关系单词wz,其包含了如下信息:

(1)单词wz的bi-lstm向量ez,

(2)单词wz的语义类型的表示向量tz,

(3)单词wz与实体ei、ej的相对位置(wz与ei的相对位置表示pzi,wz与ej的相对位置表示pzj)。

在路径融合层中,本模型通过对间接关系和弱关系的融合对关系进行抽取。因此,本层的目标是:将同一个概念对应的不同关系进行融合、消除,对于整个概念图的构建。这一层的目标实际是对摘要生成的大型概念图的精简,通过对冗余关系的融合,对关键关系和关键实体的联系进行保留,从而生成更为简单的概念图。

输出是通过一个分类层表示的,这里有一个全连接层,用于提取高阶语义,同样使用softmax函数作为全连接层,这里需要对softmax函数进行更改如下:

其中,是一个行列不对称的权重矩阵,nr表示了一个数值,作为网络中关系的类别总数,这是一个超参数,需要对其进行优化,br代表函数中的偏置。最后输出一个三元组,即为实体关系组合(ei,wz,ei),其中ei、ej为实体对,wz为实体对的关键上下文单词,即为关系。

实验验证与分析:

本实验双语语料选择联合国平行语料库(unparallelcorpusv1.0)中的中英文语料,收集硕博论文中英文摘要各10000篇。在英文语料预处理中,将英文语料进行小写化,对停用词进行过滤,对名词进行词干化,为保留主动被动关系,对动词不作处理。最终得到双语文本对约86万对句子,双语文本约3万对。

中英文语料的摘要效果如表1、2所示:

表1维基百科语料库自动摘要效果

表2联合国平行语料库自动摘要效果

如表1所示,本发明使用的rnn+attention方法在中英文维基百科的摘要效果是优异的,除了rouge-2指标只稍微高于ec-rnn(extractivecontextrnn),但在rouge-1和rouge-l指标评价中本发明使用方法均为比较方法中最高的。在联合国平行语料库中,普通rnn的rouge-1和rouge-l均略高于rnn+attention。而维基百科的单句话长度一般较长,而联合国平行语料长度较短。简单利用rnn对长文本实验效果并不好,因此引入了attention机制来扩充可处理序列长度。

对摘要进行概念图构建利用了边融合的方法,该方法主要作用为对关键关系的提取,因此需要对概念图构建方法的关系提取效果进行评价。本发明方法通过与通用关系提取方法sptree方法进行比较。通过对拓展路径l的控制寻找最优效果。其中,概念图的关系集合为最终结果中所有关系路径的集合。评价指标为准确率p,召回率r与f1值,用表表示为:

表3评价指标说明

由表3可知,准确率和召回率的计算公式分别可以表示为:

f1的计算方式如下:

为保证p和r以及f1值的准确性,在比较这三个指标时,使用有实体对标注的语料ace2005中的中英文语料进行试验,关系提取的效果对比如下,表4为ace2005语料中的中文部分:

表4ace2005中文关系抽取效果对比

表5为ace2005语料中的英文部分:

表5ace2005英文关系抽取效果对比

其中l=4时表现最好,虽然本发明方法对关系抽取效果并不比sp-tree高很多,但在上文生成的非可读、非连续的摘要中,sp-tree在语法树生成的过程中容易出现错误。在文本规范性较差的情况下,本发明方法拥有更好的鲁棒性。

同时,生成概念图的三元组覆盖率是更重要的评价方式。因为三元组的覆盖率能更好的体现概念图对全文语义的概括。表6展示了本发明方法对中文对齐语料的摘要文本和全文文本覆盖率的效果:

表6中文语料概念图覆盖率

表7展示了本发明方法对英文对齐语料的摘要文本和全文文本覆盖率的效果,英文语料为维基百科及联合国英文语料。

表7英文语料概念图覆盖率

如表6、表7所示,本发明生成概念图对摘要的关系覆盖率与全文主题覆盖率效果尚可,可以进行下一步相似度计算。同时,考虑要对性能的要求,本发明对概念图的三元组覆盖率和处理时间进行了统计,通过拓展路径l来界定概念图中的三元组集合。拓展路径l指的是,当两个节点之间的路径不超过l级时,通过路径与节点的全排列构成三元组。

本发明完成了概念图的构造工作,主要步骤有两步:第一步为对全文文本进行自动摘要,通过一个sequence-to-sequence模型对全文进行自动摘要,生成摘要虽可读性不尽理想,但对文中关键概念与关系进行了有效保留,使得摘要在把文章压缩15%左右的情况下保留了文章72%的主题;第二步利用边融合的技术,对摘要中的重要关系进行识别抽取,对关键实体与关系进行保留,构建概念图。重要关系提取效果与现有成熟方法相当,构造完成的概念图对摘要和全文的三元组覆盖率与主题覆盖率表现优秀。生成概念图可以作为全文文本的语义表示。

本发明的方法在文本跨语言信息检索中,跨越了语言障碍,在不经过翻译的情况下,实现了语义检索的效果。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1