基于量子测量与自注意力机制的问答任务匹配模型及方法

文档序号:26746976发布日期:2021-09-25 00:58阅读:158来源:国知局
1.本发明涉及属于量子计算和深度学习领域,特别是涉及一种基于量子测量的问答任务匹配模型及方法。
背景技术
::2.从2010年开始到现在的十年间,飞速发展的人工智能领域就一直走在计算机科学技术的最前沿,向量空间模型在人工智能领域的决定性地位也在这一时期逐渐开始确立了。与此同时,量子理论的发展对计算机科学的影响也变得越来越多,有关量子理论的重大进展的消息经常出现在日常新闻中。这两个领域背后的数学基础的共同点比人们想象的要多很多,对量子理论公理化的核心数学基础就是向量空间,而这种采用向量空间对量子理论公理化的做法,是用向量空间的线性几何推导量子逻辑和量子概率的关键动机。微小物理粒子之间的量子作用是用张量积建模的,而张量积也被用来表示神经网络中对象和操作。受其启发,一部分科研工作者开始探索用量子理论的数学框架来建模人工智能领域的问题,尝试解决人工智能领域中的不可解释的问题,其中在自然语言处理领域已有不少有趣的模型成果展现。3.线性向量空间在信息检索中使用最早可以追溯到20世纪60年代[1],而对量子理论进行形式化建模则在量子理论发展的早期就被认识到了,之后这个两个领域均有着蓬勃的发展但互不相交。直到vanrijsbergen[2]意识到量子力学的希尔伯特空间公理化和信息检索的向量空间模型有很多共通甚至是相同之处,这种创造性的思想为后续理解和利用量子理论发展信息检索铺平了道路。第一个真正应用量子理论的数学框架建模信息检索模型的是sordoni、nie和bengio[3],他们研究了如何利用量子信息对标准的unigram和bag‑of‑words语言模型进行扩展,以适应自然语言中因一词多义或一义多表而产生的上下文依赖关系,并提高信息检索模型的性能。单词的上下文相关性是信息检索中一个长期存在的问题,在实际任务中构建文档的概率或者几何表示时,经常会出现无法处理词组组合性质的问题。一个显而易见的解决办法是把词组作为一个处理单元来对待,就如同处理单个单词一样,但这样每个词组里单词所携带的信息就会有损失或者被完全淹没。此外,这种方式也无法清楚地定义以何种权重组合词组。为了解决这些问题,sordoni和他的同事们开发了量子语言模型(qlm),提供了一种既可以对语言的上下文相关性进行建模,又不会切断词组表达概率和单词表达概率的建模方式。通常在信息检索中对语言建模可以通过将词汇表中的每一项投影到一个基向量来表示,例如使用one‑hot编码,然后就可以定义投影算子,以获取特定上下文中每个词组或者句子的投影概率。在量子语言模型中,词组的表达式可以表示为其每一部分对应的基向量的加权叠加:[0004]|xy>=α0|x>+α1|y>[0005]其中|x>和|y>是单个单词向量,|xy>是词组的向量表达式,α0和α1分别为单词的叠加权重,且单个单词的叠加权重保持归一化,即[0006]|α0|2+|α1|2=1[0007]这种组合方式可以在很大程度上保留复合词组中每个单词语义的存在,也提供了一种加权一个复合短语中单词相对重要性的方式,比如,在需要查询关于“量子理论”的文档时,单独包含“量子”的文档应当比单独包含“理论”的文档更有可能被检索到,则在这种查询任务中,组合短语“量子理论”中“量子”的语义重要性就比“理论”的语义重要性更高。给定一个文本,使用近似算法学习模型参数,该算法只是试图找到能最大限度地提高查询到特定文档的概率的参数,并没有准确建模语言的这种关系。在量子语言模型中,从四个信息检索数据集中选取的450个查询中,量子语言模型都获得了最好性能,在两个基于网络的大型数据集中,量子语言模型与使用马尔可夫随机场[4]的unigram语言模型相比,在统计上有显著的改进。[0008]在此之后,越来越多的量子理论概念被用于语言建模,例如基于认知模型中单词联想的纠缠研究[5][6],kartsaklis和sadrzadeh[7]在coecke的分类框架[8]中,利用张量探索了及物动词的纠缠表示。rijsbergen的理论也被用来为向量空间中的信息检索建模提供逻辑,panzhang构建了一个使用密度矩阵建模语言的量子神经网络语言模型(nnqlm)[9][10],通过将词嵌入单位向量作为基本态,将句子作为密度矩阵的方式建模语言,而qiuchili[11]则利用了密度矩阵概率性质的潜力,引入复数来得到更好的性能以及更强的可解释性。[0009][参考文献][0010][1]switzer,p.vectorimagesindocumentretrieval[j].statisticalassociationmethodsformechanizeddocumentation,1965:163–171.[0011][2]rijsbergencv.thegeometryofinformationretrieval:lineartransformations,operatorsandmatrices[m].cambridgeuniversitypress2004.[0012][3]sordoni,a.,nie,j.y.,andbengio,y.modelingtermdependencieswithquantumlanguagemodelsforir[c].inproceedingsofthe36thinternationalacmsigirconferenceonresearchanddevelopmentininformationretrieval.2013:653–662.[0013][4]metzler,d.,andcroft,w.b.amarkovrandomfieldmodelfortermdependencies[c].inproceedingsofthe28thannualinternationalacmsigirconferenceonresearchanddevelopmentininformationretrieval.2005:472–479.[0014][5]bruzapd,lawlessw,rijsbergenkv,etal.quantuminteraction:proceedingsofthesecondquantuminteractionsymposium‑qi‑2008[j].collegepublications,2008:118–124.[0015][6]aerts,d.,sozzo,s.quantumstructureincognition:whyandhowconceptsareentangled[j].ininternationalsymposiumonquantuminteraction.2011:116–127[0016][7]kartsaklis,d.,sadrzadeh,m.astudyofentanglementinacategoricalframeworkofnaturallanguage[j].arxivpreprint,arxiv:1405.2874.2014[0017][8]coecke,b.,sadrzadeh,m.,andclark,s.mathematicalfoundationsforacompositionaldistributionalmodelofmeaning[j].arxivpreprint,arxiv:1003.4394.2010.[0018][9]pengzhang,jiabinniu,zhansu,benyouwang,liqunma,anddaweisong.end‑to‑endquantumlikelanguagemodelswithapplicationtoquestionanswering[c].theaaaiconferenceonartificialintelligence.2018:5666–5673.[0019][10]pengzhang,zhansu,lipengzhang,benyouwang,anddaweisong.aquantummanybodywavefunctioninspiredlanguagemodelingapproach[c].inproceedingsofthe27thacminternationalconferenceoninformationandknowledgemanagement.2018:1303–1312.[0020][11]li,qiuchi,benyouwang,andmassimomelucci.cnm:aninterpretablecomplex‑valuednetworkformatching[j].arxivpreprintarxiv:1904.05298,2019.技术实现要素:[0021]本发明的目的是为了克服现有技术的不足,提供一种基于量子测量的量子语言模型利用量子理论的数学框架,结合self‑attention机制构建语言模型,并且利用量子语言模型来解决问答匹配任务。本文使用更小粒度的语言单位,将语义作为语言的基本单位,并将词看作是语义的组合。不把词作为嵌入的基本单位,而是试图用较小的语义单元叠加来构造它,这更符合一词多义的实际自然语言场景,复数的使用也使得一词多义的融合具备非线性组合的潜力。使用密度矩阵建模词组和句子,词组中单词的权重由self‑attention获取,使得词与词之间的语义联系可以被更好地捕捉,基于self‑attention的语义权重也加强了模型的可解释性,自然而然地将人类语言中一义多表和语义极性进行建模。在模型的测量层,用可训练的测量算子来提取密度矩阵特征,这种计算密度矩阵距离的方式没有打破量子理论的规范,可训练的测量矩阵也使得问句密度矩阵和答句密度矩阵的匹配可以使用神经网络。测量层的结果可以看作是语义密度矩阵在测量平面上的投影,数据驱动的可训练测量也使得问题与答案的匹配更加灵活。本文的实验表明,基于量子理论的数学框架和self‑attention的语言模型可以很好地建模人类语言语义,在实验结果中获得了超过部分传统语言模型的模型性能,具有一定的优势,更令人鼓舞的是模型的可解释性和透明度比一般模型有了很大提升。[0022]本发明的目的是通过以下技术方案实现的:[0023]一种基于量子测量与自注意力机制的问答任务匹配模型,本问答任务匹配模型由语言编码器、测量矩阵编码器、问答匹模块构成;其中问答句子中单个词被认为是语言最小单位语义的叠加,就像在物理系统中一个微小粒子可以处于量子叠加的纯态;不同词之间可以相互关联,类似于量子理论中粒子之间相互纠缠的现象;句子被视为混合状态的物理系统,由不同的单词组合而成,并且存在一定的权重衡量其关系。形式上,单词建模为多维希尔伯特空间中的单位向量,并由纯态密度矩阵表示,句子是权重被归一化的纯态密度矩阵的叠加。在问答匹配任务中,句子的密度矩阵由一组正交的测量向量投影到投影平面,结果的长度对应于句子的密度矩阵表示被投影到平面的概率。[0024]本发明的语言编码器包括嵌入层和混合层;其中,嵌入层是初始化单词编码;相比词袋模型中简单地对词向量相加,复数向量所能表达的语义更为丰富,每个词向量都由实部和虚部组成,对应的振幅和相位可以建模非线性的语义组合,有着更加丰富的语义表达能力。在数学定义上,本问答任务匹配模型将语义定义为正交的基态集合作为语言的最小单位,其中ej为one‑hot向量;单词作为语义的叠加态由定义,其中满足是实值非负的振幅,对应于词向量的长度,类似量子理论中粒子波函数的表示方式;[0025]混合层是将单词编码进行进一步计算,使用自注意力机制获得词嵌入混合的权重,每个句子在训练中获得自身的语义权重,并对每个单词的复向量做外积得到单词纯态的密度矩阵表示,再将纯态密度矩阵加权相加得到单词组合的混合态密度矩阵,每个单词组合的密度矩阵表示为其中p(wj)是由自注意力层获取的权重π(wi)并经过softmax归一化,权重p(wj)满足描述了语义单元相对重要性的概率分布,|wj><wj|是上文提到的语义叠加态做外积;[0026]语言编码器对句子中所有单词的密度矩阵求和,就能得到该句子的密度矩阵表示形式,问句和答句的密度矩阵分别为ρq和ρa。[0027]测量矩阵编码器通过如下步骤获取问答句子的测量编码矩阵:[0028]假设我们在问答任务中模型混合层得到问句和答句的密度矩阵表示分别为和l为句子长度,并且对k个语义测量算子进行问句密度矩阵和答句密度矩阵的投影测量,测量算子是在训练阶段由大量已标记的数据进行训练得到的。问句密度矩阵和答句密度矩阵输入测量层,在经过语义测量算子的测量后得到两组概率矩阵p1和p2,其中每个概率向量具体可以由如下公式计算:[0029][0030][0031]问答匹配模块通过如下公式获得交互匹配分数:密度矩阵测量结果p1和p2的向量距离作为问句和答句的匹配分数,模型先通过一组池化操作获得每个测量值的最大投影概率,然后利用余弦相似度计算两个向量之间的距离,其数学公式定义如下:[0032]score=cosine(pooling(p1),pooling(p2))。[0033]本发明还提供一种基于量子测量与自注意力机制的问答任务匹配方法,包括以下步骤:[0034](1)读取训练集中疑问句子和答案句子对,对训练集中所有句子进行分词,中文使用jiebe工具,英语使用moses工具;[0035](2)构建词向量矩阵,确定每一个单词所对应的词向量的维度,词向量矩阵每一列表示一个单词,并且会随着问答任务匹配模型的训练进行优化;[0036](3)计算出每个单词的自注意力权重,并进一步计算得到每个句子的密度矩阵;[0037](4)根据每个句子的密度矩阵,计算得到每个句子对应的测量矩阵,并得到对应句子测量之后的结果;[0038](5)输出最后结果;[0039](6)最后在问答匹配数据集上进行训练和测试,测试的指标为map和mrr分数。[0040]与现有技术相比,本发明的技术方案所带来的有益效果是:[0041]1.本发明提出利用量子理论的希尔伯特空间公理化和信息检索的向量空间模型的相通之处建模问答匹配任务,提高了问答匹配的准确性。[0042]2.利用自注意力机制获取不同单词的权重,若干单词组成的句子由单词向量以及单词的权重构建的密度矩阵表示,其表示能力更强,更准确。附图说明[0043]图1为本发明的问答匹配模型的示意图;[0044]图2为匹配模型中语义混合模块的示意图。具体实施方式[0045]以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。[0046]如图1所示:本发明的问答任务匹配模型由语言编码器,测量矩阵编码器、问答匹配构成;其中问答句子中单个词被认为是语言最小单位语义的叠加,就像在物理系统中一个微小粒子可以处于量子叠加的纯态;不同词之间可以相互关联,类似于量子理论中粒子之间相互纠缠的现象;句子被视为混合状态的物理系统,由不同的单词组合而成,并且存在一定的权重衡量其关系。形式上,单词建模为多维希尔伯特空间中的单位向量,并由纯态密度矩阵表示,句子是权重被归一化的纯态密度矩阵的叠加。在问答匹配任务中,句子的密度矩阵由一组正交的测量向量投影到投影平面,结果的长度对应于混合系统被投影到平面的概率。[0047]问答任务匹配模型的语言编码器包括嵌入层和混合层;其中,嵌入层是初始化单词编码;相比词袋模型中简单地对词向量相加,复数向量所能表达的语义更为丰富,每个词向量都由实部和虚部组成,对应的振幅和相位可以建模非线性的语义组合,有着更加丰富的语义表达能力。在数学定义上,模型将语义定义为正交的基态集合作为语言的最小单位;单词作为语义的叠加态由定义;[0048]混合层是将单词编码进行进一步计算,使用自注意力机制获得词嵌入混合的权重,每个句子在训练中获得自身的语义权重,并对每个单词的复向量做外积得到单词纯态的密度矩阵表示,再将纯态密度矩阵加权相加得到单词组合的混合态密度矩阵,每个单词组合的密度矩阵表示为其中p(wj)是由自注意力层获取的权重π(wi)并经过softmax归一化,权重p(wj)满足描述了语义单元相对重要性的概率分布,图2显示了匹配模型中语义混合模块的过程。[0049]语言编码器对句子中所有单词的密度矩阵求和,就能得到该句子的密度矩阵表示形式,问句和答句的密度矩阵分别为ρq和ρa。[0050]测量矩阵编码器通过如下步骤获取问答句子的测量编码矩阵:[0051]假设在问答任务中模型混合层得到问句和答句的密度矩阵表示分别为和并且对k个语义测量算子进行问句密度矩阵和答句密度矩阵的投影测量,测量算子是在训练阶段由大量已标记的数据进行训练得到的。问句密度矩阵和答句密度矩阵输入测量层,在经过语义测量算子的测量后得到两组概率矩阵p1和p2,其中每个概率向量具体可以由如下公式计算:[0052][0053][0054]问答匹配模块通过如下公式获得交互匹配分数:密度矩阵测量结果p1和p2的向量距离作为问句和答句的匹配分数,模型先通过一组池化操作获得每个测量值的最大投影概率,然后利用余弦相似度计算两个向量之间的距离,其数学公式定义如下:[0055]score=cosine(pooling(p1),pooling(p2))。[0056]图1显示了本发明设计的基于量子测量与自注意力机制的问答任务匹配模型。基于该模型的方法的具体操作步骤如下:[0057](1)读取训练集中疑问句子和答案句子对,对训练集中所有句子进行分词,中文使用jiebe工具,英语使用moses工具。[0058](2)构建词向量矩阵w=[c1,c2,…,cn],每一个单词所对应的词向量ci的维度为50,矩阵每一列表示一个单词,并且会随着模型的训练进行优化。[0059](3)计算出每个单词的自注意力权重,并进一步计算得到每个句子的密度矩阵。[0060](4)根据每个句子的密度矩阵,计算得到每个句子对应的测量矩阵,并得到对应句子测量之后的结果。[0061](5)输出最后结果。[0062](6)最后在问答匹配数据集上进行训练和测试,测试的指标为map和mrr分数。关于模型的各个超参数详细设置如表1所示,关于各个问答匹配数据集的详细描述如表2所示,包括训练集、验证集和测试集句子对数。表3表明本发明相比于其他的问答匹配数据集具有更好的翻译效果。[0063]表1各超参数设置[0064][0065][0066]表2数据集信息统计[0067][0068]表3各模型在问答匹配数据集上的对比结果[0069][0070]本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1