信息检索方法、装置及设备与流程

文档序号:20030040发布日期:2020-02-28 10:16阅读:117来源:国知局
信息检索方法、装置及设备与流程

本发明涉及数据处理技术领域,特别是涉及一种信息检索方法、装置及设备。



背景技术:

自然语言是人们日常使用的语言,为了实现人与计算机之间的自然语言通信,用于语义理解的自然语言处理技术应运而生。随着自然语言处理技术的发展,能够实现人机间自然语言问答的智能问答技术,被广泛用于人工智能客服、辅助教育以及网络问答社区等领域。

一般情况下,咨询者往往能够明确要咨询什么,智能问答技术处理的也是简单的问句型问题。具体的,智能问答技术可以提取出问句型问题的句法成分,从而根据句法成分检索资料库得到对应答案。例如,提取问句型问题“地球与太阳的距离是多少”的句法成分为主语“距离”、谓语“是多少”以及定语“地球与太阳的”,从而将资源库中主语为“距离”且定语为“地球与太阳的”的资源的谓语,作为该待回复问题的答案。

但是,随着利用互联网获取信息方式的普及,用户还会提出以简单问句描述不清楚的,且只能以包括多个分句的复杂形式描述的事实描述型问题。例如,乙方的事实描述型问题包括分句1“甲方在某年某月某日与乙方签订了购买合同”、分句2“购买合同中的各项条款”、分句3“甲方违反了哪些条款”、分句4“给乙方造成了什么影响”以及分句5“甲方该如何补偿乙方”。同时,由于咨询者的描述习惯和事实经历存在差异,事实描述型问题还存在以相同的句法成分表达不同语义的情况。例如,甲方提出的事实描述型咨询可以包括上述分句1至分句5,甲乙双方采用了相同的句法成分,但是由于甲方与乙方在事件中角色不同,甲方咨询的语义是“怎么实现低成本的补偿”,而乙方咨询的语义是“怎么得到最多的补偿”。可见在事实描述型问题中,即使句法成分相同,所表达的语义也可能完全相反。

因此,基于句法成分检索答案的智能问答技术,由于只能以句法成分进行文字层面的检索,而无法实现语义层面的检索,很有可能造成检索结果是句法成分相同、但语义相反的资源的答案,造成智能问答的信息检索准确性下降的问题。



技术实现要素:

本发明实施例的目的在于提供一种信息检索方法、装置及设备,以实现提高智能问答的信息检索准确性的效果。具体技术方案如下:

第一方面,本发明实施例提供了一种信息检索方法,该方法包括:

利用预设语义依存算法处理待回答文本内容,得到第一分析结果,第一分析结果包括待待回答文本内容中分词的角色标注信息和待回答文本内容的事件关系信息;

基于所述第一分析结果,检索第一知识库,得到第一检索结果,第一检索结果为与第一分析结果对应的第一答案,第一知识库包括第一答案,以及预设的第一分析结果与第一答案的对应关系。

第二方面,本发明实施例提供了一种信息检索装置,该装置包括:

分析模块,用于利用预设语义依存算法处理待回答文本内容,得到第一分析结果,第一分析结果包括待回答文本内容中分词的角色标注信息和待回答文本内容的事件关系信息;

检索模块,用于基于第一分析结果,检索第一知识库,得到第一检索结果,第一检索结果为与第一分析结果对应的第一答案,第一知识库包括第一答案,以及预设的第一分析结果与第一答案的对应关系。

第三方面,本发明实施例提供了一种计算机设备,该设备包括:

处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序,实现上述第一方面提供的信息检索方法的步骤。

第四方面,本发明实施例提供了一种计算机可读存储介质,该存储介质内存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面提供的信息检索方法的步骤。

本发明实施例提供的一种信息检索方法、装置及设备,通过利用预设语义依存算法待回答文本内容,得到包括待回答文本内容的事件关系信息和待回答文本内容中分词的角色标注信息的第一分析结果。基于第一分析结果,检索第一知识库,得到第一检索结果。其中,第一检索结果为与第一分析结果对应的答案,第一知识库包括答案,以及预设的第一分析结果与答案的对应关系。与基于句法成分进行答案检索的智能问答技术相比,利用预设语义依存分析算法处理待回答文本内容得到第一分析结果,由于第一分析结果包括待回答文本内容的事件关系信息和待回答文本内容中分词的角色标注信息,反映了待回答文本内容的语义。因此,基于第一分析结果检索第一知识库、并将第一分析结果对应的的答案确定为第一检索结果,实现了语义层面的答案检索,从而避免以句法成分从文字层面检索造成的答案与咨询语义不相符的问题,提高了智能问答的信息检索准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明一实施例的信息检索方法的流程示意图;

图2为本发明一实施例的循环神经网络的结构示意图;

图3为本发明另一实施例的信息检索方法的流程示意图;

图4为本发明一实施例的信息检索装置的结构示意图;

图5为本发明另一实施例的信息检索装置的结构示意图;

图6为本发明一实施例的计算机设备的结构示意图。

具体实施方式

为了使本领域技术人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面首先对本发明一实施例的信息检索方法进行介绍。

本发明实施例提供的信息检索方法,可以应用于能够进行信息检索的计算机设备,该设备包括台式计算机、便携式计算机、互联网电视,智能移动终端、可穿戴式智能终端、服务器等,在此不作限定,任何可以实现本发明实施例的计算机设备,均属于本发明实施例的保护范围。

如图1所示,本发明一实施例的信息检索方法的流程,该方法可以包括:

s101,利用预设语义依存算法处理待回答文本内容,得到第一分析结果,第一分析结果包括待回答文本内容中分词的角色标注信息和待回答文本内容的事件关系信息。

其中,预设语义依存算法用于对待回答文本内容进行语义依存分析。具体的,语义依存分析可以利用依存分析树模型得到句子各个语言单位之间的语义关联,并将语义关联以依存结构呈现。由此,用依存结构代替句子表层的词汇,直接获取句子本身的语义信息。语义信息可以包括:句子中分词的角色标注信息,以及描述两个事件之间关系的事件关系信息。角色标注信息具体可以包括主体角色、客体角色、核心角色以及嵌套角色等。事件关系信息具体可以包括施事关系和受事关系等。

例如,利用预设语义依存算法处理待回答文本内容“王某于2017年9月10日在学苑路撞倒一名老人,造成老人骨折和擦伤,如何帮助老人维权?”,得到的第一分析结果包括:分词的角色标注信息【主体角色“王某”,客体角色“老人”,核心角色“撞倒”,嵌套角色“骨折”和“擦伤”】,事件关系信息【“王某撞倒”与“老人骨折和擦伤”的施事关系】。

s102,基于第一分析结果,检索第一知识库,得到第一检索结果,第一检索结果为与第一分析结果对应的第一答案,第一知识库包括第一答案,以及预设的第一分析结果与第一答案的对应关系。

其中,预设的第一分析结果与第一答案的对应关系,具体可以是预先对已回答文本内容进行与待回答文本内容相同的预设语义依存算法处理,得到已回答文本内容的第三分析结果,将已回答文本内容的答案作为第一知识库中的第一答案,将第三分析结果确定为预设的的第一分析结果与第一答案的对应关系。从而可以将与第一分析结果相同的第三分析结果的第一答案,确定为与第一分析结果对应的第一答案。或者,可以将已回答文本内容与第一答案同时存储在第二知识库中,检索时获取已回答文本内容的第三分析结果,则预设的第一分析结果与第一答案的对应关系为第一分析结果与获取的第三分析结果相同时,确定第一分析结果与第一答案对应。任何用于表示第一分析结果与第一答案的对应关系的方式,均可用于本发明,本实施例对此不作限制。

例如,基于上述待分析文本内容“王某于2017年9月10日在学苑路撞倒一名老人,造成老人骨折和擦伤,如何帮助老人维权?”的第一分析结果,检索第一知识库,则可以根据第一知识库中预设的第一分析结果与第一答案的对应关系a:【主体角色“李某”,客体角色“老人”,核心角色“撞倒”,嵌套角色“骨折”和“擦伤”,“李某撞倒”与“老人骨折和擦伤”的施事关系】,确定该对应关系a的第一答案a为第一分析结果对应的第一答案,第一答案a即为第一检索结果。

本发明实施例提供的一种信息检索方法,通过利用预设语义依存算法待回答文本内容,得到包括待回答文本内容的事件关系信息和待回答文本内容中分词的角色标注信息的第一分析结果。基于第一分析结果,检索第一知识库,得到第一检索结果。其中,第一检索结果为与第一分析结果对应的答案,第一知识库包括答案,以及预设的第一分析结果与答案的对应关系。与基于句法成分进行答案检索的智能问答技术相比,利用预设语义依存分析算法处理待回答文本内容得到第一分析结果,由于第一分析结果包括待回答文本内容的事件关系信息和待回答文本内容中分词的角色标注信息,反映了待回答文本内容的语义。因此,基于第一分析结果检索第一知识库、并将第一分析结果对应的的答案确定为第一检索结果,实现了语义层面的答案检索,从而避免以句法成分从文字层面检索造成的答案与咨询语义不相符的问题,提高了智能问答的信息检索准确性。

实际应用中,由于通过历史经验和已回答文本内容进行第一答案收集,将第一答案用于建立第一知识库,而通常情况下会存在相似的历史经验和已回答问题文本(例如,“撞倒老人骨折如何维权”与“撞倒老人骨折、擦伤如何维权”相似),进而导致第一知识库中存在相似的预设的第一分析结果与第一答案的对应关系。相应的,与第一分析结果对应的第一检索结果也为多个。

当第一检索结果为多个时,为了使检索结果与待回答文本内容更匹配,提高检索结果的准确性,可选的,在本发明图1所示实施例中的s102之后,本发明提供的信息检索方法开可以包括:

针对各第一检索结果,利用预设语义依存算法处理第一检索结果,得到第四分析结果,第四分析结果包括第一检索结果的事件关系信息和第一检索结果中分词的角色标注信息。

利用预设语义依存算法处理第二知识库中的第二答案,得到第五分析结果,第五分析结果包括第二答案的事件关系信息和第二答案中分词的角色标注信息。

其中,第二知识库可以包括第二答案,第二答案可以包括第一答案,以及通过专家经验、专业资料等收集的非第一答案。当然,专家经验、专业资料等与历史经验和已回答文本内容存在差异,以实现通过第二知识库扩展第一知识库中答案的目的。

由于第二知识库中的第二答案是通过专家经验、专业资料等收集的,会存在无法与待回答文本内容直接建立对应关系的问题,例如,第二答案可能是关于人身损害赔偿的法律条文,但是由于专业性,法律条文的语义无法与上述第一分析结果对应。因此,为了在第一检索结果为多个时,从答案更丰富的第二知识库中确定出与待回答文本内容更匹配的检索结果,可以利用第一检索结果在第二知识库中进行二次检索。

相应的,为了利用第一检索结果对第二知识库进行二次检索,需要利用预设语义依存算法处理第一检索结果和第二答案,由此可以通过语义依存分析,得到用于反映第一检索结果语义的第四分析结果,以及用于反映第二答案语义的第五分析结果。

利用预先训练得到的第二循环神经网络分别处理第四分析结果和第五分析结果,得到第四分析结果的第四特征向量与第五分析结果的第五特征向量,第二循环神经网络为利用多个预先收集的第二答案样本的事件关系信息和第二答案样本中分词的角色标注信息训练得到的。

其中,rnn(recurrentneuralnetworks,循环神经网络)具体可以是如图2所示的结构,隐藏层中神经元202的当前输入可以包括输入层201的输出2010和上一时刻该神经元202的输出2020,使循环神经网络记忆并利用上一时刻的输出确定当前时刻的输出,进而得到输出层203输出的特征向量。考虑到分析结果中各分词并不是孤立的,可以利用当前分词和前一个分词预测出下一个分词,各分词之间的相关联系决定了分析结果所代表的语义,例如,当前分词是“撞”,前一个分词是“开车”,则下一个分词很可能是“伤”。因此,在提取分析结果的特征向量时,为了使提取的特征不仅包含单个分词的特征,还能反映出分析结果中各分词之间的关系,以表明分析结果的语义,可以使用循环神经网络提取分析结果的特征向量,通过循环神经网络能够记忆并利用上一时刻的输出确定当前时刻的输出的特点,使提取出的特征向量能够反映分析结果中各分词的特征以及各分词之间关系的特征。

在此基础上,由于第二循环神经网络为利用多个预先收集的第二答案样本的事件关系信息和第二答案样本中分词的角色标注信息训练得到的,因此,可以用于对第四分析结果和第五分析结果进行特征提取。同时,循环神经网络中神经元当前时刻的输出可以作为下一时刻该神经元的输入,可以有效提取语义受上下文信息影响的自然语言的特征。

此外,可以理解的是,本发明任一实施例中的循环神经网络与第二循环神经网络类似,区别在于为了实现对不同输入文本的特征向量的提取,用于训练不同循环神经网络的样本不同。

利用预设相似度算法,计算得到第四特征向量与第五特征向量的第三相似度。

其中,预设相似度算法具体可以是欧氏距离计算公式、杰卡尔德相似系数算法或者余弦相似度算法等。

比较各第三相似度的大小,将第三数量个大的第三相似度对应的第二答案作为最终检索结果。

针对各第一检索结果,由于第四分析结果反映了该第一检索结果的语义,第五分析结果反映了第二答案的语义,而第四特征向量代表了第四分析结果的特征,第五特征向量代表了第五分析结果的特征,因此,第四特征向量与第五特征向量的第三相似度能够用于表征第一检索结果和第二答案的相似度。

在此基础上,由于第一检索结果与待回答文本内容对应,因此,可以通过第一检索结果建立第二答案与待回答文本内容的联系,与第一检索结果越相似,则代表与待回答文本内容越匹配。因此,可以比较各第三相似度的大小,将第三数量个大的第三相似度对应的第二答案,作为待回答文本内容的最终检索结果。例如,第三相似度s1由第四特征向量ca1与第二答案b1的第五特征向量cb1计算得到,第三相似度s2由第四特征向量ca2与第二答案b2的第五特征向量cb2计算得到,第三相似度s3由第四特征向量ca3与第二答案b3的第五特征向量cb3计算得到。各第三相似度的大小为s2>s1>s3,第三数量为2,因此,将第三相似度s2和s1对应的第二答案b2以及第二答案b1作为最终检索结果。

考虑到在实际应用中,简单问句形式的问题型待回答文本内容,以及包括多个分句的复杂形式的事实描述型待回答文本内容都有可能出现,而对问题型待回答文本内容的答案检索前所进行的语法分析,相对于语义依存分析而言要获取的信息较少。因此,可以针对不同类型的待回答文本内容进行不同的处理,以提高检索效率。

如图3所示,本发明另一实施例的信息检索方法的流程,该方法可以包括:

s301,利用预设分类算法,确定待回答文本内容的类型。当所述待回答文本内容的类型为事实描述型时,执行步骤s302至s303,当所述待回答文本内容的类型为问题型时,执行步骤s304至s305。

根据待回答文本内容的特点,可以将待回答文本内容分为以简单的问句形式描述的问题型文本内容,以及以包括多个分句的复杂形式描述的事实描述型文本内容。

其中,预设分类算法具体可以为支持向量机算法、逻辑回归算法或者利用预先收集的多个问题型待回答文本内容样本和多个事实描述型待回答文本内容样本预先训练得到的卷积神经网络。

s302,利用预设语义依存算法处理待回答文本内容,得到第一分析结果。

s303,基于第一分析结果,检索第一知识库,得到第一检索结果。

s302至s303是与本发明图1所示实施例中的s101至s102相同的步骤,在此不再赘述,详见上述图1所示实施例的描述。

s304,利用预设依存语法算法处理所述待回答文本内容,得到第二分析结果,第二分析结果包括待回答文本内容中分词的语法关系信息、待回答文本内容的咨询目的分词以及观点信息,观点信息包括待回答文本内容中分别用于表示事件原因、事件结果以及咨询目的的各分词中的至少一个。

其中,依存语法分析算法,具体可以分析语言单位内分词之间的依存关系(例如“主谓宾”、“定状补”)得到语法依存树,基于语法依存树解析出这些分词之间的语法关系信息。具体可以有14种语法关系信息:主谓关系、动宾关系、间宾关系、前置宾语、兼语、定中关系、状中结构、动补结构、并列关系、介宾关系、左附加、右附加、独立关系、核心关系。例如,待回答文本内容“酒驾有哪些处罚?”的第二分析结果中,分词的语法关系信息为【主谓关系“酒驾,有”,宾补关系“哪些,处罚”,动宾关系“有,哪些”】。

在确定待回答文本内容中分词的语法关系信息的基础上,可以根据语言表述习惯,将符合预设语法关系的分词确定为待回答文本内容中的咨询目的分词。例如,基于上述分词的语法关系信息【主谓关系“酒驾,有”,宾补关系“哪些,处罚”,动宾关系“有,哪些”】,确定咨询目的分词为【处罚】。

利用得到的语法关系信息和咨询目的分词,可以整理得到待回答文本内容“酒驾有哪些处罚?”的观点信息【事件原因“酒驾”;咨询目的“处罚”】。或者,通过上述方法,整理得到待回答文本内容“被汽车撞倒骨折,有哪些赔偿?”的观点信息【事件原因“撞倒”;事件结果“骨折”;咨询目的“赔偿”】。

s305,基于第二分析结果,检索第二知识库,得到第二检索结果,第二检索结果为第二分析结果对应的第二答案,第二知识库中包括第二答案,以及预设的第二分析结果与第二答案的对应关系。

其中,预设的第一分析结果与第一答案的对应关系,具体可以是预先对第二答案进行与待回答文本内容相同的预设依存语法算法处理,得到第二答案的第六分析结果,以第六分析结果的形式将第二答案存储在第二知识库中,则预设的第二分析结果与第二答案的对应关系为第二分析结果与第二答案相同时,确定第二分析结果与第二答案对应。或者,可以将第二答案直接存储在第二知识库中,检索时获取第二答案的第六分析结果,则预设的第二分析结果与第二答案的对应关系为第二分析结果与第六分析结果相同时,确定第二分析结果与第二答案对应。任何用于表示第二分析结果与第二答案的对应关系的方式,均可用于本发明,本实施例对此不作限制。

可选的,本发明图3所示实施例的步骤s303中,预设的第一分析结果与答案的对应关系的确定方法,具体可以包括:

利用预设语义依存算法分别处理多个预先收集的已回答文本内容,得到各已回答文本内容的第三分析结果,第三分析结果包括已回答文本内容的事件关系信息和已回答文本内容中分词的角色标注信息,已回答文本内容的答案为第一知识库中的第一答案。

已回答文本内容的答案往往可以作为非常有效的知识库数据,而从知识库中检索待回答文本内容的答案时,则需要确定知识库中的答案是否与待回答内容相匹配。为此,可以对已回答文本内容进行与待回答文本内容相同的预设语义依存算法处理,得到已回答文本内容的第三分析结果。将已回答文本内容以第三分析结果的形式(例如,【主体角色,事件关系,客体角色】这样的三元组形式)用于对第一知识库中的已回答文本内容的检索。

针对各已回答文本内容,利用预先训练得到的第一循环神经网络处理第三分析结果,得到第三分析结果的第一特征向量,第一循环神经网络为利用多个预先收集的已回答文本内容样本的事件关系信息和已回答文本内容样本中分词的角色标注信息训练得到的。

其中,第一特征向量用于表示第三分析结果的特征,代表了已回答文本内容的语义。

将各第一特征向量确定为预设的的第一分析结果与第一答案的对应关系。

考虑到第一答案是已回答文本内容的答案,第一答案与已回答文本内容是匹配的,因此,为了确定与待回答文本内容匹配的第一答案,可以基于已回答文本内容的第三分析结果,确定已回答文本内容与待回答文本内容的相似度。基于此,可以将各第三分析结果的各第一特征向量确定为预设的的第一分析结果与第一答案的对应关系,当第一特征向量与第一分析结果相似时,则确定第一特征向量对应的第三分析结果与第一分析结果相似,进而确定第三分析结果对应的已回答文本内容与第一分析结果相似,由此,确定该已回答文本内容的答案与第一分析结果相似。

相应的,本发明图3所示实施例的步骤s303,具体可以包括:

利用预先训练得到的第一循环神经网络处理第一分析结果,得到第一分析结果的第二特征向量。

其中,第二特征向量用于表示第一分析结果的特征,代表了待回答文本内容的语义。

针对各第一特征向量,利用预设相似度算法,计算得到第一特征向量与第二特征向量的第一相似度。

其中,预设相似度算法具体可以是欧氏距离计算公式、杰卡尔德相似系数算法或者余弦相似度算法等。

比较各第一相似度的大小,将第一数量个大的第一相似度对应的第一答案确定为第一检索结果。

考虑到对于事实描述型待回答文本内容而言,待回答文本内容与答案往往采用不同方式描述,语义也存在差异,很难直接进行匹配度计算可行性。而已回答文本内容与待回答文本内容越相似,则代表已回答文本内容的第一答案与待回答文本内容越匹配。因此,可以比较各第一相似度的大小,将第一数量个大的第一相似度对应的第一答案,确定为第一检索结果。

例如,第一相似度s11由第一特征向量c11与第二特征向量c21计算得到,第一相似度s12由第一特征向量c12与第二特征向量c22计算得到,第一相似度s13由第一特征向量c13与第二特征向量c23计算得到。各第一相似度的大小为s12>s11>s13,第一数量为2,因此,将第一相似度s12、s11分别对应的第一答案a1和a2作为最终检索结果。

在上述图3所示实施例的基础上,为了提高信息检索结果的准确性,还可以对检索得到的第一检索结果进行与待回答内容的相似度计算,进而对第一检索结果进行排序,以保证第一检索结果与待回答文本内容的匹配性。

由此,可选的,在上述比较各第一相似度的大小,将第一数量个大的第一相似度对应的答案确定为第一检索结果之后,本发明另一实施例提供的信息检索方法还可以包括:

针对各第一检索结果,利用预设语义依存算法处理第一检索结果,得到第四分析结果,第四分析结果包括第一检索结果的事件关系信息和第一检索结果中分词的角色标注信息。

利用第一循环神经网络处理第四分析结果,得到第四分析结果的第三特征向量。

利用预设相似度算法,计算得到第三特征向量与第二特征向量的第二相似度。

其中,第三特征向量代表了第四分析结果对应的第一检索结果的语义。第二特征向量用于表示第一分析结果的特征,代表了待回答文本内容的语义。

比较各第二相似度的大小,将第二数量个大的第二相似度对应的第一检索结果作为最终检索结果。

例如,第二相似度s21由第三特征向量c31与第二特征向量c21计算得到,第二相似度s22由第三特征向量c32与第二特征向量c22计算得到,第二相似度s23由第三征向量c33与第二特征向量c23计算得到。各第二相似度的大小为s22>s21>s23,第二数量为2,因此,将第二相似度s22、s21分别对应的第二答案a1和a2作为最终检索结果。

在实际应用中,还可能出现多个第二相似度相同的情况,此时,表明这些相同的第二相似度对应的第一检索结果与待回答文本内容的匹配度高于其他第一检索结果,且很有可能将多个相同的答案确定为检索结果。为了在保证检索结果与待回答文本内容匹配度的同时,扩充检索结果的多样性,为用户提供更多的答案以便选择,需要对这些相似度相同的答案进行过滤,并重新排序。

由此,可选的,在上述比较各所述第二相似度的大小,将第二数量个大的所述第二相似度对应的第一检索结果作为最终检索结果之前,本发明另一实施例提供的信息检索方法还可以包括:

合并相同的第二相似度,作为第一合并相似度。

将相同的第二相似度对应的第一检索结果中的一个,作为第一合并相似度对应的第一检索结果。

为了在保证检索结果与待回答文本内容匹配度的同时,扩充检索结果的多样性,为用户提供更多的答案以便选择,需要对相似度相同的答案进行过滤。因此,从相同的第二相似度对应的第一检索结果中选择一个,而将除该被选择的第一检索结果以外的、该相同的第二相似度对应的第一检索结果过滤。过滤可以是删除或者不再参与后续的重新排序。同时,出现多个相同的相似度,则表明这些相同相似度对应的第一检索结果与待回答文本内容匹配度高,为了避免过滤降低对相同相似度对应的第一检索结果的选取概率,需要合并相同的第二相似度,作为第一合并相似度。

相应的,上述比较各第二相似度的大小,将第二数量个大的第二相似度对应的第一检索结果作为最终检索结果,可以包括:

比较各第二相似度和第一合并相似度的大小,将第二数量个大的相似度对应的第一检索结果作为最终检索结果。

例如,第二相似度s21由第三特征向量c31与第二特征向量c21计算得到,第二相似度s22由第三特征向量c32与第二特征向量c22计算得到,第二相似度s23由第三征向量c33与第二特征向量c23计算得到,第二相似度s24由第三征向量c34与第二特征向量c24计算得到。各第二相似度的大小为s22>s21>s23=s24,第二数量为2。将第二相似度s23、s24合并得到第一合并相似度s234,比较各第二相似度和第一合并相似度的大小为s22>s234>s22,则将s22、s234分别对应的第二答案a2和a3或者a4作为最终检索结果。

考虑到在实际应用中,简单问句形式的问题型待回答文本内容,以及包括多个分句的复杂形式的事实描述型待回答文本内容都有可能出现,而对问题型待回答文本内容的答案检索前所进行的语法分析,相对于语义依存分析而言要获取的信息较少。因此,可以针对不同类型的待回答文本内容进行不同的处理,以提高检索效率。

由此,可选的,本发明图3所示实施例的步骤s304,具体可以包括:

当待回答文本内容的类型为问题型时,利用预设依存语法算法处理待回答文本内容,得到待回答文本内容中分词的语法关系信息。

例如,待回答文本内容“被汽车撞倒骨折,有哪些赔偿?”的第二分析结果中,分词的语法关系信息为【主谓关系“汽车,撞倒”,宾补关系“撞倒,骨折”,动宾关系“有,哪些赔偿”】。

基于语法关系信息,利用预设焦点信息确定规则,确定待回答文本内容的焦点信息,焦点信息包括待回答文本内容中词性为指定词性的分词。

其中,焦点信息用于表明待回答问题中用于确定答案的关键信息。预设焦点信息确定规则具体可以包括基于语法关系信息中的指定关系,将该关系对应的待回答文本内容中指定词性的分词确定为焦点信息中的分词。例如,指定关系可以是【主谓关系“撞倒,骨折”】和【动宾关系“有,哪些赔偿”】,指定词性可以是动词,由此确定焦点信息为【“撞倒,赔偿”】。由于待回答文本内容表述形式的多样性,指定关系和指定词性可以根据已得到的第二分析结果进行针对性设置,本实施例对此不作限制,任何能够用于确定出焦点信息的指定关系和指定词性设置均可用于本发明。

基于语法关系信息和焦点信息,利用预先训练得到的深度神经网络,确定待回答文本内容的咨询目的分词,深度神经网络为利用多个预先收集的待回答文本内容样本的语法关系信息和焦点信息进行训练得到的。

根据语言习惯,咨询目的通常是焦点信息中特定语法关系中的分词,例如基于【主谓关系“撞倒,骨折”】和焦点信息【“撞倒,赔偿”】,可以确定咨询目的分词是“赔偿”,而特定语法关系随待回答文本内容的表述形式多样性具有不固定的特点,不同待回答文本内容的特定语法关系可能不同。因此,咨询目的分词的确定相当于多分类,可以利用由预先收集的多个待回答文本内容样本预先训练得到的深度神经网络,确定目的分词。

基于语法关系信息、焦点信息和咨询目的分词,利用预设观点确定规则,确定待回答文本内容的的观点信息。

其中,预设观点确定规则具体可以是将焦点信息中非咨询目的的分词确定为事件原因,将主谓关系中的分词确定为事件结果。例如,将焦点信息【“撞倒驾,赔偿”】中非咨询目的的分词“撞倒”确定为事件原因,将【主谓关系,“撞倒,骨折”】确定为事件结果。由此,利用得到的语法关系信息和咨询目的分词,可以整理得到待回答文本内容“被汽车撞倒骨折,有哪些赔偿?”的观点信息【事件原因“撞倒”;事件结果“骨折”;咨询目的“赔偿”】。

实际应用中,知识库中往往包含大量答案,对于问题型待回答文本内容而言,咨询目的和观点信息往往可以表明待回答文本内容的答案可以在哪些答案中进行搜索。由此,为了提高从大量答案中确定检索结果的效率,可以基于上述得到的咨询目的和观点信息确定检索范围,再进行检索。

因此,可选的,本发明图3所示实施例的步骤s305,具体可以包括:

基于咨询目的分词和观点信息,将第二知识库中包含预设关键词的第二答案,确定为备选答案。

基于语法关系信息,将与语法关系信息对应的备选答案确定为第二检索结果。

其中,预设关键词可以根据第二答案所属的专业领域、答案类型等表征第二答案唯一性的信息进行设置,例如,根据第二答案属于法律领域,可将答案所在法律条例的类型设置为关键词(如民法、刑法等);根据第二答案属于电子信息领域,可将答案所在信息技术类型设置为关键词(如通信、计算机等)。

在此基础上,咨询目的分词和观点信息表明了待回答文本内容的关键信息和咨询目的,可建立咨询目的分词和观点信息与关键词的对应关系。例如,观点信息【事件原因“酒驾”;咨询目的“处罚”】的对应关键词是“交通管理条例”、“刑法”,从而将第二知识库中包含预设关键词“交通管理条例”、“刑法”的第二答案,确定为备选答案。

在将检索范围缩小到从备选答案中检索后,由于备选答案是利用第二分析结果中的咨询目的分词和观点信息确定,相当于与咨询目的分词和观点信息对应,在此基础上,只需要保证第二检索结果与第二分析结果中的语法关系信息对应,就能保证第二检索结果与第二分析结果对应。因此,可以基于语法关系信息,将与语法关系信息对应的备选答案确定为第二检索结果。

当然,与上述对本发明图3所示实施例中得到的第一检索结果进行相似度排序、相同检索结果过滤以及重新排序类似的,可以采用同样的方式对本发明图3所示实施例中得到的第二检索结果进行相似度排序、相同检索结果的过滤以及重新排序。

由此,可选的,当第二检索结果为多个时,在上述基于所述语法关系信息,将所述备选答案中与所述语法关系信息对应的答案确定为第二检索结果之后,本发明另一实施例提供的信息检索方法还可以包括:

针对各第二检索结果,利用预设语义依存算法处理所述第二检索结果,得到第五分析结果,第五分析结果包括第二检索结果的事件关系信息和第二检索结果中分词的角色标注信息。

利用预先训练得到的第二循环神经网络分别处理第五分析结果和第二分析结果,得到第五分析结果的第六特征向量与第二分析结果的第二特征向量,第二循环神经网络为利用多个预先收集的第二答案样本的事件关系信息和第二答案样本中分词的角色标注信息训练得到的。

与对第一检索结果进行相似度排序、相同检索结果过滤以及重新排序不同的是,语义分析的对象为第二检索结果,相应的,特征提取的对象为第二检索结果对应的第五分析结果。

其中,第六特征向量代表了第五分析结果对应的第二检索结果的语义。第二特征向量代表了问题型待回答文本内容的语义。

利用预设相似度算法,计算得到第三特征向量与第二特征向量的第四相似度。

其中,预设相似度算法具体可以是欧氏距离计算公式、杰卡尔德相似系数算法或者余弦相似度算法等。

比较各第四相似度的大小,将第四数量个大的所述第四相似度对应的第二检索结果作为最终检索结果。

例如,第四相似度s41由第三特征向量c31与第二特征向量c21计算得到,第四相似度s42由第三特征向量c32与第二特征向量c22计算得到,第四相似度s43由第三征向量c33与第二特征向量c23计算得到。各第四相似度的大小为s42>s41>s43,第二数量为2,因此,将第四相似度s42、s41分别对应的第二答案b1和b2作为最终检索结果。

可选的,对第二检索结果进行相同内容的过滤以及重新排序时,具体可以是在上述根据各第四相似度的大小,将第四数量个大的所述第四相似度对应的第二检索结果作为所述待回答文本内容的答案之前,执行以下步骤:

合并相同的第四相似度,作为第二合并相似度。

保留相同的第四相似度对应的第二检索结果中的一个,作为第二合并相似度对应的第二检索结果。

为了在保证检索结果与待回答文本内容匹配度的同时,扩充检索结果的多样性,为用户提供更多的答案以便选择,需要对相似度相同的答案进行过滤。因此,从相同的第四相似度对应的第二检索结果中选择一个,而将除该被选择的第二检索结果以外的、该相同的第四相似度对应的第二检索结果过滤。过滤可以是删除或者不再参与后续的重新排序。同时,出现多个相同的相似度,则表明这些相同相似度对应的第二检索结果与待回答文本内容匹配度高,为了避免过滤降低对相同相似度对应的第二检索结果的选取概率,需要合并相同的第四相似度,作为第二合并相似度。

相应的,根据各第四相似度的大小,将第四数量个大的所述第四相似度对应的第二检索结果作为最终检索结果,具体可以包括:

根据各第四相似度和所述第二合并相似度的大小,将第四数量个大的相似度对应的第二检索结果作为最终检索结果。

例如,第四相似度s41由第三特征向量c31与第二特征向量c21计算得到,第四相似度s42由第三特征向量c32与第二特征向量c22计算得到,第四相似度s43由第三征向量c33与第二特征向量c23计算得到,第四相似度s44由第三征向量c34与第二特征向量c24计算得到。各第四相似度的大小为s42>s41>s43=s44,第二数量为2。将第四相似度s43、s44合并得到第二合并相似度s434,比较各第四相似度和第二合并相似度的大小为s42>s434>s42,则将s42、s434分别对应的第二答案b2和b3或者b4作为最终检索结果。

当然,上述各实施例在确定了检索结果之后,还可以将检索结果返回给用户。具体可以是在问题结果页面展示,也可以是向用户发送检索结果消息。任何可以用于向用户返回检索结果的方式均可用于本发明,本发明实施例对此不作限制。

此外,上述各实施例中,检索结果的数量仅为示例性说明,检索结果的数量具体可以根据实际应用进行调整,以满足用户对待回答问题的答案的需求,本发明实施例对此不作限制。

相应于上述方法实施例,本发明一实施例还提供了信息检索装置。

如图4所示,本发明一实施例的信息检索装置的结构示意图,该装置可以包括:

分析模块401,用于利用预设语义依存算法处理待回答文本内容,得到第一分析结果,第一分析结果包括待回答文本内容中分词的角色标注信息和待回答文本内容的事件关系信息;

检索模块402,用于基于第一分析结果,检索第一知识库,得到第一检索结果,第一检索结果为与第一分析结果对应的第一答案,第一知识库包括第一答案,以及预设的第一分析结果与第一答案的对应关系。

可选的,上述待回答文本内容的类型包括问题型和事实描述型。

相应的,本发明图3所示实施例中的分析模块401还用于:

利用预设分类算法,确定待回答文本内容的类型;

当待回答文本内容的类型为事实描述型时,执行利用预设语义依存算法处理待回答文本内容,得到第一分析结果。

可选的,本发明图3所示实施例中的分析模块401还用于:

当待回答文本内容的类型为问题型时,利用预设依存语法算法处理所述待回答文本内容,得到第二分析结果,第二分析结果包括所述待回答文本内容中分词的语法关系信息、待回答文本内容的咨询目的分词以及观点信息,所观点信息包括所述待回答文本内容中分别用于表示事件原因、事件结果以及咨询目的的各分词中的至少一个。

相应的,检索模块402,还用于:

基于第二分析结果,检索第二知识库,得到第二检索结果,第二检索结果为第二分析结果对应的第二答案,第二知识库中包括第二答案,以及预设的第二分析结果与第二答案的对应关系。

本发明实施例提供的一种信息检索装置,通过利用预设语义依存分析算法处理待回答文本内容得到第一分析结果,由于第一分析结果包括待回答文本内容的事件关系信息和待回答文本内容中分词的角色标注信息,反映了待回答文本内容的语义。因此,基于第一分析结果检索第一知识库、并将第一分析结果对应的的答案确定为第一检索结果,实现了语义层面的答案检索,从而避免以句法成分从文字层面检索造成的答案与咨询语义不相符的问题,提高了智能问答的信息检索准确性。

如图5所示,本发明另一实施例的信息检索装置的结构示意图,该装置可以包括:

分析模块501,用于利用预设语义依存算法处理待回答文本内容,得到第一分析结果,第一分析结果包括所述待回答文本内容中分词的角色标注信息和所述待回答文本内容的事件关系信息;

检索模块502,用于基于第一分析结果,检索第一知识库,得到第一检索结果,第一检索结果为与所述第一分析结果对应的第一答案,第一知识库包括第一答案,以及预设的第一分析结果与第一答案的对应关系;

501和502是与本发明图3所示实施例中的401和402相同的模块;

分析模块501,还用于利用预设语义依存算法分别处理多个预先收集的已回答文本内容,得到各已回答文本内容的第三分析结果,第三分析结果包括已回答文本内容的事件关系信息和已回答文本内容中分词的角色标注信息,已回答文本内容的答案为第一知识库中的第一答案;

分析模块501还包括特征提取子模块5010,用于针对各已回答文本内容,利用预先训练得到的第一循环神经网络处理第三分析结果,得到第三分析结果的第一特征向量,第一循环神经网络为利用多个预先收集的已回答文本内容样本的事件关系信息和已回答文本内容样本中分词的角色标注信息训练得到的。将各所述第一特征向量确定为预设的的第一分析结果与第一答案的对应关系。

相应的,检索模块502,具体用于:

利用预先训练得到的第一循环神经网络处理第一分析结果,得到第一分析结果的第二特征向量;

针对各第一特征向量,利用预设相似度算法,计算得到第一特征向量与所述第二特征向量的第一相似度;

比较各第一相似度的大小,将第一数量个大的第一相似度对应的第一答案确定为第一检索结果;

相应的,分析模块501还用于:

针对各第一检索结果,利用预设语义依存算法处理所述第一检索结果,得到第四分析结果,第四分析结果包括所述第一检索结果的事件关系信息和第一检索结果中分词的角色标注信息;

特征提取子模块5010,还用于利用第一循环神经网络处理第四分析结果,得到第四分析结果的第三特征向量;

分析模块501还包括相似度确定子模块5011,用于利用预设相似度算法,计算得到第三特征向量与第二特征向量的第二相似度;

检索模块502还包括排序子模块5020,用于比较各所述第二相似度的大小,将第二数量个大的所述第二相似度对应的第一检索结果作为最终检索结果;

检索模块502还包括过滤子模块5021,用于合并相同的二相似度,作为第一合并相似度。将相同的第二相似度对应的第一检索结果中的一个,作为第一合并相似度对应的第一检索结果;

相应的,排序子模块5020,具体用于比较各所述第二相似度和所述第一合并相似度的大小,将第二数量个大的所述相似度对应的第一检索结果作为最终检索结果。

考虑到在实际应用中,简单问句形式的问题型待回答文本内容,以及包括多个分句的复杂形式的事实描述型待回答文本内容都有可能出现,而对问题型待回答文本内容的答案检索前所进行的语法分析,相对于语义依存分析而言要获取的信息较少。因此,可以针对不同类型的待回答文本内容进行不同的处理,以提高检索效率。

由此,可选的,分析模块501,还用于:

当待回答文本内容的类型为问题型时,利用预设依存语法算法处理所述待回答文本内容,得到待回答文本内容中分词的语法关系信息;

基于语法关系信息,利用预设问题焦点确定规则,确定待回答文本内容的焦点信息,焦点信息包括所述待回答文本内容中词性为指定词性的分词;

基于语法关系信息和焦点信息,利用预先训练得到的深度神经网络,确定所述待回答文本内容的咨询目的分词,所述深度神经网络为利用多个预先收集的待回答文本内容样本的语法关系信息和焦点信息进行训练得到的;

基于语法关系信息、焦点信息和咨询目的分词,利用预设观点确定规则,确定所述待回答文本内容的的观点信息。

可选的,检索模块502,还用于:

基于咨询目的分词和所述观点信息,将所述第二知识库中包含预设关键词的第二答案,确定为备选答案;

基于语法关系信息,将与语法关系信息对应的备选答案确定为第二检索结果。

可选的,当第二检索结果为多个时,分析模块501,还用于

针对各第二检索结果,利用预设语义依存算法处理所述第二检索结果,得到第五分析结果,第五分析结果包括第二检索结果的事件关系信息和第二检索结果中分词的角色标注信息;

相应的,特征提取子模块5010,还用于利用预先训练得到的第二循环神经网络分别处理第五分析结果和第二分析结果,得到第五分析结果的第三特征向量与第二分析结果的第二特征向量,第二循环神经网络为利用多个预先收集的第二答案样本的事件关系信息和第二答案样本中分词的角色标注信息训练得到的;

相似度确定子模块5011,还用于利用预设相似度算法,计算得到第三特征向量与第二特征向量的第四相似度;

排序子模块5020,还用于比较各第四相似度的大小,将第四数量个大的所述第四相似度对应的第二检索结果作为最终检索结果;

过滤子模块5021,还用于合并相同的第四相似度,作为第二合并相似度。保留相同的所述第四相似度对应的所述第二检索结果中的一个,作为所述第二合并相似度对应的第二检索结果;

相应的,排序子模块5020,还用于根据各第四相似度和第二合并相似度的大小,将第四数量个大的相似度对应的第二检索结果作为最终检索结果。

相应于上述实施例,本发明实施例还提供了一种计算机设备,如图6所示,可以包括:

处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器通603过通信总线604完成相互间的通信;

存储器603,用于存放计算机程序;

处理器601,用于执行上述存储器603上所存放的计算机程序时,实现上述实施例中任一文本生成方法的步骤。

本发明实施例提供的一种计算机设备,通过利用预设语义依存分析算法处理待回答文本内容得到第一分析结果,由于第一分析结果包括待回答文本内容的事件关系信息和待回答文本内容中分词的角色标注信息,反映了待回答文本内容的语义。因此,基于第一分析结果检索第一知识库、并将第一分析结果对应的的答案确定为第一检索结果,实现了语义层面的答案检索,从而避免以句法成分从文字层面检索造成的答案与咨询语义不相符的问题,提高了智能问答的信息检索准确性。

上述存储器可以包括ram(randomaccessmemory,随机存取存储器),也可以包括nvm(non-volatilememory,非易失性存储器),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离于上述处理器的存储装置。

上述处理器可以是通用处理器,包括cpu(centralprocessingunit,中央处理器)、np(networkprocessor,网络处理器)等;还可以是dsp(digitalsignalprocessor,数字信号处理器)、asic(applicationspecificintegratedcircuit,专用集成电路)、fpga(field-programmablegatearray,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明一实施例提供的计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,该计算机程序被处理器执行时,实现上述任一实施例中文本生成方法的步骤。

本发明实施例提供的一种计算机可读存储介质,该计算机程序被处理器执行时,实现利用预设语义依存分析算法处理待回答文本内容得到第一分析结果,由于第一分析结果包括待回答文本内容的事件关系信息和待回答文本内容中分词的角色标注信息,反映了待回答文本内容的语义。因此,基于第一分析结果检索第一知识库、并将第一分析结果对应的的答案确定为第一检索结果,实现了语义层面的答案检索,从而避免以句法成分从文字层面检索造成的答案与咨询语义不相符的问题,提高了智能问答的信息检索准确性。

在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一实施例中文本生成方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、dsl(digitalsubscriberline,数字用户线)或无线(例如:红外线、无线电、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如:dvd(digitalversatiledisc,数字通用光盘))、或者半导体介质(例如:ssd(solidstatedisk,固态硬盘))等。

在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和计算机设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1