基于语音语义的信息检索方法、及其相关设备与流程

文档序号:22545556发布日期:2020-10-17 02:14阅读:156来源:国知局
基于语音语义的信息检索方法、及其相关设备与流程

本申请涉及人工智能,尤其涉及一种基于语音语义的信息检索方法、装置、计算机设备及存储介质。



背景技术:

随着人工智能的发展,智能问答在bi(businessintelligence,商业智能)系统中的应用越来越广泛。智能问答涉及人工智能领域中的语义解析及语音识别等,通常是由计算机获取用户针对某事物的查询指令,对查询指令进行分析并检索到对应的答案信息后进行展示。在智能问答中,用户的查询内容和表达方式多种多样,难以进行限制,因此准确理解用户的查询意图并准确快速地检索到答案信息,是实现智能问答的关键。

传统的智能问答技术为了应对用户不确定的输入,通常采用关键字捕捉,即依据用户查询语句中的关键字进行检索。然而仅仅通过关键字捕捉难以理解用户输入的完整的问句,也难以检索到满足用户意图的答案信息,信息检索的准确性较低。



技术实现要素:

本申请实施例的目的在于提出一种基于语音语义的信息检索方法、装置、计算机设备及存储介质,以解决信息检索准确性较低的问题。

为了解决上述技术问题,本申请实施例提供一种基于语音语义的信息检索方法,采用了如下所述的技术方案:

获取输入的用户查询语句;

解析所述用户查询语句,将所述用户查询语句中的实例实体替换为概念实体,得到模板查询语句;所述概念实体为所述实例实体所属的实体类型;计算所述模板查询语句与问句语料库中各库存查询语句的相似度;

根据计算得到的相似度确定与所述模板查询语句匹配的库存查询语句,以及与所述库存查询语句对应的检索逻辑式;

根据所述实例实体对检索逻辑式进行更新;

基于更新后的检索逻辑式生成检索树;

根据所述检索树对数据库进行信息检索,并展示检索到的答案信息。

进一步的,所述解析所述用户查询语句,将所述用户查询语句中的实例实体替换为概念实体,得到模板查询语句的步骤具体包括:

识别所述用户查询语句中的实例实体,并通过语义识别确定所述实例实体的实体类型以得到表示所述实体类型的概念实体;

从标准实体列表中查询与所述实例实体所对应的标准实体;

将所述用户查询语句中的实例实体替换为所述概念实体得到模板查询语句,并将所述实例实体与所述标准实体关联存储。

进一步的,所述根据所述实例实体对检索逻辑式进行更新的步骤具体包括:

获取与所述实例实体关联存储的标准实体;

将所述检索逻辑式中的标准实体替换为获取到的标准实体。

进一步的,所述基于更新后的检索逻辑式生成检索树的步骤具体包括:

识别检索逻辑式的检索类型;

当所述检索类型为单一三元组单一介质检索时,生成单一三元组单一介质检索树;

当所述检索类型为多三元组多介质检索时,生成多三元组多介质检索树。

进一步的,所述根据所述检索树对数据库进行信息检索,并展示检索到的答案信息的步骤具体包括:

对所述检索树进行深度优先遍历,以确定与所述检索树对应的检索策略,并基于所述检索策略确定信息类型;

根据所述检索策略对数据库进行信息检索,得到答案信息;

依据所述信息类型对所述答案信息进行展示;

将所述答案信息上传至区块链中。

进一步的,所述依据所述信息类型对所述答案信息进行展示的步骤具体包括:

当所述信息类型为单一实体单一属性或实体关系时,以文本展示所述答案信息;

当所述信息类型为单一实体多属性或多实体单一属性时,以柱状图展示所述答案信息;

当所述信息类型为属性变化趋势时,以折线图展示所述答案信息。

进一步的,所述根据所述检索树对数据库进行信息检索,并展示检索到的答案信息的步骤之后,还包括:

将所述模板查询语句设置为库存查询语句以更新所述问句语料库;

将所述问句语料库中新添加的库存查询语句与所述更新后的检索逻辑式互相关联。

为了解决上述技术问题,本申请实施例还提供一种基于语音语义的信息检索装置,包括:

语句获取模块,用于获取输入的用户查询语句;

实体替换模块,用于解析所述用户查询语句,将所述用户查询语句中的实例实体替换为概念实体,得到模板查询语句;所述概念实体为所述实例实体所属的实体类型;

相似度计算模块,用于计算所述模板查询语句与问句语料库中各库存查询语句的相似度;

语句确定模块,用于根据计算得到的相似度确定与所述模板查询语句匹配的库存查询语句,以及与所述库存查询语句对应的检索逻辑式;

逻辑式更新模块,用于根据所述实例实体对检索逻辑式进行更新;

检索树生成模块,用于基于更新后的检索逻辑式生成检索树;

信息检索模块,用于根据所述检索树对数据库进行信息检索,并展示检索到的答案信息。

为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述所述的基于语音语义的信息检索方法的步骤。

为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于语音语义的信息检索方法的步骤。

与现有技术相比,本申请实施例主要有以下有益效果:先将获取到的用户查询语句中的实例实体进行替换,得到模板查询语句,模板查询语句对用户查询语句进行个性化去除,再计算模板查询语句与语料库中各库存查询语句的相似度,根据相似度确定与用户查询语句匹配的库存查询语句及其检索逻辑式,以提升对各种形式的用户查询语句的处理能力,保证信息检索的准确性和可用性;根据检索逻辑式生成检索树,检索树指示如何从多个数据库中检索信息,基于检索树进行检索可以准确地从数据库中检索到用户查询语句所针对的信息,进一步确保了信息检索的准确性。

附图说明

为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图;

图2是根据本申请的基于语音语义的信息检索方法的一个实施例的流程图;

图3是一个实施例中单一三元组单一介质检索树的示意图;

图4是一个实施例中多三元组多介质检索树的示意图;

图5是图2中步骤s207的一种具体实施方式的流程图;

图6是一个实施例中以柱状图展示答案信息的示意图;

图7是一个实施例中以折线图展示答案信息的示意图;

图8是根据本申请的基于语音语义的信息检索装置的一个实施例的结构示意图;

图9是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(movingpictureexpertsgroupaudiolayeriii,动态影像专家压缩标准音频层面3)、mp4(movingpictureexpertsgroupaudiolayeriv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是,本申请实施例所提供的基于语音语义的信息检索方法一般由服务器执行,相应地,基于语音语义的信息检索装置一般设置于服务器中。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

继续参考图2,示出了根据本申请的基于语音语义的信息检索方法的一个实施例的流程图。所述的基于语音语义的信息检索方法,包括以下步骤:

步骤201,获取输入的用户查询语句。

在本实施例中,基于语音语义的信息检索方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式与终端进行通信。需要指出的是,上述无线连接方式可以包括但不限于3g/4g连接、wifi连接、蓝牙连接、wimax连接、zigbee连接、uwb(ultrawideband)连接、以及其他现在已知或将来开发的无线连接方式。

其中,用户查询语句可以是用户输入的查询语句。

具体地,用户在信息检索页面中以文本形式输入用户查询语句,由展示信息检索页面的终端将用户查询语句发送至服务器。用户也可以通过语音查询提问,输入的语音经过语音识别转换为文本形式的用户查询语句。用户可以通过支持语音输入的输入法进行语音查询;也可以由信息检索页面调用第三方提供的应用程序接口对语音进行转换,也可以由终端将语音发送至服务器,由服务器进行语音到文字的转换。

步骤202,解析用户查询语句,将用户查询语句中的实例实体替换为概念实体,得到模板查询语句;概念实体为实例实体所属的实体类型。

其中,实例实体可以是用户查询语句中的命名实体;实体类型可以是实例实体的类别属性。

具体地,服务器对用户查询语句进行解析以识别用户查询语句中的实例实体,通过语义识别确定实例实体的实体类型,以确定实例实体所对应的概念实体。用户查询语句的意图即为指示服务器检索与实例实体相关的信息。实例实体可以是用户查询语句中的命名实体,包括人名、地名、机构名、数字、日期、货币、地址、专有名词等。服务器以概念实体替换用户查询语句中的实例实体,得到模板查询语句;同时,服务器保留被替换掉的实例实体,以便后续操作中组装新的检索逻辑式。

举例说明,用户查询语句为“m是什么时候成立的?”,服务器识别到实例实体“m”,假设“m”为一个公司的简称,公司属于某种机构,与“m”对应的概念实体为“机构”。则将“m”替换为“机构”,得到模板查询语句“<机构>是什么时候成立的?”,同时保留被替换掉的实例实体“m”。

在一个实施例中,解析用户查询语句,将用户查询语句中的实例实体替换为概念实体,得到模板查询语句的步骤具体包括:识别用户查询语句中的实例实体,并通过语义识别确定实例实体的实体类型以得到表示实体类型的概念实体;从标准实体列表中查询与实例实体所对应的标准实体;将用户查询语句中的实例实体替换为概念实体得到模板查询语句,并将实例实体与标准实体关联存储。

具体地,服务器对用户查询语句进行解析,通过命名实体识别(namedentityrecognition,简称ner,又称专名识别)识别用户查询语句中的命名实体,将识别到的命名实体作为实例实体,并通过语义识别确定实例实体所属的实体类型以确定表示该实体类型的概念实体。

用户查询语句中的实例实体可能是简称或不规范称呼,而数据库中存储的信息以标准描述方式存在。标准实体存储在标准实体列表中。

服务器获取预先建立的标准实体列表,通过模糊匹配在标准实体列表中查找与实例实体对应的标准实体。服务器将用户查询语句中的实例实体替换为概念实体从而得到模板查询语句,同时将标准实体与实例实体关联存储在实体关联表中。实体关联表用于存储用户查询语句中的实例实体以及对应的标准实体。

举例说明,用户查询语句中的实例实体为“m”,而“m”是简称,数据库中存储的是全称“m股份有限公司”;“m股份有限公司”是与“m”对应的标准实体。模板替换后,用户查询语句变成“<机构>是什么时候成立的?”,并将实例实体“m”与标准实体“m股份有限公司”进行关联存储,以便后续组装新的检索逻辑式。

本实施例中,识别用户查询语句中的实例实体并确定实例实体的实体类型,以及表示实体类型的概念实体;查询实例实体所对应的标准实体并将用户查询语句中的实例实体替换为概念实体,将用户查询语句从多样化转向标准化,减少了用户查询语句中的个性化信息,有利于后续通过相似度查询库存查询语句,保证了信息检索的准确性;将实例实体和标准实体关联存储以便后续组装新的逻辑检索式。

步骤203,计算模板查询语句与问句语料库中各库存查询语句的相似度。

其中,库存查询语句可以是存储在问句语料库中的语句;检索逻辑式是库存查询语句的另一种体现形式,用于构建检索树并表征检索逻辑。库存查询语句与检索逻辑式相对应,多个库存查询语句可以对应于同一个检索逻辑式。

具体地,服务器访问问句语料库,将问句语料库中的各库存查询语句和模板查询语句转化为句向量。通过预设的相似度公式,计算模板查询语句的句向量与各库存查询语句的句向量之间的相似度。

在一个实施例中,相似度的计算可以采用余弦相似度、编辑距离、杰卡德系数、tfidf系数(在词频tf的基础上加入逆文档频率idf)等方法,其中,余弦相似度按照如下的公式(1)进行计算:

其中,questiona可以是模板查询语句的句向量,questionb可以是库存查询语句的句向量。

步骤204,根据计算得到的相似度确定与模板查询语句匹配的库存查询语句以及与库存查询语句对应的检索逻辑式。

具体地,服务器将计算得到的相似度与预设的相似度阈值相比较,从大于相似度阈值的相似度中,筛选最大相似度所对应的库存查询语句作为与模板查询语句相匹配的库存查询语句。

服务器从问句语料库中查询与该库存查询语句对应的检索逻辑式,建立用户查询语句-模板查询语句-库存查询语句-检索逻辑式之间的映射关系。

举例说明,用户查询语句为“m是什么时候成立的?”,实例实体替换后得到模板查询语句“<机构>是什么时候成立的?”。服务器通过相似度查询到与模板查询语句匹配的库存查询语句为“<机构>的成立日期?”,及其对应的检索逻辑式<v1:unary(class='机构',value='n')><a:binary(v1,注册日期,a?)>,该检索逻辑式中的“n”为变量,是前次检索中被检索的标准实体。

服务器实现了以下的映射关系:用户查询语句:m是什么时候成立的?-模板查询语句:<机构>是什么时候成立的?-库存查询语句:<机构>的成立日期?-检索逻辑式:<v1:unary(class='机构',value='n')><a:binary(v1,注册日期,a?)>。

步骤205,根据实例实体对检索逻辑式进行更新。

具体地,检索逻辑式中存在标准实体,该标准实体是前次检索中被检索的标准实体。服务器需要根据本次检索时用户查询语句中的实例实体对检索逻辑式进行更新。

在一个实施例中,根据实例实体对检索逻辑式进行更新的步骤具体包括:获取与实例实体关联存储的标准实体;将检索逻辑式中的标准实体替换为获取到的标准实体。

具体地,库存查询语句所对应的检索逻辑式中,“n”所在的位置为变量,检索逻辑式中其他部分不可变,而value处的“n”是可变的。前次检索可能是“n的成立日期”,所以检索后检索逻辑式中是“n”,本次要针对“m”进行检索,所以要将“n”替换为“m股份有限公司”,否则生成的检索树是针对“n”的。

服务器从实体关联表中获取与用户查询语句中的实例实体相关联的标准实体,并将检索逻辑式中的标准实体替换为获取到的标准实体。

本实施例中,将检索逻辑式中的标准实体替换为与用户查询语句中的实例实体相关联的标准实体,替换后的检索逻辑式针对本次检索,保证了可以准确地从数据库中获取与本次检索相关的信息。

步骤206,基于更新后的检索逻辑式生成检索树。

其中,检索树可以是基于二叉树的存储结构。

具体地,检索逻辑式中注明了每次检索中最后需要检索的信息。在基于更新后的检索逻辑式构建检索树时,将最后需要检索的信息作为根节点。不同的检索式可以对应于不同的检索类型,不同的检索类型对应不同的检索树结构,服务器根据检索逻辑式填充检索树结构,生成检索树。

检索树可以是二叉树,二叉树分支中的每一个内部节点为需要检索的信息,节点的左右分支为检索条件,二叉树的根节点为最后需要检索的信息。

在一个实施例中,基于更新后的检索逻辑式生成检索树的步骤具体包括:识别检索逻辑式的检索类型;当检索类型为单一三元组单一介质检索时,生成单一三元组单一介质检索树;当检索类型为多三元组多介质检索时,生成多三元组多介质检索树。

其中,检索类型可以是检索的类型,由被检索对象的属性和检索时访问的存储介质确定;存储介质可以是存储信息的数据库。

具体地,不同的检索式可以对应于不同的检索类型,检索类型包括单一三元组单一介质检索和多三元组多介质检索。

当检索类型为单一三元组单一介质检索时,生成单一三元组单一介质检索树。例如,检索单一实体单一属性值时,检索树逻辑形式为<entity=e><attr=a><attr_value=?>

其中,e表示标准实体,attr表示标准实体的属性,这里是属性a,attr_value表示属性a的属性值。

检索树结构包括根节点“属性值”、左叶结点“实体e”和右叶结点“属性a”,该结构仅在单一存储介质内检索一次。

举例说明,检索m的注册日期时,检索树逻辑形式为:

<entity=m股份有限公司><attr=注册日期><attr_value=?>

对应的检索树结构含根节点“属性值”、左叶结点“m股份有限公司”和右叶结点“注册日期”,生成的检索树如图3所示。

当检索类型为多三元组多介质检索时,生成多三元组多介质检索树。单一三元组单一介质检索树和多三元组多介质检索树均为二叉树,但二者深度和形态并不相同。如检索和实例实体具备某种关系的实体的属性值,检索树逻辑形式为

<entity=(<head_entity=he><relation='r'><tail_entity=?>)><attr=a><attr_value=?>

其中,he为标准实体,he是检索树中的头实体head_entity,relation='r'表示he与另一个实体关系为r,另一个实体是检索树中的尾实体tail_entity,attr=a表示尾实体的属性a,attr_value表示属性a的属性值。

检索树结构包含根节点“属性值”、左子树(左叶结点“实体he”、右叶结点“关系r”)和右叶结点“属性a”,该结构在两种存储介质内分别检索一次。

举例说明,检索m的注册日期时,检索树逻辑形式为

<entity=(<head_entity=m股份有限公司><relation=投资><tail_entity=?>)><attr=注册日期><attr_value=?>

对应的检索树结构包含根节点“属性值”、左子树(左叶结点“m股份有限公司”、右叶结点“投资关系”)和右叶结点“注册日期”,生成的检索树如图4所示。

本实施例中,生成与检索逻辑式的检索类型相对应的检索树,检索树指示如何从数据库中检索信息,保证了可以准确地从数据库中获取与用户查询语句相关的信息。

步骤207,根据检索树对数据库进行信息检索,并展示检索到的答案信息。

具体地,检索树的节点是需要检索的信息,各节点的左右分支是对该节点进行检索时所需的检索条件,二叉树的根节点作为最后需要检索的信息。服务器对检索树进行深度优先遍历,以对检索树进行可行性校验并得到检索策略。

举例说明,当用户查询语句为“张三的注册日期是什么?”,则检索树的左叶节点为“张三”,右叶节点为“注册日期”。服务器通过深度优先遍历校验节点是否满足语法,而“张三”是一个人名,与“注册日期”不匹配,即“张三”不具备检索“注册日期”的可行性,返回错误提示信息。深度优先遍历除了可以检验检索树的可行性,还可以确定在数据库中的检索步骤,即需要先检索各节点的左右分支得到各节点的相关信息,最后检索根节点的相关信息。确定的检索步骤即为检索策略,服务器按照检索策略在各数据库中进行检索,检索到答案信息后,将答案信息返回到终端进行展示。

其中,深度优先(depth-first-search)是要达到检索树中的叶结点(即不包含任何分支的节点)。在对检索树进行深度优先检索时,先完整地搜索单独的一条链,当沿着一条链走到没有分支时,返回上一个节点以继续探索检索树中的其他链,当整个检索树中不再有其他链可选择时,深度优先检索结束。

在一个实施例中,根据检索树对数据库进行信息检索,并展示检索到的答案信息的步骤之后,还包括:将模板查询语句设置为库存查询语句以更新问句语料库;将问句语料库中新添加的库存查询语句与更新后的检索逻辑式互相关联。

具体地,服务器在完成检索后,将用户查询语句经过替换得到的模板查询语句添加到问句语料库中,得到新的库存查询语句;并将根据标准实体更新后的检索逻辑式与新添加的库存查询语句设置为互相关联。

新添加的库存查询语句可以参与以后的检索,以不断丰富问句语料库,提升系统鲁棒性和应对不同问句的处理能力。

本实施例中,将模板查询语句添加到问句语料库中并匹配检索逻辑式,丰富了问句语料库中的库存查询语句,提高了系统对各种用户查询语句的处理能力。

本实施例中,先将获取到的用户查询语句中的实例实体进行替换,得到模板查询语句,模板查询语句对用户查询语句进行个性化去除,再计算模板查询语句与语料库中各库存查询语句的相似度,根据相似度确定与用户查询语句匹配的库存查询语句及其检索逻辑式,以提升对各种形式的用户查询语句的处理能力,保证信息检索的准确性和可用性;根据检索逻辑式生成检索树,检索树指示如何从多个数据库中检索信息,基于检索树进行检索可以准确地从数据库中检索到用户查询语句所针对的信息,进一步确保了信息检索的准确性。

进一步的,如图5所示,上述步骤207可以包括:

步骤2071,对检索树进行深度优先遍历,以确定与检索树对应的检索策略,并基于检索策略确定信息类型。

其中,信息类型可以是对标准实体检索的信息的类型,包括检索单一实体单一属性、实体关系、单一实体多属性、多实体单一属性、属性变化趋势(包括单一实体多属性变化趋势和多实体单一属性变化趋势)等。

在检索之前,需要先对各种信息进行有序存储。对于<实体-属性-属性值>类三元组数据,需满足实时检索、分析和筛选,可存储于分布式可扩展数据库elasticsearch。在elasticsearch中,通过大数据或历史数据获取标准实体的检索频率,按照检索频率对标准实体进行倒排索引,以便尽快检索到所需信息。不作为检索条件的实体属性(如公告、新闻等长文本型数据),存储于传统关系型数据库postgresql,以降低elasticsearch数据库负载。对于<头实体-关系-尾实体>类三元组数据,存储于nosql(notonlysql,非关系型的数据库)中的图数据库neo4j。

服务器通过深度优先遍历确定检索策略,检索策略指示了如何从数据库中获取信息。

举例说明,对于图3中的检索树,检索策略为:访问elasticsearch数据库,从elasticsearch数据库中检索m股份有限公司的注册日期。对于图4中的检索树,检索策略为:从neo4j数据库中检索与m股份有限公司具备投资关系的尾实体,再到elasticsearch数据库中检索尾实体的注册日期,最后基于m股份有限公司拼接在不同数据库中检索到的答案信息。

信息类型可以由检索策略确定。例如,当检索策略为访问elasticsearch数据库,从elasticsearch数据库中检索m股份有限公司的注册日期时,只需检索“m股份有限公司”这一个实体的一个属性“注册日期”,信息类型为单一实体单一属性。当需要检索某行业六个公司在2019年的贸易额时,需检索六个标准实体的同一属性“贸易额”,信息类型为多实体单一属性。

步骤2072,根据检索策略对数据库进行信息检索,得到答案信息。

具体地,服务器根据确定的检索策略访问数据库,从数据库中提取信息,得到答案信息。

步骤2073,依据信息类型对答案信息进行展示。

具体地,服务器根据信息类型确定答案信息的展示方式,展示方式包括文字、图表等方式。服务器将答案信息发送至终端,由终端依据确定的展示方式展示答案信息。

在一个实施例中,依据信息类型对答案信息进行展示的步骤具体包括:当信息类型为单一实体单一属性或实体关系时,以文本展示答案信息;当信息类型为单一实体多属性或多实体单一属性时,以柱状图展示答案信息;当信息类型为属性变化趋势时,以折线图展示答案信息。

具体地,当检索树确定的信息类型为单一实体单一属性,则以描述性文本展示答案信息。以图3为例,描述性文本的格式为:<实体>的<属性名>是<属性值>,则有:m股份有限公司的注册日期为xxxx年xx月xx日,答案信息维度为1*2。

当信息类型为单一实体多属性或多实体单一属性时,以柱状图展示答案信息。例如,检索某行业六个公司的贸易额时展示的答案信息如图6所示,答案信息中还可以包括数据日期和各公司名称。柱状图展示的答案信息的答案维度为1*n(n>2)或n*2,此处n为正整数。

当问句中包含趋势、变化等关键词,或包含时间序列时,信息类型为属性变化趋势,以折线图展示答案信息。例如,当检索m股份有限公司2019年各季度销售额的变化趋势时,展示的答案信息如图7所示,答案信息中还可以包括数据日期。

本实施例中,依据检索的信息类型提供文字、图形等方式展示答案信息,提高了答案信息展示的智能性。

步骤2074,将答案信息上传至区块链中。

具体地,基于答案信息得到对应的摘要信息,具体来说,摘要信息由答案信息进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息,以便查证答案信息是否被篡改。

本实施例中,对检索树进行深度优先遍历以获取检索策略并基于检索策略确定信息类型,依据检索策略服务器可以更快更准确地从数据库中获取需要的信息,依据信息类型可以智能化地展示答案信息,并将答案信息上传至区块链以保证答案信息的安全性和公正透明。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)等非易失性存储介质,或随机存储记忆体(randomaccessmemory,ram)等。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图8,作为对上述图2所示方法的实现,本申请提供了一种基于语音语义的信息检索装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。

如图8所示,本实施例所述的基于语音语义的信息检索装置300包括:语句获取模块301、实体替换模块302、相似度计算模块303、语句确定模块304、逻辑式更新模块305、检索树生成模块306和信息检索模块307,其中:

语句获取模块301,用于获取输入的用户查询语句。

实体替换模块302,用于解析用户查询语句,将用户查询语句中的实例实体替换为概念实体,得到模板查询语句;概念实体为实例实体所属的实体类型。

相似度计算模块303,用于计算模板查询语句与问句语料库中各库存查询语句的相似度。

语句确定模块304,用于根据计算得到的相似度确定与模板查询语句匹配的库存查询语句,以及与库存查询语句对应的检索逻辑式。

逻辑式更新模块305,用于根据实例实体对检索逻辑式进行更新。

检索树生成模块306,用于基于更新后的检索逻辑式生成检索树。

信息检索模块307,用于根据检索树对数据库进行信息检索,并展示检索到的答案信息。

本实施例中,先将获取到的用户查询语句中的实例实体进行替换,得到模板查询语句,模板查询语句对用户查询语句进行个性化去除,再计算模板查询语句与语料库中各库存查询语句的相似度,根据相似度确定与用户查询语句匹配的库存查询语句及其检索逻辑式,以提升对各种形式的用户查询语句的处理能力,保证信息检索的准确性和可用性;根据检索逻辑式生成检索树,检索树指示如何从多个数据库中检索信息,基于检索树进行检索可以准确地从数据库中检索到用户查询语句所针对的信息,进一步确保了信息检索的准确性。

在本实施例的一些可选的实现方式中,上述实体替换模块302包括:语句解析子模块、标准查询子模块以及实体替换子模块,其中:

语句解析子模块,用于识别用户查询语句中的实例实体,并通过语义识别确定实例实体的实体类型以得到表示实体类型的概念实体。

标准查询子模块,用于从标准实体列表中查询与实例实体所对应的标准实体。

实体替换子模块,用于将用户查询语句中的实例实体替换为概念实体得到模板查询语句,并将实例实体与标准实体关联存储。

本实施例中,识别用户查询语句中的实例实体并确定实例实体的实体类型,以及表示实体类型的概念实体;查询实例实体所对应的标准实体并将用户查询语句中的实例实体替换为概念实体,将用户查询语句从多样化转向标准化,减少了用户查询语句中的个性化信息,有利于后续通过相似度查询库存查询语句,保证了信息检索的准确性;将实例实体和标准实体关联存储以便后续组装新的逻辑检索式。

在本实施例的一些可选的实现方式中,上述逻辑式更新模块305包括:实体获取子模块和标准替换子模块,其中:

实体获取子模块,用于获取与实例实体关联存储的标准实体。

标准替换子模块,用于将检索逻辑式中的标准实体替换为获取到的标准实体。

本实施例中,将检索逻辑式中的标准实体替换为与用户查询语句中的实例实体相关联的标准实体,替换后的检索逻辑式针对本次检索,保证了可以准确地从数据库中获取与本次检索相关的信息。

在本实施例的一些可选的实现方式中,上述检索树生成模块306包括:类型识别子模块和检索树生成子模块,其中:

类型识别子模块,用于识别检索逻辑式的检索类型。

检索树生成子模块,用于当检索类型为单一三元组单一介质检索时,生成单一三元组单一介质检索树。

所述检索树生成子模块还用于,当检索类型为多三元组多介质检索时,生成多三元组多介质检索树。

本实施例中,生成与检索逻辑式的检索类型相对应的检索树,检索树指示如何从数据库中检索信息,保证了可以准确地从数据库中获取与用户查询语句相关的信息。

在本实施例的一些可选的实现方式中,上述信息检索模块307包括:深度遍历子模块、信息检索子模块、信息展示子模块和信息上传子模块,其中:

深度遍历子模块,用于对检索树进行深度优先遍历,以确定与检索树对应的检索策略,并基于所述检索策略确定信息类型。

信息检索子模块,用于根据检索策略对数据库进行信息检索,得到答案信息。

信息展示子模块,用于依据信息类型对答案信息进行展示。

信息上传子模块,用于将答案信息上传至区块链中。

本实施例中,对检索树进行深度优先遍历以获取检索策略并基于检索策略确定信息类型,依据检索策略服务器可以更快更准确地从数据库中获取需要的信息,依据信息类型可以智能化地展示答案信息,并将答案信息上传至区块链以保证答案信息的安全性和公正透明。

在本实施例的一些可选的实现方式中,上述信息展示子模块包括:文本展示单元、柱状图展示单元和折线图展示单元,其中:

文本展示单元,用于当信息类型为单一实体单一属性或实体关系时,以文本展示答案信息。

柱状图展示单元,用于当信息类型为单一实体多属性或多实体单一属性时,以柱状图展示答案信息。

折线图展示单元,用于当信息类型为属性变化趋势时,以折线图展示答案信息。

本实施例中,依据检索的信息类型提供文字、图形等方式展示答案信息,提高了答案信息展示的智能性。

在本实施例的一些可选的实现方式中,上述基于语音语义的信息检索装置300还包括:语句更新模块和关联模块,其中:

语句更新模块,用于将模板查询语句设置为库存查询语句以更新问句语料库。

关联模块,用于将问句语料库中新添加的库存查询语句与更新后的检索逻辑式互相关联。

本实施例中,将模板查询语句添加到问句语料库中并匹配检索逻辑式,丰富了问句语料库中的库存查询语句,提高了系统对各种用户查询语句的处理能力。

为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图9,图9为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程门阵列(field-programmablegatearray,fpga)、数字处理器(digitalsignalprocessor,dsp)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如基于语音语义的信息检索方法的程序代码等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据,例如运行所述基于语音语义的信息检索方法的程序代码。

所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本实施例中提供的计算机设备可以执行上述基于语音语义的信息检索方法的步骤。此处基于语音语义的信息检索方法的步骤可以是上述各个实施例的基于语音语义的信息检索方法中的步骤。

本实施例中,先将获取到的用户查询语句中的实例实体进行替换,得到模板查询语句,模板查询语句对用户查询语句进行个性化去除,再计算模板查询语句与语料库中各库存查询语句的相似度,根据相似度确定与用户查询语句匹配的库存查询语句及其检索逻辑式,以提升对各种形式的用户查询语句的处理能力,保证信息检索的准确性和可用性;根据检索逻辑式生成检索树,检索树指示如何从多个数据库中检索信息,基于检索树进行检索可以准确地从数据库中检索到用户查询语句所针对的信息,进一步确保了信息检索的准确性。

本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有基于语音语义的信息检索程序,所述基于语音语义的信息检索程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于语音语义的信息检索方法的步骤。

本实施例中,先将获取到的用户查询语句中的实例实体进行替换,得到模板查询语句,模板查询语句对用户查询语句进行个性化去除,再计算模板查询语句与语料库中各库存查询语句的相似度,根据相似度确定与用户查询语句匹配的库存查询语句及其检索逻辑式,以提升对各种形式的用户查询语句的处理能力,保证信息检索的准确性和可用性;根据检索逻辑式生成检索树,检索树指示如何从多个数据库中检索信息,基于检索树进行检索可以准确地从数据库中检索到用户查询语句所针对的信息,进一步确保了信息检索的准确性。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。

显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1