结合RPA和AI的对话问答方法、装置、设备及存储介质与流程

文档序号:23003861发布日期:2020-11-20 11:52阅读:781来源:国知局
结合RPA和AI的对话问答方法、装置、设备及存储介质与流程

相关申请的交叉引用

本申请要求北京奔影网络科技有限公司于2019年12月31日提交的、申请名称为“对话问答方法、装置、设备及存储介质”的、中国专利申请号“201911407928.0”的优先权。

本申请实施例涉及自然语音处理技术领域,尤其涉及一种结合rpa(roboticprocessautomation,机器人流程自动化)和ai(artificialintelligence,人工智能)的对话问答方法、装置、设备及存储介质。



背景技术:

机器人流程自动化(roboticprocessautomation,简称:rpa)是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。人工智能(artificialintelligence,简称:ai)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。近年来,随着人工智能技术的成熟,自然语言处理技术也得到了快速发展。自然语音处理技术是人工智能领域中的一个重要方向。它能够实现人与计算机之间用自然语言进行有效通信。对话问答系统是一个以自然语言理解技术为核心,完成对用户问题的分析处理,并生成正确答案的系统。

在对话问答系统进行用户问题的分析时,由于每个用户的说话风格不同,所以需要确定与用户问题相匹配的目标问题。现有技术中,在确定与用户问题相匹配的目标问题时,只是依据一些句式间的简单匹配规则进行问题间的相似性匹配,导致并不能准确确定出与用户问题相匹配的目标问题,进而使向用户推荐的答案准确性较差,降低了用户对问答系统的使用体验。



技术实现要素:

本申请实施例提供一种结合rpa和ai的对话问答方法、装置、设备及存储介质,解决了现有技术中不能准确确定出与用户问题相匹配的目标问题,进而使向用户推荐的答案准确性较差,降低了用户对问题系统的使用体验的技术问题。

第一方面,本申请实施例提供一种结合rpa和ai的对话问答方法,包括:所述方法应用于电子设备,所述方法包括:

接收用户输入的目标问题;根据预先构建的目标领域概念关系网络确定与所述目标问题相匹配的标准问题;根据所述标准问题确定所述目标问题对应的目标答案;输出所述目标答案。

进一步地,如上所述的方法,所述根据所述目标问题与各所述候选问题间的语义相关度确定标准问题之前,还包括:

提取所述目标问题中的目标概念并提取各所述候选问题中候选概念;根据所述目标概念和各所述候选问题中候选概念计算所述目标问题与各所述候选问题间的语义相关度。

进一步地,如上所述的方法,所述确定所述目标问题对应的至少一个候选问题,包括:

将所述目标问题与预设的目标领域问题集中的各待选问题进行相似性匹配;将满足相似性要求的待选问题确定为所述候选问题。

进一步地,如上所述的方法,所述提取所述目标问题中的目标概念,包括:

将所述目标问题与预设的目标领域问句模板集中的各问句模板进行正则匹配;获取与所述目标问题相匹配的问句模板;确定所述目标问题与所述相匹配的问句模板之间的增加文本;将所述增加文本确定为目标概念。

进一步地,如上所述的方法,若所述目标领域问句模板集中不存在与所述目标问题相匹配的问句模板,则还包括:

将所述目标问题与预先构建的目标领域概念集中的各待选概念进行关键词匹配;获取与所述目标问题匹配度最高的待选概念;将所述相匹配度最高的待选概念确定为所述目标问题的目标概念。

进一步地,如上所述的方法,所述根据所述目标概念和各所述候选问题中候选概念计算所述目标问题与各所述候选问题间的语义相关度,包括:

确定所述目标概念及各所述候选问题中候选概念对应的语义特征数据;将所述目标概念对应的语义特征数据与各所述候选问题中候选概念对应的语义特征数据输入到预设wmd算法模型中,以输出所述目标问题与各所述候选问题的语义相关度。

进一步地,如上所述的方法,所述确定目标概念及各所述候选问题中候选概念对应的语义特征数据,包括:

确定所述目标概念及各所述候选问题中候选概念对应的词向量;确定所述目标概念及各所述候选问题中候选概念在目标领域常用词集中的idf取值;

将所述目标概念对应的词向量与对应的idf取值的乘积确定为所述目标概念对应的语义特征数据;将各所述候选问题中候选概念对应的词向量与对应的idf取值的乘积确定为各所述候选问题中候选概念对应的语义特征数据。

进一步地,如上所述的方法,所述根据所述目标问题与各所述候选问题间的语义相关度确定标准问题,包括:

将语义相关度最大的候选问题确定为所述标准问题。

进一步地,如上所述的方法,所述确定所述目标概念及各所述候选问题中候选概念对应的词向量之前,还包括:

构建目标领域概念集;对所述目标领域概念集中的各待选概念进行聚类,以获得代表概念;计算各代表概念对应的词向量,以形成代表概念词向量集。

进一步地,如上所述的方法,所述确定所述目标概念及各所述候选问题中候选概念对应的词向量,包括:

从所述代表概念词向量集中获取所述目标概念及各所述候选问题中候选概念对应的词向量。

进一步地,如上所述的方法,所述构建目标领域概念集,包括:

获取预设的目标领域问题集;提取所述目标领域问题集中的各待选问题中的待选概念;若未达到预设的概念集收敛条件,则扩展预设的目标领域问句模板集中的各问句模板,执行所述提取所述目标领域问题集中的各待选问题中的待选概念;若达到预设的概念集收敛条件,则根据各所述待选概念构建所述目标领域概念集。

进一步地,如上所述的方法,所述对所述目标领域概念集中的各待选概念进行聚类,以获得代表概念,包括:

将所述目标领域概念集中满足对齐条件的待选概念确定为同一待选概念;将所述各同一待选概念和所述目标领域概念集中的其他待选概念确定为候选概念;对各候选概念进行聚类,以获得代表概念。

进一步地,如上所述的方法,所述对各候选概念进行聚类,以获得代表概念,包括:

采用hdbscan聚类算法对所述候选概念进行聚类,以获得每个聚类中心的候选概念;将每个聚类中心的候选概念确定为代表概念。

进一步地,如上所述的方法,所述计算各代表概念对应的词向量,以形成代表概念词向量集,包括:

获取至少一个代表知识点问题,各代表知识点问题中包括对应的代表概念;采用训练至收敛的fasttext模型对各所述代表知识点问题中的每个概念进行编码,以获得每个概念的词向量;从各代表知识点问题的每个概念的词向量中获取对应的代表概念的词向量,以形成代表概念词向量集。

进一步地,如上所述的方法,所述采用训练至收敛的fasttext模型对各所述代表知识点问题中的每个概念进行编码,以获得每个概念的词向量之前,还包括:

获取训练样本,所述训练样本为目标领域知识库中的训练知识点问题;采用训练样本对初始fasttext模型进行训练;判断训练后的fasttext模型是否满足预设的模型收敛条件;若确定满足预设的模型收敛条件,则将满足预设的模型收敛条件的fasttext模型确定为训练至收敛的fasttext模型。

进一步地,如上所述的方法,从各代表知识点问题的每个概念的词向量中获取对应的代表概念的词向量,以形成代表概念词向量集之后,还包括:

分别计算各代表概念的词向量间的內积值;将各代表概念的词向量的內积值确定为对应的语义相关度;所述根据各所述代表概念及对应的语义相关度构建所述目标领域概念关系网络。

进一步地,如上所述的方法,所述根据各所述代表概念及对应的语义相关度构建所述目标领域概念关系网络,包括:

将各所述代表概念确定为所述目标领域概念关系网络中图结构的节点;将各所述代表概念间的语义相关度确定为对应图结构的节点间的边的关系值。

第二方面,本申请实施例提供一种结合rpa和ai的对话问答装置,所述装置位于电子设备中,所述装置包括:

目标问题接收模块,用于接收用户输入的目标问题;

候选问题确定模块,用于确定所述目标问题对应的至少一个候选问题;

标准问题确定模块,用于根据所述目标问题与各所述候选问题间的语义相关度确定标准问题;

目标答案确定模块,用于根据所述标准问题确定所述目标问题对应的目标答案;

目标答案输出模块,用于输出所述目标答案。

进一步地,如上所述的装置,还包括:

概念提取模块,用于提取所述目标问题中的目标概念并提取各所述候选问题中候选概念;

语义相关度计算模块,用于根据所述目标概念和各所述候选问题中候选概念计算所述目标问题与各所述候选问题间的语义相关度。

进一步地,如上所述的装置,所述候选问题确定模块,具体用于:

将所述目标问题与预设的目标领域问题集中的各待选问题进行相似性匹配;将满足相似性要求的待选问题确定为所述候选问题。

进一步地,如上所述的装置,概念提取模块,在提取所述目标问题中的目标概念时,具体用于:

将所述目标问题与预设的目标领域问句模板集中的各问句模板进行正则匹配;获取与所述目标问题相匹配的问句模板;确定所述目标问题与所述相匹配的问句模板之间的增加文本;将所述增加文本确定为目标概念。

进一步地,如上所述的装置,若所述目标领域问句模板集中不存在与所述目标问题相匹配的问句模板,则所述概念提取模块,还用于:

将所述目标问题与预先构建的目标领域概念集中的各待选概念进行关键词匹配;获取与所述目标问题匹配度最高的待选概念;将所述相匹配度最高的待选概念确定为所述目标问题的目标概念。

进一步地,如上所述的装置,语义相关度计算模块,具体用于:

确定所述目标概念及各所述候选问题中候选概念对应的语义特征数据;将所述目标概念对应的语义特征数据与各所述候选问题中候选概念对应的语义特征数据输入到预设wmd算法模型中,以输出所述目标问题与各所述候选问题的语义相关度。

进一步地,如上所述的装置,所述语义相关度计算模块,在确定目标概念及各所述候选问题中候选概念对应的语义特征数据时,具体用于:

确定所述目标概念及各所述候选问题中候选概念对应的词向量;确定所述目标概念及各所述候选问题中候选概念在目标领域常用词集中的idf取值;将所述目标概念对应的词向量与对应的idf取值的乘积确定为所述目标概念对应的语义特征数据;将各所述候选问题中候选概念对应的词向量与对应的idf取值的乘积确定为各所述候选问题中候选概念对应的语义特征数据。

进一步地,如上所述的装置,所述标准问题确定模块,具体用于:

将语义相关度最大的候选问题确定为所述标准问题。

进一步地,如上所述的装置,还包括:

词向量集构建模块,用于构建目标领域概念集;对所述目标领域概念集中的各待选概念进行聚类,以获得代表概念;计算各代表概念对应的词向量,以形成代表概念词向量集。

进一步地,如上所述的装置,所述语义相关度计算模块,在确定所述目标概念及各所述候选问题中候选概念对应的词向量时,具体用于:

从所述代表概念词向量集中获取所述目标概念及各所述候选问题中候选概念对应的词向量。

进一步地,如上所述的装置,所述词向量集构建模块,在构建目标领域概念集时,具体用于:

获取预设的目标领域问题集;提取所述目标领域问题集中的各待选问题中的待选概念;若未达到预设的概念集收敛条件,则扩展预设的目标领域问句模板集中的各问句模板,执行所述提取所述目标领域问题集中的各待选问题中的待选概念;若达到预设的概念集收敛条件,则根据各所述待选概念构建所述目标领域概念集。

进一步地,如上所述的装置,所述词向量集构建模块,在对所述目标领域概念集中的各待选概念进行聚类,以获得代表概念时,具体用于:

将所述目标领域概念集中满足对齐条件的待选概念确定为同一待选概念;将所述各同一待选概念和所述目标领域概念集中的其他待选概念确定为候选概念;对各候选概念进行聚类,以获得代表概念。

进一步地,如上所述的装置,所述词向量集构建模块,在所述对各候选概念进行聚类,以获得代表概念时,具体用于:

采用hdbscan聚类算法对所述候选概念进行聚类,以获得每个聚类中心的候选概念;将每个聚类中心的候选概念确定为代表概念。

进一步地,如上所述的装置,所述词向量集构建模块,在计算各代表概念对应的词向量,以形成代表概念词向量集时,具体用于:

获取至少一个代表知识点问题,各代表知识点问题中包括对应的代表概念;采用训练至收敛的fasttext模型对各所述代表知识点问题中的每个概念进行编码,以获得每个概念的词向量;从各代表知识点问题的每个概念的词向量中获取对应的代表概念的词向量,以形成代表概念词向量集。

进一步地,所述词向量集构建模块,在所述采用训练至收敛的fasttext模型对各所述代表知识点问题中的每个概念进行编码,以获得每个概念的词向量之前,还用于:

获取训练样本,所述训练样本为目标领域知识库中的训练知识点问题;采用训练样本对初始fasttext模型进行训练;判断训练后的fasttext模型是否满足预设的模型收敛条件;若确定满足预设的模型收敛条件,则将满足预设的模型收敛条件的fasttext模型确定为训练至收敛的fasttext模型。

进一步地,如上所述的装置,还包括:

概念关系网络构建模块,用于分别计算各代表概念的词向量间的內积值;将各代表概念的词向量的內积值确定为对应的语义相关度;所述根据各所述代表概念及对应的语义相关度构建所述目标领域概念关系网络。

进一步地,如上所述的装置,所述概念关系网络构建模块,在根据各所述代表概念及对应的语义相关度构建所述目标领域概念关系网络时,具体用于:

将各所述代表概念确定为所述目标领域概念关系网络中图结构的节点;将各所述代表概念间的语义相关度确定为对应图结构的节点间的边的关系值。

第三方面,本申请实施例提供一种电子设备,包括:

存储器,处理器以及计算机程序;

其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面中任一项所述的方法。

第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现如第一方面中任一项所述的方法。

应当理解,上述发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是可以实现本申请实施例的对话问答方法的应用场景图;

图2为本申请实施例一提供的结合rpa和ai的对话问答方法的流程图;

图3为本申请实施例二提供的结合rpa和ai的对话问答方法的流程图;

图4本申请实施例二提供的结合rpa和ai的对话问答方法中步骤201的流程图;

图5本申请实施例二提供的结合rpa和ai的对话问答方法中步骤202的流程图;

图6本申请实施例二提供的结合rpa和ai的对话问答方法中步骤2023的流程图;

图7本申请实施例二提供的结合rpa和ai的对话问答方法中步骤203的流程图;

图8本申请实施例二提供的结合rpa和ai的对话问答方法中步骤205的流程图;

图9本申请实施例二提供的结合rpa和ai的对话问答方法中步骤206的流程图;

图10本申请实施例二提供的结合rpa和ai的对话问答方法中步骤207的流程图;

图11本申请实施例二提供的结合rpa和ai的对话问答方法中步骤2071的流程图;

图12为本申请实施例三提供的结合rpa和ai的对话问答方法的流程图;

图13为本申请实施例三提供的结合rpa和ai的对话问答方法中步骤306的流程图;

图14为本申请实施例三中目标领域概念关系网络的示意图;

图15为本申请实施例四提供的结合rpa和ai的对话问答装置的结构示意图;

图16为本申请实施例五提供的结合rpa和ai的对话问答装置的结构示意图;

图17是用来实现本申请实施例的结合rpa和ai的对话问答方法的电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先需要对本申请描述中的术语进行解释说明。其中,在本申请的描述中,术语“目标问题”是指用户所需要提问的问题,例如,在电子设备中搭载有结合rpa及ai的对话问答功能的应用程序,当用户有提问问题的需求时,打开对应的应用程序,进入到应用程序的操作界面。通过语音、文本或其他方式向电子设备发送需要提问的问题。该需要提问的问题即可理解为目标问题。

在本申请的描述中,术语“候选问题”是指按照一定的匹配规则从某一领域问题集中,获取与用户所需要提问的问题相匹配的问题,该相匹配的问题即为候选问题,其中,问题集的领域与用户所需要提问的问题的领域相同。

在本申请的描述中,术语“概念”是指某一问题与其相匹配的问句模板之间相区别的文本。术语“目标概念”是指目标问题与其相匹配的问句模板之间相区别的文本。术语“候选概念”是指候选问题与其相匹配的问句模板之间相区别的文本。

在本申请的描述中,术语“标准问题”是指各候选问题中,在语义上与用户所要提问的问题最相似的候选问题。术语“目标答案”是指标准问题所对应的答案。比如,某一领域问题集中具有多个待选问题和每个待选问题对应的答案,在已知标准问题之后,可从该领域问题集中每个待选问题对应的答案中搜索出该标准问题对应的答案,将该标准问题对应的答案确定为目标问题对应的答案,该目标问题对应的答案为目标答案。

需要对本申请实施例提供的结合rpa和ai的对话问答方法的应用场景进行介绍。如图1所示,本申请实施例提供的结合rpa和ai的对话问答方法对应的应用场景中,在电子设备中搭载有对话问答功能的应用程序。这种搭载有对话问答功能的应用程序的类型不作限定,如可以为母婴类型的应用程序,幼儿教育类型的应用程序等。具体地,在用户打开电子设备中该功能的应用程序,并通过该功能的应用程序的操作界面以文字、语音等方式输入目标问题。电子设备接收用户输入的目标问题,对目标问题进行解析,确定目标问题对应的至少一个候选问题,根据目标问题与各候选问题间的语义相关度确定标准问题。在确定出标准问题后,根据标准问题确定目标问题对应的目标答案确定目标问题对应的目标答案,输出目标答案。输出目标答案时,可以在操作界面上以文字和/或图片的形式输出,还可将文字和/或图片结合语音等形式进行输出。

如图1中,假设应用程序为母婴类型的应用程序,用户通过语音方式输入的目标问题为“我产褥感染怎么办”,则在电子设备的该功能的应用程序的操作界面中可显示出“我产褥感染怎么办”的目标问题,用户通过点击操作界面上的“搜索”按键,电子设备执行本申请提供的结合rpa和ai的对话问答方法,确定出该目标问题的目标答案后,输出目标答案在操作界面中进行显示,目标答案为“可进行药物治疗,手术治疗,其他治疗等”。本申请实施例提供的结合rpa和ai的对话问答方法,由于在确定目标问题对应的标准问题时,是采用目标问题与至少一个候选问题间的语义相关度进行确定的,所以能够使目标问题与标准问题间更加贴合,准确确定出与目标问题相匹配的标准问题,进而将标准问题对应的答案确定为目标问题的答案,能够使确定出的目标答案更加准确,提高了向用户推荐的答案准确性,大大提高了用户对问答系统的使用体验。

以下将参照附图来具体描述本申请的实施例。

实施例一

图2为本申请实施例一提供的结合rpa和ai的对话问答方法的流程图,如图2所示,本申请实施例的执行主体为对话问答装置,该对话问答装置可以集成在电子设备中。则本实施例提供的结合rpa和ai的对话问答方法包括以下几个步骤。

步骤101,接收用户输入的目标问题。

本实施例中,在电子设备中搭载有对话问答功能的应用程序。如可以为母婴类型的应用程序,幼儿教育类型的应用程序等。则用户有提问问题的需求时,打开对应的应用程序,进入到应用程序的操作界面。通过语音、文本或其他方式向电子设备发送需要提问的问题。该需要提问的问题为目标问题。

若用户通过语音形式提出目标问题,则用户通过点击操作界面上收录语音的按键,则电子设备中对应的收音组件进行录音。电子设备接收到语音形式的目标问题,并对语音形式的目标问题进行语义解析,可获取文本形式的目标问题,并可在操作界面上显示文本形式的目标问题。

若用户通过文本形式提出目标问题,则用户在操作界面的文本输入框输入目标问题,使电子设备接收到文本形式的目标问题。

可以理解的是,在操作界面上,还可包括触发本实施例中对话问答方法的按键,如可以为操作界面上的“搜索”按键。

步骤102,确定目标问题对应的至少一个候选问题。

本实施例中,可在搭载有对话问答功能的每种应用程序的后台服务器中存储有对应目标领域问题集。或者可将该目标领域问题集下载到电子设备中,在目标领域问题集中存储有该目标领域所有成功搜索到答案的问题。在目标领域问题集中存储的问题可以称为待选问题。

则作为一种可选实施方式,本实施例中,在电子设备获取到目标问题后,获取对应目标领域问题集中的每个待选问题,可将目标问题与每个待选问题进行按照预设的句式规则进行匹配,将满足预设句式规则的待选问题确定为目标问题的候选问题。

或者作为另一种实施方式,本实施例中,在电子设备获取到目标问题后,获取对应目标领域问题集中的每个待选问题,可将目标问题与每个待选问题采用预设的匹配算法进行相似性匹配,将满足相似性要求的待选问题确定为候选问题。

在该种实施方式中,预设的匹配算法本实施例中不作限定。判断是否满足相似性要求可以为判断目标问题与每个待选问题的匹配度是否大于预设匹配度阈值,若大于预设匹配度阈值,则确定目标问题与该待选问题间满足相似性要求,否则确定不满足相似性要求。可以理解的是,判断是否满足相似性要求还可以为其他方式,本实施例中对此不作限定。

步骤103,根据目标问题与各候选问题间的语义相关度确定标准问题。

本实施例中,在确定中至少一个候选问题后,计算目标问题与每个候选问题间的语义相关度,根据目标问题与每个候选问题间的语义相关度来从至少一个候选问题中确定出标准问题。

作为一种可选实施方式,本实施例中,计算目标问题与每个候选问题间的语义相关度的方式可以为:将目标问题和每个候选问题分别组成对应的问题对,输入到预设的语义匹配模型中,由该预设的语义匹配模型计算每个问题对间的语义相关度,并输出每个问题对间的语义相关度。其中,预设的语义匹配模型本实施例中不作限定。

或者作为另一种可选实施方式,本实施例中,可提取目标问题中的目标概念并提取各候选问题中候选概念;确定目标概念与各候选问题中的候选概念间的语义相关度;根据目标概念与各候选问题中的候选概念间的语义相关度从候选问题中确定标准问题。

可以理解的是,计算目标问题与每个候选问题间的语义相关度的方式还可以为其他方式,本实施例中对此不作限定。

步骤104,根据标准问题确定目标问题对应的目标答案。

本实施例中,可在搭载有对话问答功能的每种应用程序的后台服务器中存储有目标领域问题集中每个待选问题对应的答案。或者可将该目标领域问题集中每个待选问题对应的答案下载到电子设备中,则在确定出标准问题后,从目标领域问题集中每个待选问题对应的答案中搜索出该标准问题对应的答案,将该标准问题对应的答案确定为目标问题对应的答案。该目标问题对应的答案为目标答案。

步骤105,输出目标答案。

本实施例中,可将目标答案以文字、图片或语音的方式进行输出。或者将目标答案以文字、图片或语音中的至少两种形式结合起来进行输出,本实施例中对此不作限定。

本实施例提供的结合rpa和ai的对话问答方法,通过接收用户输入的目标问题;确定目标问题对应的至少一个候选问题;根据目标问题与各候选问题间的语义相关度确定标准问题;根据标准问题确定目标问题对应的目标答案;输出目标答案。由于在确定目标问题对应的标准问题时,是采用目标问题与至少一个候选问题间的语义相关度进行确定的,所以能够使目标问题与标准问题间更加贴合,准确确定出与目标问题相匹配的标准问题,进而将标准问题对应的答案确定为目标问题的答案,能够使确定出的目标答案更加准确,提高了向用户推荐的答案准确性,大大提高了用户对问答系统的使用体验。

实施例二

图3为本申请实施例二提供的结合rpa和ai的对话问答方法的流程图,如图3所示,本实施例提供的结合rpa和ai的对话问答方法,是在本申请实施例一提供的结合rpa和ai的对话问答方法的基础上,对步骤102-步骤103的进一步细化,则本实施例提供的结合rpa和ai的对话问答方法包括以下步骤。

步骤201,构建目标领域概念集。

作为一种可选实施方式,本实施例中,步骤201中构建目标领域概念集是一个迭代的过程。具体的迭代过程包括以下步骤:

步骤2011,获取预设的目标领域问题集。

其中,目标领域问题集与搭载有对话问答功能的应用程序的类型是一致的,如应用程序的类型为母婴类型,则目标领域问题集为母婴领域的问题集。又如应用程序的类型为幼儿教育领域,则目标领域问题集为幼儿教育领域问题集。

本实施例中,在目标领域中若确定用户提出问题成功搜索到答案时,存储该成功搜索到答案的待选问题,由各待选问题构建目标领域问题集,并可将该目标领域问题集存储在对应应用程序的后台服务器或电子设备中,以使电子设备获取到该预设的目标领域问题集。

步骤2012,提取目标领域问题集中的各待选问题中的待选概念。

作为一种可选实施方式,本实施例中,步骤2012包括以下步骤:

步骤2012a,将各待选问题与预设的目标领域问句模板集中的各问句模板进行正则匹配。

步骤2012b,获取与各待选问题相匹配的问句模板。

步骤2012c,确定各待选问题与相匹配的问句模板之间的增加文本。

步骤2012d,将增加文本确定为对应的待选概念。

结合步骤2012a-步骤2012d进行说明。本实施例中,首先根据目标领域的问题特征设置目标领域问句模板集,在目标领域问句模板集中包括多个问句模板。然后将每个待选问题与预设的目标领域问句模板集中的各问句模板进行正则匹配,在进行正则匹配后,获取与每个待选问题相匹配的问句模板。确定每个待选问题与相匹配的问句模板之间相区别的文本,该相区别的文本为该待选问题与相匹配的问句模板之间的增加文本,最终将该增加文本确定为该待选问题对应的待选概念。

其中,正则匹配为正则表达式匹配,具体的正则匹配方式本实施例中不再赘述。

本实施例中,以目标领域为母婴领域,以待选问题为“羊水偏少的症状”为例,步骤2012a-步骤2012d进行示例性说明:

首先,对目标领域问句模板集中的问句模板以三个示例进行示例性说明,则示例出的三个问句模板为:(1)(.*?)的症状;(2)(.*?)可以吃药吗;(3)(.*?)怎么治疗。然后针对该待选问题,将该待选问题与预设的目标领域问句模板集中的各问句模板进行正则匹配后,确定相匹配的问句模板为“(.*?)的症状”,则确定待选问题“羊水偏少的症状”与相匹配的问句模板为“(.*?)的症状”的增加文本为“羊水偏少”,则将“羊水偏少”确定为该待选问题的待选概念。

步骤2012e,若目标领域问句模板集中不存在与各待选问题相匹配的问句模板,则将各待选问题与预先构建的目标领域关键概念集中的各关键概念进行关键词匹配。

可以理解的是,由于预设的目标领域问句模板集中的问句模板是有限的,并且不能覆盖所有用户问问题的习惯,所以存在目标领域问句模板集中不存在与各待选问题相匹配的问句模板的情况。所以若目标领域问句模板集中不存在与各待选问题相匹配的问句模板,则采用关键词匹配方式确定各待选问题中的待选概念。

步骤2012f,获取与各待选问题匹配度最高的关键概念。

步骤2012g,将相匹配度最高的关键概念确定为各待选问题的待选概念。

结合步骤2012e-步骤2012g对采用关键词匹配方式确定各待选问题中的待选概念进行说明。首先可根据目标领域的常用概念构建目标领域关键概念集。在目标领域关键概念集中包括多个目标领域的关键概念。然后将每个待选问题与预先构建的目标领域关键概念集中的各关键概念进行关键词匹配。在关键词匹配后,获取与每个待选问题匹配度最高的关键概念,将相匹配度最高的关键概念确定为对应待选问题的待选概念。

其中,关键词匹配方式可以为广泛匹配,精准匹配等,本实施例中对关键词匹配方式不作限定。

本实施例中,以目标领域为母婴领域,以待选问题为“宝宝吐奶怎么办”为例,步骤2012e-步骤2012g进行示例性说明:

首先对母婴领域关键概念集中包括的关键概念进行示例性说明,其包括“宝宝”、“妈妈”、“宝宝吐奶”、“宝宝咳嗽”、“宝宝流口水”等。然后针对该待选问题,将该待选问题与目标领域关键概念集中的各关键概念进行关键词匹配。与“宝宝”的匹配度为30%,与“妈妈”的匹配度为1%,与“宝宝吐奶”的匹配度为80%,与“宝宝咳嗽”的匹配度为31%,最后获取与该待选问题匹配度最高的关键概念为“宝宝吐奶”,则将“宝宝吐奶”确定为该待选问题“宝宝吐奶怎么办”对应的待选概念。

步骤2013,判断是否达到预设的概念集收敛条件,若未达到预设的概念集收敛条件,则执行步骤2014,否则执行步骤2015。

步骤2014,扩展预设的目标领域问句模板集中的各问句模板。

步骤2015,根据各待选概念构建目标领域概念集。

本实施例中,将目标领域问题集中各待选问题提取出来的待选概念形成目标领域概念集。

需要说明的是,在执行步骤2014后,继续执行步骤2012。

具体地,本实施例中,为了能够使构建的目标领域概念集中的各待选概念更加丰富准确,预先设置概念集收敛条件,在根据步骤2012提取出各待选问题中的待选概念后,判断是否达到预设的概念集收敛条件,若未达到预设的概念集收敛条件,则步骤2014,迭代次数加1,继续执行步骤2012。直到达到预设的概念集收敛条件后,执行步骤2015。

其中,预设的概念集收敛条件可以为迭代次数达到预设迭代次数,还可以为其他概念集收敛条件,本实施例中对此不作限定。

步骤202,对目标领域概念集中的各待选概念进行聚类,以获得代表概念。

本实施例中,由于目标领域概念集中的待选概念众多,所以需要对各待选概念进行聚类,来获得代表概念。

作为一种可选实施方式,如图5所示,步骤202包括以下步骤:

步骤2021,将目标领域概念集中满足对齐条件的待选概念确定为同一待选概念。

本实施例中,将目标领域概念集中的各待选概念按照字数进行首尾进行对齐处理,可判断两两待选概念间是否满足对齐条件。若两两待选概念间对齐的字占据对应待选概念中总字数的百分比大于预设对齐百分比阈值,则确定这两个待选概念间满足对齐条件,否则确定不满足对齐条件。

例如预设百分比阈值为70%。待选概念分别为:“羊水过多”、“羊水超多”进行首尾对齐处理后,对齐的字占据待选概念总字数的百分比为75%,大于70%,则将这两个待选概念确定为同一类待选概念,可采用任意一个进行表示。如采用“羊水过多”来表示。

步骤2022,将各同一待选概念和目标领域概念集中的其他待选概念确定为候选概念。

步骤2023,对各候选概念进行聚类,以获得代表概念。

本实施例中,将各同一待选概念和其他待选概念统一确定为候选概念。对各候选概念采用预设的聚类算法进行聚类,形成各聚类中心,在各聚类中心的候选概念确定为代表概念。

作为一种可选实施方式,如图6所示,步骤2023包括以下步骤:

步骤2023a,采用hdbscan聚类算法对候选概念进行聚类,以获得每个聚类中心的候选概念。

步骤2023b,将每个聚类中心的候选概念确定为代表概念。

进一步地,本实施例中,将每个候选概念输入到hdbscan聚类算法中,hdbscan聚类算法中的参数进行设置,并采用hdbscan聚类算法对候选概念进行语义相关性聚类,形成每类候选概念集,获取在每个候选概念集对应的聚类中心处的候选概念,该聚类中心处的候选概念最能代表该类候选概念集,所以将该聚类中心处的候选概念确定为该类候选概念的代表概念。在采用hdbscan聚类算法进行聚类时,最后聚类成的类别数即为代表概念的个数。

本实施例中,hdbscan聚类算法相比于dbscan聚类算法的最大优势在于不用选择用户选择领域聚类圆圈的半径r和核心点最小覆盖点数minpts,只用设定最小生成聚类簇的大小即可,并且hdbscan聚类算法可以自动的推荐最优的簇类结果。所以采用hdbscan聚类算法对候选概念进行聚类,能够更加快速准确地对候选概念进行聚类,获得代表概念。

步骤203,计算各代表概念对应的词向量,以形成代表概念词向量集。

作为一种可选实施方式,如图7所示,步骤203包括以下步骤:

步骤2031,获取至少一个代表知识点问题,各代表知识点问题中包括对应的代表概念。

本实施例中,目标领域知识库是对目标领域问题集中的各待选问题按照知识点整理成的结构化知识库。将目标领域知识库中的知识点问题划分为训练集合和测试集合。训练集合中的知识点问题用于对初始fasttext模型进行训练,以得到训练至收敛的fasttext模型。在测试集合中获取代表知识点问题。其中,在代表知识点问题中包括代表概念。

步骤2032,采用训练至收敛的fasttext模型对各代表知识点问题中的每个概念进行编码,以获得每个概念的词向量。

本实施例中,可将各代表知识点问题中的代表概念进行标记,并将各代表知识点问题输入到训练至收敛的fasttext模型中,训练至收敛的fasttext模型在对各代表知识点问题进行分类前,对各代表知识点问题进行切词处理并对切词处理后的每个概念进行编码,以获得每个概念的词向量。

步骤2033,从各代表知识点问题的每个概念的词向量中获取对应的代表概念的词向量,以形成代表概念词向量集。

本实施例中,根据各代表知识点问题中的代表概念的标记从对应的每个概念的词向量中获取对应的代表概念的词向量。由每个代表概念的词向量形成代表概念词向量集。并对代表概念的词向量集进行存储。

本实施例中,在计算各代表概念对应的词向量,以形成代表概念词向量集时,由于采用训练至收敛的fasttext模型对代表概念进行编码获得的代表概念词向量,训练至收敛的fasttext模型能够准确对代表知识点问题进行分类,所以也能够在对代表知识点问题进行分类前,准确对代表概念进行编码,提高了代表概念词向量的准确性。

值的说明的是,若未有训练至收敛的fasttext模型,在步骤2032之前,还包括对初始fasttext模型进行训练的步骤。对初始fasttext模型进行训练的步骤定义为步骤2030,则步骤2030包括以下步骤:

步骤2030a,获取训练样本,训练样本为目标领域知识库中的训练知识点问题。

其中,目标领域知识库是对目标领域问题集中的各待选问题按照知识点整理成的结构化知识库。在目标领域知识库的训练集合中包括每类知识点的相似知识点问题集合和知识点类别标签。

例如:“羊水过多怎么办”“羊水过多怎么处理”“羊水过多要不要去看”为一个相似知识点问题集合,该相似知识点问题集合的知识点类别标签为“羊水过多处理方法”。又如“羊水过多的原因”、“为什么羊水过多”为另一个相似知识点问题集合,该相似知识点问题集合的知识点类别标签为:“羊水过多原因”。

所以本实施例中,可从目标领域知识库中抽取知识点问题,作为训练样本,每个训练样本包括对应的知识点问题及对应的知识点类别标签。

步骤2030b,采用训练样本对初始fasttext模型进行训练。

步骤2030c,判断训练后的fasttext模型是否满足预设的模型收敛条件,若是,则执行步骤2030d,否则继续执行步骤2030b。

步骤2030d,将满足预设的模型收敛条件的fasttext模型确定为训练至收敛的fasttext模型。

结合步骤2030b–步骤2030d进行说明。具体地,本实施例中,fasttext模型是一种文本分类模型。初始fasttext模型对fasttext模型中的参数进行了初始化处理后的fasttext模型。将训练样本输入到初始fasttext模型中,对初始fasttext模型进行训练,调整初始fasttext模型中的参数。在每一次迭代过程中,判断训练后的fasttext模型是否满足预设的模型收敛条件,若满足预设的模型收敛条件,则将满足预设的模型收敛条件的fasttext模型确定为训练至收敛的fasttext模型。若确定不满足预设的模型收敛条件,则进入下一次迭代中,继续执行步骤2030b,继续对fasttext模型进行训练,直到达到预设的模型收敛条件为止。

其中,预设的模型收敛条件可以为迭代次数达到预设迭代次数,还可以为损失函数达到最小,本实施例中对预设的模型收敛条件不作限定。

步骤204,接收用户输入的目标问题。

本实施例中,步骤204的实现方式与本申请实施例一中的步骤101的实现方式类似,在此不再一一赘述。

步骤205,确定目标问题对应的至少一个候选问题。

作为一种可选实施方式,如图8所示,本实施例中,步骤205包括以下步骤:

步骤2051,将目标问题与预设的目标领域问题集中的各待选问题进行相似性匹配。

步骤2052,将满足相似性要求的待选问题确定为候选问题。

进一步地,本实施例中,将目标问题与每个待选问题形成问题对输入到预设的匹配算法中,采用预设的匹配算法对每个问题对进行相似性匹配,输出每个问题对对应的匹配度。若某一问题对的匹配度大于预设匹配度阈值,则确定满足相似性要求,该问题对中的待选问题为该目标问题对应的候选问题。若某一问题对的匹配度小于或等于预设匹配度阈值,则确定不满足相似性要求,该问题对中的待选问题不是该目标问题对应的候选问题。通过该种方式确定出目标问题的至少一个候选问题。

本实施例中,对确定目标问题对应的至少一个候选问题进行示例性说明:目标问题为“宝宝吐奶怎么办”,则通过步骤2051-步骤2052确定该目标问题对应的至少一个候选问题分别为:“宝宝呛奶怎么办”、“宝宝吐奶要咋处理呢”、“宝宝有奶瓣怎么办”。并且这三个候选问题的匹配度依次变小。

本实施例中,将目标问题与预设的目标领域问题集中的各待选问题进行相似性匹配,将满足相似性要求的待选问题确定为候选问题,能够预先筛选出与目标问题相似度较高的候选问题。

步骤206,提取目标问题中的目标概念并提取各候选问题中候选概念。

本实施例中,提取目标问题中的目标概念与提取各候选问题中的候选概念的方式类似,所以以提取目标问题中的目标概念为例来对步骤206进行说明。

作为一种可选实施方式,如图9所示,本实施例中,步骤206中提取目标问题中的目标概念包括以下步骤:

步骤2061,将目标问题与预设的目标领域问句模板集中的各问句模板进行正则匹配。

步骤2062,获取与目标问题相匹配的问句模板。

步骤2063,确定目标问题与相匹配的问句模板之间的增加文本。

步骤2064,将增加文本确定为目标概念。

结合步骤2061-步骤2064进行说明。本实施例中,首先根据目标领域的问题特征设置目标领域问句模板集,在目标领域问句模板集中包括多个问句模板。然后将目标问题与预设的目标领域问句模板集中的各问句模板进行正则匹配,在进行正则匹配后,获取与目标问题相匹配的问句模板。确定目标问题与相匹配的问句模板之间相区别的文本,该相区别的文本为该目标问题与相匹配的问句模板之间的增加文本,最终将该增加文本确定为该目标问题对应的目标概念。,

步骤2065,若目标领域问句模板集中不存在与目标问题相匹配的问句模板,则将目标问题与预先构建的目标领域概念集中的各待选概念进行关键词匹配。

可以理解的是,由于预设的目标领域问句模板集中的问句模板是有限的,并且不能覆盖所有用户问问题的习惯,所以存在目标领域问句模板集中不存在与目标问题相匹配的问句模板的情况。所以若目标领域问句模板集中不存在与目标问题相匹配的问句模板,则采用关键词匹配方式确定目标问题中的目标概念。

步骤2066,获取与目标问题匹配度最高的待选概念。

步骤2067,将相匹配度最高的待选概念确定为目标问题的目标概念。

结合步骤2065-步骤2067对采用关键词匹配方式确定目标问题中的目标概念进行说明。首先获取目标领域概念集。在目标领域概念集中包括多个待选概念。然后将目标问题与预先构建的目标领域概念集中的各待选概念进行关键词匹配。在关键词匹配后,获取与目标问题匹配度最高的待选概念,将相匹配度最高的待选概念确定为目标问题的目标概念。

步骤207,根据目标概念和各候选问题中候选概念计算目标问题与各候选问题间的语义相关度。

可以理解的是,目标问题中的目标概念可以为至少一个。同理,每个候选问题中的候选概念也可以为至少一个。

作为一种可选实施方式,如图10所示,本实施例中,步骤207包括以下步骤:

步骤2071,确定目标概念及各候选问题中候选概念对应的语义特征数据。

作为一种可选实施方式,如图11所示,步骤2071包括以下步骤:

步骤2071a,确定目标概念及各候选问题中候选概念对应的词向量。

作为一种可选实施方式,本实施例中,步骤2071a具体包括:

从代表概念词向量集中获取目标概念及各候选问题中候选概念对应的词向量。

具体地,本实施例中,从代表概念词向量集中查询目标概念与各候选问题中的候选概念。在查询到目标概念和各候选概念后,获得对应的词向量。

步骤2071b,确定目标概念及各候选问题中候选概念在目标领域常用词集中的idf取值。

本实施例中,预先构建目标领域常用词集,在目标领域常用词集中,具有每个常用词的idf取值。其中,idf为词频的逆向文档频率,若目标领域某常用词的idf取值越大,则说明该常用词的重要程度越高。相反,若某常用词的idf取值越小,则说明该常用词的重要程度越低。

步骤2071c,将目标概念对应的词向量与对应的idf取值的乘积确定为目标概念对应的语义特征数据。

步骤2071d,将各候选问题中候选概念对应的词向量与对应的idf取值的乘积确定为各候选问题中候选概念对应的语义特征数据。

本实施例中,将目标概念对应的词向量与对应的idf取值的乘积确定为目标概念对应的语义特征数据,并将各候选问题中候选概念对应的词向量与对应的idf取值的乘积确定为各候选问题中候选概念对应的语义特征数据。则若目标概念的词向量与某候选概念的词向量越接近,并且目标概念的idf取值与该候选概念的idf取值越接近,则说明该目标概念与该候选概念的语义相关性越大。相反,若目标概念的词向量与某候选概念的词向量越远离,或者目标概念的idf取值与某候选概念的idf取值越远离,则说明该目标概念与该候选概念的语义相关性越小。

步骤2072,将目标概念对应的语义特征数据与各候选问题中候选概念对应的语义特征数据输入到预设wmd算法模型中,以输出目标问题与各候选问题的语义相关度。

进一步地,本实施例中,将目标概念对应的词向量与对应的idf取值的乘积,各候选问题中候选概念对应的词向量与对应的idf取值的乘积输入到预设的wmd算法模型中,该预设的wmd算法模型首先确定出至少一个目标概念与每个候选问题中的至少一个候选概念的对应关系,然后计算每个目标概念与对应的候选概念间的语义相关度。进而根据至少一个目标概念与候选问题中对应的候选概念间的语义相关度确定出该目标问题与该候选问题间的语义相关度。并从预设的wmd算法模型中输出该目标问题与各候选问题件的语义相关度。

其中,预设的wmd算法模型在确定每个目标概念与对应的候选概念间的语义相关度时,计算每个目标概念语义特征数据与对应的候选概念的语义特征数据的內积值,将內积值确定为该目标概念与对应的候选概念间的语义相关度。

步骤208,根据目标问题与各候选问题间的语义相关度确定标准问题。

作为一种可选实施方式,本实施例中,步骤208具体包括:

将语义相关度最大的候选问题确定为标准问题。

进一步地,本实施例中,由于语义相关度最大的候选问题是与目标问题在语义上最贴合的候选问题,所以将语义相关度最大的候选问题确定为该目标问题对应的标准问题。

继承上述步骤205中的举例,经过步骤207-步骤208后,目标问题“宝宝吐奶怎么办”与三个候选问题“宝宝呛奶怎么办”、“宝宝吐奶要咋处理呢”、“宝宝有奶瓣怎么办”,根据语义相关度由大到小排布的候选问题分别为“宝宝吐奶要咋处理呢”、“宝宝呛奶怎么办”、“宝宝有奶瓣怎么办”。则将“宝宝吐奶要咋处理呢”确定为目标问题“宝宝吐奶怎么办”的标准问题。

步骤209,根据标准问题确定目标问题对应的目标答案。

步骤210,输出目标答案。

本实施例中,步骤209-步骤210的实现方式与本申请实施例一中的步骤104-步骤105的实现方式类似,在此不再一一赘述。

本实施例中,在根据目标问题与各候选问题间的语义相关度确定标准问题时,提取目标问题中的目标概念并提取各候选问题中候选概念,确定目标概念及各候选问题中候选概念对应的语义特征数据;将目标概念对应的语义特征数据与各候选问题中候选概念对应的语义特征数据输入到预设wmd算法模型中,以输出目标问题与各候选问题的语义相关度,能够采用预设的wmd算法模型首先确定出至少一个目标概念与每个候选问题中的至少一个候选概念的对应关系,然后计算每个目标概念与对应的候选概念间的语义相关度。进而根据至少一个目标概念与候选问题中对应的候选概念间的语义相关度确定出该目标问题与该候选问题间的语义相关度。无需将目标概念与候选问题中的每个候选概念依次计算语义相关度,提高了确定目标问题与各候选问题件的语义相关度的效率。并且在根据目标概念和各候选问题中候选概念计算目标问题与各候选问题间的语义相关度时,目标概念和候选概念的语义特征数据中,不仅包括对应的词向量,还加入了idf取值作为词向量的权重,所以使确定出的目标问题与各候选问题的语义相关度更加准确。

实施例三

图12为本申请实施例三提供的结合rpa和ai的对话问答方法的流程图,如图12所示,本实施例提供的结合rpa和ai的对话问答方法,是在本申请实施例二提供的结合rpa和ai的对话问答方法的基础上,还包括了构建目标领域概念关系网络的步骤,则本实施例提供的结合rpa和ai的对话问答方法包括以下步骤。

步骤301,构建目标领域概念集。

步骤302,对目标领域概念集中的各待选概念进行聚类,以获得代表概念。

步骤303,计算各代表概念对应的词向量,以形成代表概念词向量集。

本实施例中,步骤301-步骤303的实现方式与本申请实施例二中的步骤201-步骤203的实现方式类似,在此不再一一赘述。

步骤304,分别计算各代表概念的词向量间的內积值。

步骤305,将各代表概念的词向量的內积值确定为对应的语义相关度。

进一步地,本实施例中,计算两两代表概念的词向量间的內积值。若某两个代表概念的词向量间的內积值越大,则说明该两个代表概念的语义越相关。相反,若某两个代表概念的词向量间的內积值越小,则说明该两个代表概念的语义越不相关。所以将各代表概念的词向量的內积值确定为对应的语义相关度。

步骤306,根据各代表概念及对应的语义相关度构建目标领域概念关系网络。

作为一种可选实施方式,如图13所示,本实施例中,步骤306包括以下步骤:

步骤3061,将各代表概念确定为目标领域概念关系网络中图结构的节点。

步骤3062,将各代表概念间的语义相关度确定为对应图结构的节点间的边的关系值。

在图14中为母婴领域部分概念关系网络。如图14所示,将各代表概念确定为目标领域概念关系网络中图结构的节点,将各代表概念间的语义相关度确定为对应图结构的节点间的边的关系值。则在图14中的各圆圈为图结构的节点,各圆圈中的文字为代表概念。两个代表概念间的连线为节点间的边,两个代表概念间的连线上的数字为代表概念间的语义相关度,即为节点间的边的关系值。可以理解的是,为了能够看清两个代表概念间的关系,在图14中只示例出了一部分代表概念间的图结构。

为了将目标领域概念关系网络与该目标领域的实体建立关联,预先根据目标领域建立实体库,实体库中的实体类型可根据目标领域而定。如在母婴领域中,实体库中的实体为身体的各个部位。如在图14中,将与身体部位关联代表概念与对应的实体建立关联。

步骤307,接收用户输入的目标问题。

步骤308,确定目标问题对应的至少一个候选问题。

步骤309,提取目标问题中的目标概念并提取各候选问题中候选概念。

本实施例中,步骤307-步骤309的实现方式与本申请实施例二中的步骤204-步骤206的实现方式类似,在此不再一一赘述。

步骤310,根据目标概念和各候选问题中候选概念计算目标问题与各候选问题间的语义相关度。

步骤311,根据目标问题与各候选问题间的语义相关度确定标准问题。

步骤312,根据标准问题确定目标问题对应的目标答案;

步骤313,输出目标答案。

本实施例中,步骤310-步骤313的实现方式与本申请实施例二中的步骤207-步骤210的实现方式类似,在此不再一一赘述。

本实施例中,在计算各代表概念对应的词向量,以形成代表概念词向量集后,分别计算各代表概念的词向量间的內积值;将各代表概念的词向量的內积值确定为对应的语义相关度;根据各代表概念及对应的语义相关度构建目标领域概念关系网络,能够将构建的目标领域概念关系网络应用在对话问答系统中。为对话问答系统的应用提供依据。并通过该目标领域概念关系网络能够提升对话问答系统的问答能力,知识推荐能力及信息引导能力等。

实施例四

图15为本申请实施例四提供的结合rpa和ai的对话问答装置的结构示意图,如图15所示,本实施例提供的结合rpa和ai的对话问答装置400包括:目标问题接收模块401,候选问题确定模块402,标准问题确定模块403,目标答案确定模块404,目标答案输出模块405。

其中,目标问题接收模块401,用于接收用户输入的目标问题。候选问题确定模块402,用于确定目标问题对应的至少一个候选问题。标准问题确定模块403,用于根据目标问题与各候选问题间的语义相关度确定标准问题。目标答案确定模块404,用于根据标准问题确定目标问题对应的目标答案。目标答案输出模块405,用于输出目标答案。

本实施例提供的结合rpa和ai的对话问答装置可以执行图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

实施例五

图16为本申请实施例五提供的结合rpa和ai的对话问答装置的结构示意图,如图16所示,本实施例提供的结合rpa和ai的对话问答装置500在本申请实施例四提供的结合rpa和ai的对话问答装置400的基础上,进一步地,还包括:概念提取模块501,语义相关度计算模块502,词向量集构建模块503及概念关系网络构建模块504。

进一步地,概念提取模块501,用于提取目标问题中的目标概念并提取各候选问题中候选概念。语义相关度计算模块502,用于根据目标概念和各候选问题中候选概念计算目标问题与各候选问题间的语义相关度。

进一步地,候选问题确定模块402,具体用于:

将目标问题与预设的目标领域问题集中的各待选问题进行相似性匹配;将满足相似性要求的待选问题确定为候选问题。

进一步地,概念提取模块501,在提取目标问题中的目标概念时,具体用于:

将目标问题与预设的目标领域问句模板集中的各问句模板进行正则匹配;获取与目标问题相匹配的问句模板;确定目标问题与相匹配的问句模板之间的增加文本;将增加文本确定为目标概念。

进一步地,若目标领域问句模板集中不存在与目标问题相匹配的问句模板,则概念提取模块501,还用于:

将目标问题与预先构建的目标领域概念集中的各待选概念进行关键词匹配;获取与目标问题匹配度最高的待选概念;将相匹配度最高的待选概念确定为目标问题的目标概念。

进一步地,语义相关度计算模块502,具体用于:

确定目标概念及各候选问题中候选概念对应的语义特征数据;将目标概念对应的语义特征数据与各候选问题中候选概念对应的语义特征数据输入到预设wmd算法模型中,以输出目标问题与各候选问题的语义相关度。

进一步地,语义相关度计算模块502,在确定目标概念及各候选问题中候选概念对应的语义特征数据时,具体用于:

确定目标概念及各候选问题中候选概念对应的词向量;确定目标概念及各候选问题中候选概念在目标领域常用词集中的idf取值;将目标概念对应的词向量与对应的idf取值的乘积确定为目标概念对应的语义特征数据;将各候选问题中候选概念对应的词向量与对应的idf取值的乘积确定为各候选问题中候选概念对应的语义特征数据。

进一步地,标准问题确定模块403,具体用于:

将语义相关度最大的候选问题确定为标准问题。

进一步地,还包括:词向量集构建模块503,用于构建目标领域概念集;对目标领域概念集中的各待选概念进行聚类,以获得代表概念;计算各代表概念对应的词向量,以形成代表概念词向量集。

进一步地,语义相关度计算模块502,在确定目标概念及各候选问题中候选概念对应的词向量时,具体用于:

从代表概念词向量集中获取目标概念及各候选问题中候选概念对应的词向量。

进一步地,词向量集构建模块502,在构建目标领域概念集时,具体用于:

获取预设的目标领域问题集;提取目标领域问题集中的各待选问题中的待选概念;若未达到预设的概念集收敛条件,则扩展预设的目标领域问句模板集中的各问句模板,执行提取目标领域问题集中的各待选问题中的待选概念;若达到预设的概念集收敛条件,则根据各待选概念构建目标领域概念集。

进一步地,词向量集构建模块503,在对目标领域概念集中的各待选概念进行聚类,以获得代表概念时,具体用于:

将目标领域概念集中满足对齐条件的待选概念确定为同一待选概念;将各同一待选概念和目标领域概念集中的其他待选概念确定为候选概念;对各候选概念进行聚类,以获得代表概念。

进一步地,词向量集构建模块503,在对各候选概念进行聚类,以获得代表概念时,具体用于:

采用hdbscan聚类算法对候选概念进行聚类,以获得每个聚类中心的候选概念;将每个聚类中心的候选概念确定为代表概念。

进一步地,词向量集构建模块503,在计算各代表概念对应的词向量,以形成代表概念词向量集时,具体用于:

获取至少一个代表知识点问题,各代表知识点问题中包括对应的代表概念;采用训练至收敛的fasttext模型对各代表知识点问题中的每个概念进行编码,以获得每个概念的词向量;从各代表知识点问题的每个概念的词向量中获取对应的代表概念的词向量,以形成代表概念词向量集。

进一步地,词向量集构建模块503,在采用训练至收敛的fasttext模型对各代表知识点问题中的每个概念进行编码,以获得每个概念的词向量之前,还用于:

获取训练样本,训练样本为目标领域知识库中的训练知识点问题;采用训练样本对初始fasttext模型进行训练;判断训练后的fasttext模型是否满足预设的模型收敛条件;若确定满足预设的模型收敛条件,则将满足预设的模型收敛条件的fasttext模型确定为训练至收敛的fasttext模型。

进一步地,还包括:概念关系网络构建模块504,用于分别计算各代表概念的词向量间的內积值;将各代表概念的词向量的內积值确定为对应的语义相关度;根据各代表概念及对应的语义相关度构建目标领域概念关系网络。

进一步地,概念关系网络构建模块504,在根据各代表概念及对应的语义相关度构建目标领域概念关系网络时,具体用于:

将各代表概念确定为目标领域概念关系网络中图结构的节点;将各代表概念间的语义相关度确定为对应图结构的节点间的边的关系值。

本实施例提供的结合rpa和ai的对话问答装置可以执行图3-图13所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

实施例六

图17是用来实现本申请实施例的对话问答方法的电子设备的框图,兔兔17所示,本申请实施例六提供的电子设备,包括:存储器601,处理器602以及计算机程序。

其中,计算机程序存储在存储器601中,并被配置为由处理器602执行以实现实施例一至实施例三中任一个实施例提供的结合rpa和ai的对话问答方法。

相关说明可以对应参见图2至图13的步骤所对应的相关描述和效果进行理解,此处不做过多赘述。

电子设备旨在各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

其中,本实施例中,存储器601和处理器602通过总线603连接。

本申请实施例七提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现实施例一至实施例三中任一个实施例提供的结合rpa和ai的对话问答方法。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1