知识库的补充方法、装置、服务器和计算机存储介质与流程

文档序号:23132522发布日期:2020-12-01 13:06阅读:158来源:国知局
知识库的补充方法、装置、服务器和计算机存储介质与流程

本发明涉及知识库技术领域,特别涉及一种知识库的补充方法、装置、服务器和计算机存储介质。



背景技术:

知识库系统是银行的一种常用的系统,通过将银行的各项业务对应的业务知识存储在知识库中,业务员可以及时的从知识库中找到对应的业务知识,从而根据业务知识为客户办理业务。

目前,向知识库中补充新的业务知识的方式,一般是按一定的周期定时补充(例如每隔一个月补充一次)。而需要补充至知识库的新知识的出现时间往往是随机的,可能短时间内出现大量需要补充的新知识,也可能很长一段时间内都不出现新知识。

因此,这种按一定周期定时补充新知识的方案无法适应新知识的特点,常常会发生短期内出现大量新知识而无法将其及时补充至知识库的现象,影响用户对知识库的使用。



技术实现要素:

基于上述现有技术存在的问题,本申请提供一种知识库的补充方法、装置、服务器和计算机存储介质,以提供一种能够及时补充新增的业务知识的知识库补充方案。

本申请第一方面提供一种知识库的补充方法,包括:

获取预设时间段内接收的所有未答复问题;其中,所述未答复问题,包括用户提出的且知识库中没有对应答案的问题,和知识库反馈的答案不正确的问题;

对所述未答复问题进行聚类分析,得到所述知识库的待补充知识类型;

向多个编辑终端发送所述待补充知识类型对应的知识补充任务,并接收每一个所述编辑终端响应所述知识补充任务而反馈的补充知识;

将所述补充知识写入所述知识库。

可选的,所述将所述补充知识写入所述知识库之前,还包括:

根据每两项补充知识之间的相似度,从接收到的多项补充知识中识别出重复补充知识,并删除所述重复补充知识。

可选的,所述从接收到的多项补充知识中识别出重复补充知识,包括:

针对每两项补充知识,按预设的权重计算所述两项补充知识的知识正文的相似度,知识标签的相似度和附件的相似度的加权平均值,得到所述两项补充知识的总相似度;

若所述两项补充知识的总相似度大于预设的相似阈值,则确定所述两项补充知识中的一项补充知识为另一项补充知识对应的重复补充知识。

可选的,所述向多个编辑终端发送所述待补充知识类型对应的知识补充任务之前,还包括:

筛选出多个工作内容与所述待补充知识类型相关联的用户作为候选用户,并将每一个所述候选用户的工作终端均确定为编辑终端。

本申请第二方面提供一种知识库的补充装置,包括:

获取单元,用于获取预设时间段内接收的所有未答复问题;其中,所述未答复问题,包括用户提出的且知识库中没有对应答案的问题,和知识库反馈的答案不正确的问题;

分析单元,用于对所述未答复问题进行聚类分析,得到所述知识库的待补充知识类型;

通信单元,用于向多个编辑终端发送所述待补充知识类型对应的知识补充任务,并接收每一个所述编辑终端响应所述知识补充任务而反馈的补充知识;

写入单元,用于将所述补充知识写入所述知识库。

可选的,所述补充装置还包括:

删除单元,用于根据每两项补充知识之间的相似度,从接收到的多项补充知识中识别出重复补充知识,并删除所述重复补充知识。

可选的,所述删除单元从接收到的多项补充知识中识别出重复补充知识时,具体用于:

针对每两项补充知识,按预设的权重计算所述两项补充知识的知识正文的相似度,知识标签的相似度和附件的相似度的加权平均值,得到所述两项补充知识的总相似度;

若所述两项补充知识的总相似度大于预设的相似阈值,则确定所述两项补充知识中的一项补充知识为另一项补充知识对应的重复补充知识。

可选的,所述补充装置还包括:

筛选单元,用于筛选出多个工作内容与所述待补充知识类型相关联的用户作为候选用户,并将每一个所述候选用户的工作终端均确定为编辑终端。

本申请第三方面提供一种服务器,包括存储器和处理器;

其中,所述存储器用于存储计算机程序;

所述处理器用于执行所述计算机程序,具体用于实现本申请第一方面任意一项所提供的知识库的补充方法。

本申请第四方面提供一种计算机存储介质,用于存储计算机程序,所述计算机程序被执行时,具体用于实现本申请第一方面任意一项所提供的知识库的补充方法。

本申请提供一种知识库的补充方法、装置、服务器和计算机存储介质,该方法包括,获取预设时间段内接收的所有未答复问题;未答复问题,包括用户提出的且知识库中没有对应答案的问题,和知识库反馈的答案不正确的问题;对未答复问题进行聚类分析,得到知识库的待补充知识类型;向多个编辑终端发送待补充知识类型对应的知识补充任务,并接收每一个编辑终端响应知识补充任务而反馈的补充知识;将补充知识写入知识库。本方案通过分析预设时间段内的未答复问题自动确定需要补充的知识的类型,然后通过编辑终端获得补充知识并将其写入知识库中。因此,本方案能够自动的适应新知识的出现频率,在出现新的业务知识时及时的将其补充至知识库中。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种知识库的架构示意图;

图2为本申请实施例提供的一种知识库的补充方法的流程图;

图3为本申请实施例提供的一种确定编辑终端的方法的流程图;

图4为本申请实施例提供的一种知识库的补充装置的结构示意图;

图5为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为了方便理解本申请实施例所提供的知识库的补充方法,首先简要说明知识库的架构。如图1所示,知识库系统主要运行于一个服务器或多个服务器组成的服务器集群上,银行内的任意一个工作终端均可以通过网络向知识库发送问题,然后获得知识库作为问题的答案而反馈的对应的业务知识。

本申请实施例提供一种知识库的补充方法,请参考图2,该方法可以包括以下步骤:

本申请任一实施例所提供的知识库的补充方法,其执行主体可以认为是用于运行知识库的服务器。

s201、获取预设时间段内接收的所有未答复问题。

其中,未答复问题,包括用户提出的且知识库中没有对应答案的问题,和知识库反馈的答案不正确的问题。

如背景技术所述,知识库是目前银行中一种常用的系统。知识库的一种使用方式是,银行的业务员在办理业务时,可以在业务终端输入任意一个需要解答的问题,业务终端将该问题发送至用于运行知识库的服务器,服务器将该问题和知识库中已存储的大量业务知识进行匹配,最终从知识库中找到和用户提出的问题匹配成功的一项或多项业务知识,将这些业务知识作为该问题的答案反馈至上述业务终端,然后由业务终端进行展示。

也就是说,知识库可以将自身存储的知识作为用户提出的问题的答案向对应的终端反馈。

具体的,知识库可以针对自身收到的每一个问题,建立并存储一条对应的问题记录,问题记录中可以包括,表示用户提出问题的时间的时间戳,用户输入的问题文本,例如“办理xx业务需要提供哪些材料?”,知识库针对该问题的反馈答案,例如,针对上述问题文本,可以从知识库中提取“xx业务--业务办理材料”这一业务知识,将这一业务知识作为上述问题的答案反馈至终端设备,其中,若某一问题知识库中未存储有相匹配的业务知识,导致知识库未能反馈对应的答案,则对应的问题记录中反馈答案这一项记录为“答案缺失”。最后,问题记录还可以包括用户对知识库反馈的答案的用户评价,用户评价具体可以包括好评,差评,以及答案不正确三种。

基于知识库所存储的问题记录,步骤s201的具体执行过程可以是,访问用于存储问题记录的数据库,然后从数据库中检索出每一条对应的时间戳位于上述预设时间段以内的问题记录,例如,预设时间段可以是最近24小时,则可以从数据库中检索出每一条对应的时间戳位于最近的24小时以内的问题记录,然后,从检索得到的最近24小时内的所有问题记录中,选取出问题答案部分为“答案缺失”的所有问题记录,以及选取出用户评价部分为答案不正确的所有问题记录,选取的这些问题记录所记录的问题文本,就是步骤s201中预设时间段内接收的所有未答复问题。

s202、对未答复问题进行聚类分析,得到知识库的待补充知识类型。

如前文所述,上述未答复问题,可以表示为用户输入的问题文本,例如“办理xx业务需要提供哪些材料?”。因此,步骤s202中对未答复问题进行聚类分析,其实质就是对步骤s201中获取的多个问题文本进行聚类分析。

一种可选的聚类分析方法是,首先将每一个问题文本均转换为对应的问题文本向量。该步骤可以利用预先构建的词向量模型实现。

其中,词向量模型(word2vec)是一种现有的数学模型,利用大量的语料进行训练后,词向量模型可以将每一个词汇均转换为对应的词向量。具体在本实施例中,可以利用词向量模型将一个问题文本包含的所有词汇均转换为对应的词向量,然后将这个问题文本包含的所有词汇的词向量累加,将累加后得到的向量确定为这个问题文本的问题文本向量。

将未答复问题的问题文本均转换为对应的问题文本向量之后,就可以根据每两个问题文本向量之间的余弦相似度对这些问题文本进行聚类,对于每两个问题文本,若这两个问题文本的问题文本向量的余弦相似度小于或等于预设的阈值,则确定这两个问题文本对应的未答复问题属于同一待补充知识类型,反之,若这两个问题文本的问题文本向量的余弦相似度大于预设的阈值,则确定这两个问题文本对应的未答复问题不属于同一待补充知识类型。

聚类完成后,针对同一待补充知识类型的多个未答复问题,统计将该待补充知识类型的所有未答复问题的问题文本中,每一种词汇的出现频率,然后按照出现频率由高至低依次选取前n个(一般n可以设置为3或4)词汇作为该待补充知识类型的关键词,由此,就确定了一个待补充知识类型。

例如,聚类为同一待补充知识类型的多个未答复问题的问题文本中,出现频率最高的前三个词汇分别是“xx业务”,“材料”,“缴费”,那么确定出来的一个待补充知识类型就是xx业务的办理材料和xx业务的缴费规则。

s203、向多个编辑终端发送待补充知识类型对应的知识补充任务,并接收每一个编辑终端响应知识补充任务而反馈的补充知识。

可选的,编辑终端可以包括银行的每一个员工的工作终端,也可以包括,按一定的筛选方式选取的多个候选员工的工作终端。

对于一个待补充知识类型,其对应的知识补充任务可以包括以下信息:

其一,知识补充任务中可以包括对应的待补充知识类型的关键词;其二,知识补充任务中可以包括属于对应的待补充知识类型的若干个未答复问题的问题文本;其三,当未答复问题是知识库反馈了对应的答案,但是反馈的答案不正确的问题时,知识补充任务还可以包括知识库反馈的错误答案;其四,知识补充任务还可以包括每一个编辑终端所需要补充的方向,例如,发送至业务员的编辑终端的知识补充任务,可以指定需要针对待补充知识类型提供尽量详细的说明和描述,发送至管理人员的编辑终端的知识补充任务可以要求提供对应的待补充知识类型的框架信息,例如对应的目录。

s204、对接收的多项补充知识进行数据清洗,并将清洗后的补充知识写入知识库。

需要说明的是,步骤s204中对收到的多项补充知识进行数据清洗的操作在本申请实施例中是可选的操作,也就是说,在步骤s204中,也可以不对收到的多项补充知识进行数据清洗,而是直接将收到的补充知识写入知识库。

其中,对于收到的每一项补充知识,若这一项补充知识对应于前述未答复问题中,被用户提出且知识库中没有存储对应的答案的问题,那么,在执行步骤s204时,直接将这一项补充知识写入知识库即可。

若一项补充知识所对应的问题,是前述未答复问题中,被用户提出但是知识库反馈的答案不正确的问题,那么在执行步骤s204时,首先要从知识库中删除之前反馈的答案,然后再将补充知识写入知识库。

对多项补充知识进行数据清洗,具体可以包括:

第一方面,可以根据每两项补充知识之间的相似度,从接收到的多项补充知识中识别出重复补充知识,并删除重复补充知识。

第二方面,可以针对每一项补充知识,检测这项补充知识是否与对应的待补充知识类型相关,若这项补充知识与对应的待补充知识类型不相关,则删除这项补充知识。

其中,从多项补充知识中删除重复补充知识的方法如下:

针对每两项补充知识,按预设的权重计算两项补充知识的知识正文的相似度,知识标签的相似度和附件的相似度的加权平均值,得到两项补充知识的总相似度。

若两项补充知识的总相似度大于预设的相似阈值,则确定两项补充知识中的一项补充知识为另一项补充知识对应的重复补充知识。

对于每一项补充知识,提供该项补充知识的员工可以在上传该项补充知识的时候,将相关的文档以该项补充知识的附件的形式一并上传。

上述知识正文的相似度,可以是:

针对两项补充知识,统计这两项补充知识的知识正文包含的所有字符数,另外统计这两项补充知识中相同字符的数量,然后用后者除以前者,将得到的比值作为这两项补充知识的知识正文的相似度。

另外,也可以利用前述词向量模型,将每一项补充知识的知识正文的每一个词汇均转换为对应的词向量,然后,将一项补充知识的知识正文的所有词向量累加,得到该项补充知识的知识正文的正文向量,最后,针对每两项补充知识,计算这两项补充知识的知识正文的正文向量的相似度,将计算结果作为这两项补充知识的知识正文的相似度。

知识标签的相似度和附件的相似度的计算方法与前述知识正文的计算方法基本一致,此处不再详述。

对于前述数据清洗的第二方面,具体执行过程可以是:

针对每一项补充知识,在这一项补充知识的标题,知识正文和附件中搜索对应的待补充知识类型的关键词,以及搜索和待补充知识类型的关键词具有相同语义的同义词,若待补充知识类型对应的多个关键词中,有任意一个关键词未在该项补充知识中出现,并且该项补充知识中也没有未出现的关键词的同义词,那么,就可以判断出该项补充知识不是待补充知识类型对应的业务知识,此时可以直接删除该项补充知识。

可选的,若一项补充知识不是待补充知识类型对应的业务知识,可以在删除该项补充知识后,向上传该项补充知识的编辑终端发送提示信息,以提示相关人员重新编辑并上传补充知识。

通过删除多项补充知识中的重复补充知识,本方案能够避免知识库中存储冗余的业务知识,充分利用知识库的存储空间。通过删除收到的不属于对应的待补充知识类型的补充知识,可以避免知识库中存储错误的业务知识,从而防止后续利用知识库答复问题时出现错误的答案。

可选的,在对多项补充知识进行数据清洗时,除了上述两方面的步骤以外,还可以对每一项补充知识进行翻译,删除错别字等操作。

可选的,在完成数据清洗之后,将补充知识写入知识库之前,还可以将这些经过数据清洗后的补充知识发送至对应的审核终端,由审核终端的员工对这些经过数据清洗后的补充知识进行人工审核。对于任意一项补充知识,若该项补充知识未通过人工审核,则删除该项补充知识,不将其写入知识库中,若该项补充知识通过人工审核,则将该项补充知识写入数据库中。

本申请提供一种知识库的补充方法,该方法包括,获取预设时间段内接收的所有未答复问题;未答复问题,包括用户提出的且知识库中没有对应答案的问题,和知识库反馈的答案不正确的问题;对未答复问题进行聚类分析,得到知识库的待补充知识类型;向多个编辑终端发送待补充知识类型对应的知识补充任务,并接收每一个编辑终端响应知识补充任务而反馈的补充知识;将补充知识写入知识库。本方案通过分析预设时间段内的未答复问题自动确定需要补充的知识的类型,然后通过编辑终端获得补充知识并将其写入知识库中。因此,本方案能够自动的适应新知识的出现频率,在出现新的业务知识时及时的将其补充至知识库中。

前述编辑终端,可以是银行的每一个员工用于办公的终端设备,也可以是根据待补充知识类型选取的,工作内容和待补充知识类型相关联的用户的终端设备,具体的,本申请实施例提供一种确定编辑终端的方法,请参考图3,该方法包括:

s301、获得预设时间段内所有用户的工作内容,得到工作内容集合。

本实施例中,用户即用于指代银行的员工,具体可以包括为客户办理业务的业务员,以及其他的技术支持人员,管理人员等。

用户的工作内容,可以包括,预设时间段内用户的工作内容,可以包括,用户在预设时间段内编辑的文档,业务办理记录,以及编写的邮件等信息。

s302、在工作内容集合中检索待补充知识类型的关键词。

当存在多个待补充知识类型,每一个待补充知识类型对应有多个关键词时,步骤s302,是指,针对每一个待补充知识类型的每一个关键词,在上述工作内容集合中检索该关键词。

s303、将对应的工作内容中包括待补充知识类型的关键词的用户确定为候选用户,并将候选用户的工作终端确定为编辑终端。

具体来说,针对每一个用户,若该用户在预设时间段内的工作内容中,出现了某一个待补充知识类型的一个或多个个关键词,就将该用户确定为这个待补充知识类型对应的候选用户,对应的,该候选用户的工作终端,就是这一待补充知识类型对应的编辑终端。

其中,若一个用户在预设时间段内的工作内容中出现了多个待补充知识类型的关键词,就将该用户确定为对应的多个待补充知识类型的候选用户。

任意一个编辑终端在接收到知识补充任务之后,可以以消息弹窗的形式弹出知识补充任务的编辑窗口,以便提示相关人员补充业务知识。在编辑终端弹出编辑窗口一段时间后,若编辑终端未收到回应,则编辑终端可以向服务器发送无操作反馈信息,以表明对应的候选用户未使用编辑终端,收到无操作反馈信息之后,服务器可以向对应的候选用户的手机发送提示短信,以提示候选用户尽快补充相关的业务知识。

可选的,任意一个编辑终端的候选用户在针对知识补充任务编辑相关的业务知识时,服务器可以将其他编辑终端已经编辑完成的业务知识发送至该编辑终端,以便对应的候选用户补充区别于已经编辑完成的业务知识的其他业务知识。

进一步可选的,若某一待补充知识类型对应的未答复问题中,包括多个知识库反馈的答案不正确的问题,那么服务器可以在接收到针对这一待补充知识类型反馈的补充知识之后,将这些业务知识发送至每一个提出前述反馈的答案不正确的问题的用户的终端,以便检验本次收到的补充知识是否正确。

结合本申请任一实施例提供的知识库的补充方法,本申请实施例还提供一种知识库的补充装置,请参考图4,该装置可以包括以下单元:

获取单元401,用于获取预设时间段内接收的所有未答复问题。

其中,未答复问题,包括用户提出的且知识库中没有对应答案的问题,和知识库反馈的答案不正确的问题。

分析单元402,用于对未答复问题进行聚类分析,得到知识库的待补充知识类型。

通信单元403,用于向多个编辑终端发送待补充知识类型对应的知识补充任务,并接收每一个编辑终端响应知识补充任务而反馈的补充知识。

写入单元404,用于将补充知识写入知识库。

可选的,补充装置还包括:

删除单元405,用于根据每两项补充知识之间的相似度,从接收到的多项补充知识中识别出重复补充知识,并删除重复补充知识。

删除单元405从接收到的多项补充知识中识别出重复补充知识时,具体用于:

针对每两项补充知识,按预设的权重计算两项补充知识的知识正文的相似度,知识标签的相似度和附件的相似度的加权平均值,得到两项补充知识的总相似度;

若两项补充知识的总相似度大于预设的相似阈值,则确定两项补充知识中的一项补充知识为另一项补充知识对应的重复补充知识。

可选的,补充装置还包括:

筛选单元406,用于筛选出多个工作内容与待补充知识类型相关联的用户作为候选用户,并将每一个候选用户的工作终端均确定为编辑终端。

本申请实施例提供的知识库的补充装置,其具体工作原理可以参考本申请任一实施例所提供的知识库的补充方法中的对应步骤,此处不再详述。

本申请提供一种知识库的补充装置,包括,获取单元401获取预设时间段内接收的所有未答复问题;未答复问题,包括用户提出的且知识库中没有对应答案的问题,和知识库反馈的答案不正确的问题;分析单元402对未答复问题进行聚类分析,得到知识库的待补充知识类型;通信单元403向多个编辑终端发送待补充知识类型对应的知识补充任务,并接收每一个编辑终端响应知识补充任务而反馈的补充知识;写入单元404将补充知识写入知识库。本方案通过分析预设时间段内的未答复问题自动确定需要补充的知识的类型,然后通过编辑终端获得补充知识并将其写入知识库中。因此,本方案能够自动的适应新知识的出现频率,在出现新的业务知识时及时的将其补充至知识库中。

本申请实施例还提供一种服务器,请参考图5,服务器可以包括存储器501和处理器502。

其中,存储器501用于存储计算机程序。

处理器502用于执行上述计算机程序,具体用于实现本申请任一实施例所提供的知识库的补充方法。

本申请实施例还提供一种计算机存储介质,用于存储计算机程序,计算机程序被执行时,具体用于实现本申请任一实施例所提供的知识库的补充方法。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

需要注意,本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1