一种知识库的优化方法和装置的制造方法

文档序号:9727461阅读:1067来源:国知局
一种知识库的优化方法和装置的制造方法
【技术领域】
[0001]本发明涉及人机交互技术领域,尤其涉及一种知识库的优化方法和装置。
【背景技术】
[0002]人机交互是研究系统与用户之间的交互关系的科学。系统可以是各种各样的机器,也可以是计算机化的系统和软件。例如,通过人机交互可以实现各种人工智能系统,例如,智能客服系统、语音控制系统等等。
[0003]人工智能语义识别是人机交互的基础,其能够对人类语言进行识别,以转换成机器能够理解的语言。为了能够理解人类语言,人工智能语义识别系统需要一套知识库。海量异构数据通过知识学习体系整理成知识,并融入到已有的知识体系中来。不同企业会生成各自的“专属知识”;同领域企业的知识中可以总结出“领域语义库”。
[0004]各种人工智能系统采用人工智能语义识别技术对用户提出的原始问句进行处理,确定出该原始问句对应的标准问句,再基于该标准问句及原始问句中所附带的一些限定性的信息给出相应的答案,在人工智能系统中以日志的形式记录下针对每一个原始问句的处理情况,每一条日志的内容包含:原始问题、标准问句以及答案。
[0005]目前,面对庞大数量的人机交互日志,均是通过大量人工投入,对交互日志进行人工校验纠错,从而提取优化内容加入到知识库中,成本高且效率低下。

【发明内容】

[0006]本发明要解决的技术问题是,提供一种知识库的优化方法和装置,在知识库的优化过程中减少对人机交互日志的进行纠错时的大量人工投入,降低成本提高效率。
[0007]本发明采用的技术方案是,所述知识库的优化方法,包括:
[0008]在待维护的人机交互日志中筛选出需纠错的人机交互日志;
[0009]基于历史人机交互日志数据对所述需纠错的人机交互日志的内容进行聚类优化;
[0010]根据聚类优化的结果对所述需纠错的人机交互日志进行纠错处理,并将纠错后的结果添加到知识库中。
[0011 ]进一步的,所述在待维护的人机交互日志中筛选出需纠错的人机交互日志,包括:
[0012]从历史人机交互日志数据中提取正确答复的人机交互日志形成正确日志库;从历史人机交互日志数据中提取错误答复且无意义的人机交互日志以及未答复且无意义的人机交互日志形成无意义日志库;
[0013]将每条待维护的人机交互日志分别与所述正确日志库和无意义日志库进行匹配判断,并将匹配失败的人机交互日志作为需纠错的人机交互日志。
[0014]进一步的,所述匹配失败指的是:未与正确日志库的用户问句匹配且未与无意义日志库的用户问句匹配;或者,未与正确日志库的用户问句匹配且虽与无意义日志库的用户问句匹配但未与无意义日志库的答案匹配。
[0015]进一步的,在进行匹配判断之后,所述方法还包括:通过人工方式对匹配失败的人机交互日志进行过滤,并将过滤后的人机交互日志作为需纠错的人机交互日志。
[0016]进一步的,所述聚类优化包括:
[0017]将需纠错的人机交互日志的用户问句分别与历史人机交互日志数据的用户问句及历史人机交互日志数据的用户问句对应的标准问进行语义相似度计算;
[0018]将语义相似度计算结果最高的前N个用户问句对应的标准问作为聚类优化的结果Ο
[0019]进一步的,作为一种可选的技术方案,所述Ν大于或等于1,所述纠错处理包括:
[0020]通过人工方式判断所述聚类优化的结果中有无与所述需纠错的人机交互日志的用户问句对应的标准问;
[0021 ]若有,将所述需纠错的人机交互日志的用户问句作为所述标准问的拓展问添加到知识库中;
[0022]否则,通过人工方式为所述需纠错的人机交互日志的用户问句撰写对应的标准问及答案,并将所述标准问及答案添加到知识库中。
[0023]进一步的,作为另一种可选的技术方案,所述Ν为3?5。
[0024]本发明还提供一种知识库的优化装置,包括:
[0025]筛选模块,用于在待维护的人机交互日志中筛选出需纠错的人机交互日志;
[0026]聚类优化模块,用于基于历史人机交互日志数据对所述需纠错的人机交互日志的内容进行聚类优化;
[0027]纠错模块,用于根据聚类优化的结果对所述需纠错的人机交互日志进行纠错处理,并将纠错后的结果添加到知识库中。
[0028]进一步的,所述筛选模块,具体用于:
[0029]从历史人机交互日志数据中提取正确答复的人机交互日志形成正确日志库;从历史人机交互日志数据中提取错误答复且无意义的人机交互日志以及未答复且无意义的人机交互日志形成无意义日志库;
[0030]将每条待维护的人机交互日志分别与所述正确日志库和无意义日志库进行匹配判断,并将匹配失败的人机交互日志作为需纠错的人机交互日志。
[0031]进一步的,所述匹配失败指的是:未与正确日志库的用户问句匹配且未与无意义日志库的用户问句匹配;或者,未与正确日志库的用户问句匹配且虽与无意义日志库的用户问句匹配但未与无意义日志库的答案匹配。
[0032]进一步的,所述筛选模块,还用于:
[0033]在进行匹配判断之后,通过人工方式对匹配失败的人机交互日志进行过滤,并将过滤后的人机交互日志作为需纠错的人机交互日志。
[0034]进一步的,所述聚类优化模块,具体用于:
[0035]将需纠错的人机交互日志的用户问句分别与历史人机交互日志数据的用户问句及历史人机交互日志数据的用户问句对应的标准问进行语义相似度计算;
[0036]将语义相似度计算结果最高的前Ν个用户问句对应的标准问作为聚类优化的结果Ο
[0037]进一步的,作为一种可选的技术方案,所述Ν大于或等于1,所述纠错模块,具体用于:
[0038]通过人工方式判断所述聚类优化的结果中有无与所述需纠错的人机交互日志的用户问句对应的标准问;
[0039]若有,将所述需纠错的人机交互日志的用户问句作为所述标准问的拓展问添加到知识库中;
[0040]否则,通过人工方式为所述需纠错的人机交互日志的用户问句撰写对应的标准问及答案,并将所述标准问及答案添加到知识库中。
[0041]进一步的,作为另一种可选的技术方案,所述N为3?5。
[0042]采用上述技术方案,本发明至少具有下列优点:
[0043]本发明所述知识库的优化方法和装置,应用了大数据分析技术,通过对人机交互日志进行筛选以过滤掉大部分无需纠错或处理的人机交互数据,接下来采用大数据及聚类优化结合人工判定的方式,大量降低了日志处理工作中所需投入的人工量,并极大提高了工作的效率、降低了成本。
【附图说明】
[0044]图1为本发明第一实施例的知识库的优化方法流程图;
[0045]图2为本发
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1