明第三实施例的知识库的优化装置组成结构示意图;
[0046]图3为本发明第五实施例的分析得出无用数据的原理示意图;
[0047]图4为本发明第五实施例的用于过滤掉无用数据的大数据自定判断处理流程图。
【具体实施方式】
[0048]为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本发明进行详细说明如后。
[0049]本发明第一实施例,一种知识库的优化方法,如图1所示,包括以下具体步骤:
[0050 ]步骤S101,在待维护的人机交互日志中筛选出需纠错的人机交互日志。
[0051 ] 具体的,步骤S101包括:
[0052]A1:从历史人机交互日志数据中提取正确答复的人机交互日志形成正确日志库;从历史人机交互日志数据中提取错误答复且无意义的人机交互日志以及未答复且无意义的人机交互日志形成无意义日志库;
[0053]需要说明的是,正确日志库中每条人机交互日志的内容中均包含以下组成部分:扩展问、标准问句及答案。待维护的人机交互日志很可能是未回复的,则此时可以使用系统预设的默认答案,但没有标准问及扩展问;同理,无意义日志库中的日志也可能是未回复的,则也可以使用系统预设的默认答案,此时也没有标准问和扩展问。
[0054]A2:将每条待维护的人机交互日志分别与所述正确日志库和无意义日志库进行匹配判断,并将匹配失败的人机交互日志作为需纠错的人机交互日志。
[0055]在步骤A2中,所述匹配失败指的是:未与正确日志库的用户问句匹配且未与无意义日志库的用户问句匹配;或者,未与正确日志库的用户问句匹配且虽与无意义日志库的用户问句匹配但未与无意义日志库的答案匹配。
[0056]本发明实施例对待维护的每一条人机交互日志,无论其是否正确、是否有意义,均会对其进行性质划分,经过性质划分之后,无需对正确人机交互日志、无意义人机交互日志和错误人机交互日志等无用数据进行维护,而只需对可能有意义的人机交互日志进行维护纠错,可能有意义的人机交互日志包括:未与正确日志库的用户问句匹配且未与无意义日志库的用户问句匹配的人机交互日志,以及未与正确日志库的用户问句匹配且虽与无意义日志库的用户问句匹配但未与无意义日志库的答案匹配的人机交互日志。避免了现有技术中在日志纠错时,只针对错误日志,且每天重复看的正确日志部分也未有有效利用。
[0057]而且,本发明实施例的技术方案可过滤掉大量无用数据,提高工作效率。现有技术中,大量的正确与错误混杂的日志通过人工处理,难免会有遗漏的情况存在,并且需要投入大量的人工。现在通过大数据处理过滤大部分无用数据内容,减少了需要投入的人工量。并且定位了需纠错的日志的范围后,使纠错的效果大大的提高了。
[0058]步骤S102,基于历史人机交互日志数据对所述需纠错的人机交互日志的内容进行聚类优化。
[0059]具体的,步骤S102包括:
[0060]B1:将需纠错的人机交互日志的用户问句分别与历史人机交互日志数据的用户问句及历史人机交互日志数据的用户问句对应的标准问进行语义相似度计算。
[0061]所述语义相似度计算可以是文本聚类分析算法、LDA分析算法、以及序列分析算法相结合来进行的,由于语义相似度计算采用的均是现有的算法,此处不详述。
[0062]B2:将语义相似度计算结果最高的前N个用户问句对应的标准问作为聚类优化的结果。
[0063]具体的,在N大于等于1的情况下,优选的小为3?5;可选的小为1。
[0064]由于前面同时和用户问句和标准问进行相似度计算,因此相似度值靠前的可能是用户问句,也可能是标准问,由于历史人机交互日志数据中用户问句必然对应有标准问,无论是由标准问直接出现在语义相似度计算的结果中还是用户问句出现在语义相似度计算的结果中,均将用户问句对应的标准问作为聚类优化的结果,呈现出来。
[0065]需要说明的是,本发明实施例的步骤S101中基于历史人机交互日志数据从待维护的人机交互日志中筛选出需纠错的人机交互日志的过程、以及步骤S102中基于历史人机交互日志数据对所述需纠错的人机交互日志的内容进行聚类优化的过程,均是基于大数据分析技术实现的。
[0066]步骤S103,根据聚类优化的结果对所述需纠错的人机交互日志进行纠错处理,并将纠错后的结果添加到知识库中。
[0067]具体的,步骤S103包括:
[0068]通过人工方式判断所述聚类优化的结果中有无与所述需纠错的人机交互日志的用户问句对应的标准问;
[0069]若有,将所述需纠错的人机交互日志的用户问句作为所述标准问的拓展问添加到知识库中;由于所述聚类优化的结果中存在的该标准问可能是一个也可能是多个,如果是多个,则可以通过人工方式选出一个最合适标准问对应的所述需纠错的人机交互日志的用户问句添加到知识库中。
[0070]否则,通过人工方式为所述需纠错的人机交互日志的用户问句撰写对应的标准问及答案,并将所述标准问及答案添加到知识库中。
[0071]进一步的,通过人工方式为所述需纠错的人机交互日志的用户问句撰写对应的标准问及答案,并将所述标准问及答案添加到知识库中,包括以下两种情况:一是直接将用户问句作为标准问,此时只把标准问和答案加至知识库中;二是用户问句不作为标准问,而是作为标准问的扩展问,此时同时把标准问、答案和用户问句加至知识库中。
[0072]针对现有技术中优化知识库内容的工作均需要由专业的知识工程师才能完成的缺陷,本发明实施例采用步骤B2中的大数据相似语义推荐后,对于“判断所述聚类优化的结果中有无与所述需纠错的人机交互日志的用户问句对应的标准问”的工作只要由普通的运营人员进行判定,即可完成知识库内容优化的工作。剩余需要新增语义的工作即“通过人工方式为所述需纠错的人机交互日志的用户问句撰写对应的标准问及答案”的部分再交由知识工程师完成,从而大大降低了知识优化工作需要工作人员的门槛。
[0073]知识库包括:标准问、答案和扩展问,在人机交互过程中,先有用户问句与知识库中的扩展问匹配上,然后找出对应的标准问,基于标准问以及用户问句中所含的相关限定信息在知识库的人机交互日志中寻找出答案。例如:用户问句是“今天北京天气如何?”,利用该用户问句在知识库中匹配上相类似的扩展问“天气如何?”,并进一步找到该扩展问对应的标准问“天气情况查询”,最后根据该标准问以及该用户问句中的限定信息“北京”和“今天”,在知识库中查找到相应的答案。知识库基于本发明实施例的优化方法在对已产生的人机交互日志进行逐条维护的过程中,不断的将经过优化的人机交互日志的相关信息加入到知识库中,以使知识库更加完善,从而在后续人机交互过程中更加准确智能的回答用户问句,满足用户的多种多样的需求。
[0074]本发明第二实施例,一种知识库的优化方法,本实施例