一种提供高频问题回答的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及计算机网络技术,特别地涉及一种提供高频问题回答的方法和装置。
【背景技术】
[0002] 对于电子商务公司来说,回答客户咨询是日常运营中常见的工作。有些公司设有 大量的客服人员,通过人工接听电话或在线交流的方式来回答客户的问题,这种方式耗费 大量人力,成本较高。有些公司把问题及其答案呈现在网站的页面中,让用户自行寻找答 案。这种做法往往让客户感到厌烦,影响网站的访问量,并且在问题数量较大的情况下,客 户难以快速找到问题及其答案。
[0003] 为了方便客户快速找到问题答案和缓解客服的接线压力,这些公司都拥有或正在 开发智能聊天系统,一方面解决客户的咨询问题,另一方面也可以解决一些不需要客服处 理的具体业务。在实践中,人们逐渐发现,在用户咨询的所有问题中,实际上只有很小的一 部分问题是客户经常咨询的,这些问题被称作高频问题(Frequently Asked Questions, FAQ),通常占了客户咨询量的很大一部分。因此解决好这部分问题,对提高智能聊天系统的 问答准确率和改善用户体验具有极大的促进作用。
[0004] 在智能聊天系统中,处理高频问题的大致做法是:由人工收集并整理得到高频问 题集,然后融合检索、文本纠错、语法分析、词法分析、相似度匹配等多种技术,从而实现高 频问题的问答。图1是根据现有技术的处理高频问题的方案的示意图。以下结合图1对现 有技术中处理高频问题的方案做出说明。
[0005] 在用户输入问题后,智能聊天系统中的预处理模块对输入问题进行预处理,其中 主要是对输入问题进行文本纠错(把错别字替换成正确的)、停用词过滤(过滤掉一些无用 的字词,如:的、了、吗等等)、词法分析(对输入问题进行分词等操作)、语法分析(对输入问 题进行词性标注等操作),上述处理的主要目的是为检索模块提供支撑,使检索结果更加准 确和高效。
[0006] 对于预处理之后的高频问题,由索引与检索模块从高频问题索引库中检索与输入 问题相匹配的问题集,并对检索到的问题集中的问题按相关度进行排序,传给问题匹配模 块。问题匹配模块进行关键词或语义相似度计算,以确定检索到的问题集与输入问题的词 形或语义相似度,相当于二次排序,然后选取与输入问题相似度最大的高频问题,如果其阈 值大于经验阈值(经验阈值通常是要用较长时间慢慢进行调整,并不能直接计算出来),则 直接将答案向用户输出;否则,不直接进行回答,而把二次排序的前N个问题作为推荐问题 返回给用户,让用户自行进行选择。
[0007] 上述现有的高频问题处理方案比较复杂耗时,需要服务器集群支撑,在处理量日 益增大的情况下,容易出现用户发送的问题得不到响应或响应较慢的情况。
【发明内容】
[0008] 有鉴于此,本发明给出一种提供高频问题回答的方法和装置,能够提高处理高频 问题的系统的负载能力,并有助于快速响应高频问题。
[0009] 为实现上述目的,根据本发明的一个方面,给出了一种提供高频问题回答的方法。 [0010] 本发明的提供高频问题回答的方法包括:步骤A :根据预选的高频问题集,采用文 本分类算法得出高频问题的分类模型,其中答案相同的高频问题归为同一高频问题类;步 骤B :使用所述分类模型,确定当前待回答的高频问题可能属于的一个或几个高频问题类; 步骤C :根据当前待回答的高频问题对于步骤B中确定的高频问题类的属于概率,对当前待 回答的高频问题进行答复。
[0011] 可选地,所述步骤A包括:步骤Al :对所述高频问题集进行特征化,使其中各个高 频问题在特征化之后为多个特征词;步骤A2 :对特征化之后的所述多个高频问题进行模型 训练从而得到所述分类模型。
[0012] 可选地,所述步骤Al包括:对所述高频问题集依次进行文本纠错、分词、停用词过 滤,然后按预设方式对所述高频问题集进行词语泛化,从而得到多个特征词。
[0013] 可选地,在所述步骤C中,若最大的一个属于概率大于预设值,则输出对应该属于 概率的高频问题类的答案,否则提供大小排名在前的预设数目个属于概率所对应的高频问 题类的答案。
[0014] 根据本发明的另一方面,给出了一种提供高频问题回答的装置。
[0015] 本发明的提供高频问题回答的装置包括:模型构建模块:用于根据预选的高频问 题集,采用文本分类算法得出高频问题的分类模型,其中答案相同的高频问题归为同一高 频问题类;归类模块,用于使用所述分类模型,确定当前待回答的高频问题可能属于的一个 或几个高频问题类;答复模块,用于根据当前待回答的高频问题对于所述归类模块确定的 高频问题类的属于概率,对当前待回答的高频问题进行答复。
[0016] 可选地,所述模型构建模块包括:特征化单元,用于对所述高频问题集进行特征 化,使其中各个高频问题在特征化之后为多个特征词;训练单元,用于对特征化之后的所述 多个高频问题进行模型训练从而得到所述分类模型。
[0017] 可选地,所述特征化单元还用于:对所述高频问题集依次进行文本纠错、分词、停 用词过滤,然后按预设方式对所述高频问题集进行词语泛化,从而得到多个特征词。
[0018] 可选地,所述答复模块包括:排序模块,用于对所述归类模块确定的高频问题类的 属于概率按大小进行排序;判断输出模块,用于判断最大的一个属于概率是否大于预设值, 若是,则输出对应该属于概率的高频问题类的答案,否则输出大小排名在前的预设数目个 属于概率所对应的高频问题类的特征化的高频问题;回答模块,用于输出被选择的所述特 征化高频问题的答案。
[0019] 根据本发明的技术方案,对于当前高频问题,确定其所属的问题类,再提供该问题 类的答案,有助于尽快地处理高频问题。本发明技术方案中的处理主要是数值计算,效率很 高;而在实践中,有若干类的问题的咨询量非常大,因此对于这些问题的高效处理能够明显 提高电子商务的计算机系统对于高频咨询问题的处理效率。
【附图说明】
[0020] 附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
[0021] 图1是根据现有技术的处理高频问题的方案的示意图;
[0022] 图2是根据本发明实施例的提供高频问题回答的方法的基本步骤的示意图;
[0023] 图3是根据本发明实施例的提供高频问题回答的装置的示意图;
[0024] 图4是根据本发明实施例的得出高频问题分类模型的流程的示意图;
[0025] 图5是根据本发明实施例的对高频问题进行分类的流程的示意图;
[0026] 图6是根据本发明实施例的处理高频问题的系统的示意图。
【具体实施方式】
[0027] 以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种 细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识 到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同 样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0028] 图2是根据本发明实施例的提供高频问题回答的方法的基本步骤的示意图。如图 2所示,本发明实施例的提供高频问题回答的方法的基本步骤包括如下的步骤S21至步骤 S23。
[0029] 步骤S21 :根据预选的高频问题集,采用文本分类算法得出高频问题的分类模型。 得出分类模型的作用是在电子商务的环境下对用户提供的高频问题进行分类以便快速地 进行回答。这里的高频问题集可基于用户咨询的日志,由人工收集整理,也可以结合检索功 能来加快收集高频问题的效率。对于文本分类算法来说,需要有一个分类方式。因为处理 高频问题的目的是要提供答案,因此答案相同的高频问题归为同一高频问题集。在实际的 客户咨询中往往遇到多个问题可采用同一回答方式,例如:
[0030] 问题1 :我订的东西什么时候能送货?
[0031] 问题2 :为什么到现在还未收到货?
[0032] 问题3 :我的订单850461304今天能送货了吗?
[0033] 对于上面3个问题,可回复如下相同答案:
[0034] "您好,订单正常配送时效,请参照以下标准:
[0035] 1、京东自营商品(商品编码为6位或7位)且京东配送:1-3天左右;
[0036] 2、京东自营商品且第三方配送:3_5天左右;
[0037] 3、第二方商家商品(商品编码为10位):3_7天左右;
[0038] 4、环球buy商品:20天左右;
[0039] 如若超期,请点击人工客服核实处理。"
[0040] 在本步骤中,可以先对高频问题集进行特征化,使其中各个高