频问题在特征化之 后为多个特征词;然后再对特征化之后的多个高频问题进行模型训练从而得到分类模型。 在特征化的过程中,可以对高频问题集进行文本纠错、分词、停用词过滤等处理,再进行词 语泛化,从而得到多个特征词,这样就得到了特征化的高频问题集。
[0041] 步骤S22 :使用步骤S21中得到的分类模型,确定当前待回答的高频问题可能属于 的一个或几个高频问题类。在本步骤中,将当前的高频问题输入到分类模型中,会得到该高 频问题可能属于的若干个类别,并且该高频问题对于该若干个类别中的每一类,会有一个 属于概率。
[0042] 步骤S23 :根据当前待回答的高频问题对于步骤S22中确定的高频问题类的属于 概率,对当前待回答的高频问题进行答复。在本步骤中,若最大的一个属于概率大于预设 值,则输出对应该属于概率的高频问题类的答案,否则提供大小排名在前的预设数目个属 于概率所对应的高频问题类的答案。
[0043] 图3是根据本发明实施例的提供高频问题回答的装置的示意图。如图3所示,本 发明实施例的提供高频问题回答的装置30主要包括模型构建模块31、归类模块32、以及答 复模块33。
[0044] 模型构建模块31用于根据预选的高频问题集,采用文本分类算法得出高频问题 的分类模型,其中答案相同的高频问题归为同一高频问题类;归类模块32用于使用上述分 类模型,确定当前待回答的高频问题可能属于的一个或几个高频问题类;答复模块33用于 根据当前待回答的高频问题对于归类模块32确定的高频问题类的属于概率,对当前待回 答的高频问题进行答复。
[0045] 模型构建模块31的一种可选结构是包括特征化单元和训练单元(图中未示出),其 中特征化单元用于对上述高频问题集进行特征化,使其中各个高频问题在特征化之后为多 个特征词;训练单元,用于对特征化之后的上述多个高频问题进行模型训练从而得到上述 分类模型。特征化单元还可以用于对上述高频问题集依次进行文本纠错、分词、停用词过 滤,然后按预设方式对上述高频问题集进行词语泛化,从而得到多个特征词。
[0046] 答复模块33的一种可选结构是包括排序模块、判断输出模块、以及回答模块(图 中未示出)。其中排序模块用于对归类模块32确定的高频问题类的属于概率按大小进行 排序;判断输出模块用于判断最大的一个属于概率是否大于预设值,若是,则输出对应该属 于概率的高频问题类的答案,否则输出大小排名在前的预设数目个属于概率所对应的高频 问题类的特征化的高频问题;回答模块用于输出被选择的特征化高频问题的答案。如前所 述,将答案相同的多个高频问题归为同一高频问题类,这些高频问题的具体文字表达方式 各异,但可以采用一种提问方式作为它们的等价方式。例如前文举例的如下3个问题:
[0047] 问题1 :我订的东西什么时候能送货?
[0048] 问题2 :为什么到现在还未收到货?
[0049] 问题3 :我的订单850461304今天能送货了吗?
[0050] 这三个问题可采用一个标准问题代替:"请问现在订单正常配送时效的标准是什 么?"采用标准问题,一方面能够准确描述客户的疑问,另一方面是兼顾了文字表达的规 范、优美。
[0051] 以下对本发明实施例的技术方案做进一步详细说明。图4是根据本发明实施例的 得出高频问题分类模型的流程的示意图。
[0052] 高频问题分类模型是根据高频问题集经训练得出,因此需要收集高频问题以形成 高频问题集(步骤41)。然后对高频问题集进行人工标注和扩充以得到带类标的高频问题 集(步骤42),具体可以先把采用相同答案的问题归为一个高频问题类;然后在用户咨询的 日志中,人工提取出属于每个类别的问题来进行扩充。在这里也可借助检索功能来加快扩 充过程。最终得到带类标的高频问题集。
[0053] 接下来要对带类标的高频问题集进行特征化(步骤43)。可按如下子步骤完成:第 一步(步骤431 ),对高频问题集中的每个问题进行文本纠错,这一过程采用的是简单的基于 字典的纠错方式,纠错字典中包含了人工收集的常见"错词-正确词",直接采用扫描替换 的方式进行;第二步(步骤432)对文本纠错后的问题集进行分词,分词过程把连续的英文 和数字当成一个词看待;第三步(步骤433)采用人工收集的停用词库对问题集进行停用词 过滤;第四步(步骤434)进行词语泛化过程,即把所有的数字都替换为0、把所有商品名称 都替换为商品类别名、根据同义词典把词义相同的词都替换为统一的词,最终得到特征化 后的1?频问题集。
[0054] 以上文的3个问题为例,该3个问题的特征化结果如下:
[0055] 问题1 :订东西什么时候送货
[0056] 问题2:现在未收到货
[0057] 问题3 :订单000000000今天送货
[0058] 其中过滤的停用词为:我的
[0059] 在保存了特征化后的高频问题集(步骤44)后,进入模型生成阶段(步骤45)。以下 说明本步骤的具体流程。第一步(步骤451),进行基于信息增益的特征选择。此时先按公式 (1)计算出高频问题集中每个特征词的信息增益值。
[0060] 公式(1):
【主权项】
1. 一种提供高频问题回答的方法,其特征在于,包括: 步骤A :根据预选的高频问题集,采用文本分类算法得出高频问题的分类模型,其中答 案相同的高频问题归为同一高频问题类; 步骤B :使用所述分类模型,确定当前待回答的高频问题可能属于的一个或几个高频 问题类; 步骤C :根据当前待回答的高频问题对于步骤B中确定的高频问题类的属于概率,对当 前待回答的高频问题进行答复。
2. 根据权利要求1所述的方法,其特征在于,所述步骤A包括: 步骤Al :对所述高频问题集进行特征化,使其中各个高频问题在特征化之后为多个特 征词; 步骤A2 :对特征化之后的所述多个高频问题进行模型训练从而得到所述分类模型。
3. 根据权利要求2所述的方法,其特征在于,所述步骤Al包括: 对所述高频问题集依次进行文本纠错、分词、停用词过滤,然后按预设方式对所述高频 问题集进行词语泛化,从而得到多个特征词。
4. 根据权利要求1,2或3所述的方法,其特征在于,在所述步骤C中,若最大的一个属 于概率大于预设值,则输出对应该属于概率的高频问题类的答案,否则提供大小排名在前 的预设数目个属于概率所对应的高频问题类的答案。
5. -种提供高频问题回答的装置,其特征在于,包括: 模型构建模块:用于根据预选的高频问题集,采用文本分类算法得出高频问题的分类 模型,其中答案相同的高频问题归为同一高频问题类; 归类模块,用于使用所述分类模型,确定当前待回答的高频问题可能属于的一个或几 个高频问题类; 答复模块,用于根据当前待回答的高频问题对于所述归类模块确定的高频问题类的属 于概率,对当前待回答的高频问题进行答复。
6. 根据权利要求5所述的装置,其特征在于,所述模型构建模块包括: 特征化单元,用于对所述高频问题集进行特征化,使其中各个高频问题在特征化之后 为多个特征词; 训练单元,用于对特征化之后的所述多个高频问题进行模型训练从而得到所述分类模 型。
7. 根据权利要求6所述的装置,其特征在于,所述特征化单元还用于:对所述高频问 题集依次进行文本纠错、分词、停用词过滤,然后按预设方式对所述高频问题集进行词语泛 化,从而得到多个特征词。
8. 根据权利要求5,6或7所述的装置,其特征在于,所述答复模块包括: 排序模块,用于对所述归类模块确定的高频问题类的属于概率按大小进行排序; 判断输出模块,用于判断最大的一个属于概率是否大于预设值,若是,则输出对应该属 于概率的高频问题类的答案,否则输出大小排名在前的预设数目个属于概率所对应的高频 问题类的特征化的高频问题; 回答模块,用于输出被选择的所述特征化高频问题的答案。
【专利摘要】本发明公开了一种提供高频问题回答的方法和装置,能够提高处理高频问题的系统的负载能力,并有助于快速响应高频问题。本发明的提供高频问题回答的方法包括:根据预选的高频问题集,采用文本分类算法得出高频问题的分类模型,其中答案相同的高频问题归为同一高频问题类;使用所述分类模型,确定当前待回答的高频问题可能属于的一个或几个高频问题类;根据当前待回答的高频问题对于确定的高频问题类的属于概率,对当前待回答的高频问题进行答复。
【IPC分类】G06F17-30
【公开号】CN104834651
【申请号】CN201410049585
【发明人】陈超
【申请人】北京京东尚科信息技术有限公司, 北京京东世纪贸易有限公司
【公开日】2015年8月12日
【申请日】2014年2月12日