本发明涉及人工智能技术领域,具体涉及一种对话内容类别识别方法、装置、计算机设备及存储介质。
背景技术:
在保险销售场景中,通过对保险代理人和客户之间的对话进行内容专业性识别,可以挖掘出优质的讲解话术,进而帮助其他代理人更好的同客户讲解保险产品。对话内容的专业性识别是挖掘讲解话术的关键一步,因而尤为重要。
发明人在实现本发明的过程中发现,现有的对话内容专业性识别主要有两种:一种是基于统计特征,然而该方法未考虑到对话内容本身,因而识别效果受限;另一种是基于神经网络对对话内容进行建模,先得到内容的特征表示,再训练神经网络模型,进行分类预测,但在对话场景下,需要使用语音识别技术将对话转换为文本,而语音识别会出错,引入过多的数据噪声,导致训练完成的神经网络模型容易过拟合,识别效果差。
技术实现要素:
鉴于以上内容,有必要提出一种对话内容类别识别方法、装置、计算机设备及存储介质,识别效果较佳。
本发明的第一方面提供一种对话内容类别识别方法,所述方法包括:
提取对话文本集中每个对话文本的第一统计特征及第一文本特征;
对所述每个对话文本的第一统计特征进行等频分箱得到第一分箱特征,及对所述每个对话文本的第一文本特征进行二值化编码得到第一编码特征;
基于所述第一分箱特征及所述第一编码特征构建训练文本集,并基于所述训练文本集训练决策树模型;
通过调用感知机模型更新所述决策树模型得到目标决策树模型;
提取对话语音的特征数据,并输入所述特征数据至所述目标决策树模型中进行识别,获取所述目标决策树模型中每颗决策树的输出结果,根据所述输出结果确定目标对话内容类别。
在一个可选的实施方式中,所述通过调用感知机模型更新所述决策树模型得到目标决策树模型包括:
初始化感知机模型参数;
在每次迭代中存储每次分类中正样本被正确分类的第一比例及负样本被正确分类的第二比例;
获取分类错误的目标正样本及目标负样本,并根据所述目标正样本及所述目标负样本更新所述参数,并使用更新后的参数进行新一轮的迭代训练;
当迭代次数大于预设次数阈值时,结束迭代训练,并将迭代结束时所述第一比例为1,所述第二比例最高的参数作为目标参数,根据所述目标参数对应的决策树模型得到目标决策树模型。
在一个可选的实施方式中,所述提取对话文本集中每个对话文本的第一统计特征及第一文本特征包括:
确定每个对话文本的文本切分点,并根据所述文本切分点计算对应的对话文本的对话轮次;
所述根据所述文本切分点切分对应的对话文本得到多个第一对话子文本及多个第二对话子文本;
计算所述多个第一对话子文本的第一长度及计算所述多个第二对话子文本的第二长度;
根据每个对话文本的对话轮次及对应的第一长度和第二长度生成第一统计特征。
在一个可选的实施方式中,所述提取每个对话文本的第一文本特征包括:
对所述对话文本进行分词,得到多个分词;
计算每个分词的第一tf-idf值;
根据所述第一tf-idf值从所述多个分词中获取多个目标第一分词;
根据所述多个目标第一分词生成第一文本特征。
在一个可选的实施方式中,所述对所述每个对话文本的文本特征进行二值化编码得到第一编码特征包括:
基于所述对话文本集中的对话文本的多个分词,计算每个分词的第二tf-idf值;
根据所述第二tf-idf值生成分词字典;
将所述第一文本特征与所述分词字典进行匹配;
当所述第一文本特征中的目标第一分词与所述分词字典匹配成功时,将所述目标第一分词编码为第一值;
当所述第一文本特征中的目标第一分词与所述分词字典匹配失败时,将所述目标第一分词编码为第二值;
根据所述第一值及所述第二值生成第一编码特征。
在一个可选的实施方式中,所述提取对话语音的特征数据,并输入所述特征数据至所述目标决策树模型中进行识别,获取所述目标决策树模型中每颗决策树的输出结果,根据所述输出结果确定目标对话内容类别包括:
识别所述对话语音得到语音文本;
提取所述语音文本的第二统计特征及第二文本特征;
对所述第二统计特征进行等频分箱得到第二分箱特征,及对所述第二文本特征进行二值化编码得到第二编码特征;
根据所述第二分箱特征及所述第二编码特征生成特征数据;
输入所述特征数据至所述目标决策树模型中并获取所述目标决策树模型中每颗决策树的输出结果;
根据所述每颗决策树的输出结果及对应的目标权重进行加和计算得到和值;
通过所述感知机模型基于所述和值计算阶跃值;
将所述阶跃值对应的类别确定为所述目标对话内容类别。
在一个可选的实施方式中,所述方法还包括:
获取目标对象的多个目标对话语音;
使用所述目标决策树模型识别每个所述目标对话语音的对话内容类别;
获取多个所述对话内容类别中目标对话内容类别的第一数量;
计算所述第一数量与所述多个目标对话语音的第二数量的比值;
根据所述比值确定所述目标对象的级别。
本发明的第二方面提供一种对话内容类别识别装置,所述装置包括:
提取模块,用于提取对话文本集中每个对话文本的第一统计特征及第一文本特征;
编码模块,用于对所述每个对话文本的第一统计特征进行等频分箱得到第一分箱特征,及对所述每个对话文本的第一文本特征进行二值化编码得到第一编码特征;
训练模块,用于基于所述第一分箱特征及所述第一编码特征构建训练文本集,并基于所述训练文本集训练决策树模型;
更新模块,用于通过调用感知机模型更新所述决策树模型得到目标决策树模型;
识别模块,用于提取对话语音的特征数据,并输入所述特征数据至所述目标决策树模型中进行识别,获取所述目标决策树模型中每颗决策树的输出结果,根据所述输出结果确定目标对话内容类别。
本发明的第三方面提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述对话内容类别识别方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述对话内容类别识别方法。
综上所述,本发明所述的对话内容类别识别方法、装置、计算机设备及存储介质,通过提取对话文本集中每个对话文本的第一统计特征及第一文本特征,并对第一统计特征进行等频分箱得到第一分箱特征,及对第一文本特征进行二值化编码得到第一编码特征,实现了将文本型的特征编码为数值型的特征,有效的减少了数据的复杂度,降低了计算的复杂度,从而有利于基于第一分箱特征及第一编码特征构建的训练文本集训练决策树模型时,提高模型的训练效率,接着通过感知机模型更新决策树模型得到目标决策树模型,能够最大限度地解决正负样本之间数量的不平衡现象,最后使用目标决策树模型能够准确的识别对话语音的目标对话内容类别。
附图说明
图1是本发明实施例一提供的对话内容类别识别方法的流程图。
图2是本发明实施例二提供的对话内容类别识别装置的结构图。
图3是本发明实施例三提供的计算机设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本发明实施例提供的对话内容类别识别方法由计算机设备执行,相应地,对话内容类别识别装置运行于计算机设备中。
图1是本发明实施例一提供的对话内容类别识别方法的流程图。所述对话内容类别识别方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
s11,提取对话文本集中每个对话文本的第一统计特征及第一文本特征。
计算机设备中存储有多个对话文本,所述对话文本可以是根据保险代理人与客户之间的对话语音识别得到的,例如,通过语音识别技术将所述对话语音识别为对话本文。
多个对话文本构成对话文本集,计算机设备提取所述对话文本集中每个对话文本的一个或者多个第一统计特征,并提取每个对话文本的一个或者多个第一文本特征。
在一个可选的实施例中,所述提取对话文本集中每个对话文本的第一统计特征及第一文本特征包括:
确定每个对话文本的文本切分点,并根据所述文本切分点计算对应的对话文本的对话轮次;
所述根据所述文本切分点切分对应的对话文本得到多个第一对话子文本及多个第二对话子文本;
计算所述多个第一对话子文本的第一长度及计算所述多个第二对话子文本的第二长度;
根据每个对话文本的对话轮次及对应的第一长度和第二长度生成第一统计特征。
由于每个对话文本对应一个对话语音,计算机设备采用语音分离技术对所述对话语音进行语音分离,得到多个语音片段,从而根据多个语音片段确定文本切分点。还可以由人工确定多个语音片段中属于保险代理人的语音片段及属于客户的语音片段。
由于每个对话文本对应一个对话语音,计算机设备采用语音分离技术对所述对话语音进行语音分离,得到多个语音片段,从而根据多个语音片段确定文本切分点。计算机设备还可以识别多个语音片段中属于保险代理人的语音片段及属于客户的语音片段,从而根据保险代理人的语音片段进行语音识别得到第一对话子文本,根据客户的语音片段进行语音识别得到第二对话子文本。保险代理人的第一个语音片段与客户的第一个语音片段称之为第一个对话轮次,保险代理人的第二个语音片段与客户的第二个语音片段称之为第二个对话轮次,以此类推,确定对话文本的对话轮次。所述第一统计特征可以包括,但不限于:对话文本的总长度,代理人的对话文本的长度,客户的对话文本的长度,对话轮数。
在一个可选的实施例中,所述提取每个对话文本的第一文本特征包括:
对所述对话文本进行分词,得到多个分词;
计算每个分词的第一tf-idf值;
根据所述第一tf-idf值从所述多个分词中获取多个目标第一分词;
根据所述多个目标第一分词生成第一文本特征。
计算机设备可以采用结巴分词工具对所述对话文本进行分词。在计算每个分词的第一tf-idf值后,将多个所述第一tf-idf值进行倒序排序,获取排序在前预设数量(例如,前100个)的第一tf-idf值作为目标第一tf-idf值,将所述目标第一tf-idf值对应的分词确定为目标第一分词,拼接所述目标第一分词得到第一文本特征。所述第一文本特征可以为对话文本的多个分词。
s12,对所述每个对话文本的第一统计特征进行等频分箱得到第一分箱特征,及对所述每个对话文本的第一文本特征进行二值化编码得到第一编码特征。
计算机设备可以将多个对话文本中相同属性的第一统计特征进行等频分箱得到第一分箱特征。示例性的,第一个对话文本包括第一统计特征a11,a12,a13,第二个对话文本包括第一统计特征a21,a22,a23,…,第n个对话文本包括第一统计特征an1,an2,an3,则将n个对话文本的相同属性的第一统计特征a11,a21,…,an1进行顺序排序或者倒序排序,并按照预设第一分箱数进行等频分箱;将n个对话文本的相同属性的第一统计特征a12,a22,…,an2进行顺序排序或者倒序排序,并按照预设第二分箱数进行等频分箱;将n个对话文本的相同属性的第一统计特征a13,a23,…,an3进行顺序排序或者倒序排序,并按照预设第三分箱数进行等频分箱。所述预设第一分箱数、所述预设第二分箱数及所述预设第三分箱数可以相同,也可以不同。
在一个可选的实施例中,所述对所述每个对话文本的文本特征进行二值化编码得到第一编码特征包括:
基于所述对话文本集中的对话文本的多个分词,计算每个分词的第二tf-idf值;
根据所述第二tf-idf值生成分词字典;
将所述第一文本特征与所述分词字典进行匹配;
当所述第一文本特征中的目标第一分词与所述分词字典匹配成功时,将所述目标第一分词编码为第一值;
当所述第一文本特征中的目标第一分词与所述分词字典匹配失败时,将所述目标第一分词编码为第二值;
根据所述第一值及所述第二值生成第一编码特征。
在提取每个对话文本的第一文本特征时,是基于每个对话文本自身对应的多个分词计算第一tf-idf值,即第一tf-idf值是相对于单个对话文本得到的。在生成分词字典时,则是基于对话文本集中所有对话文本对应的多个分词计算第二tf-idf值,即第二tf-idf值是相对于整个对话文本集得到的。
在计算每个分词的第二tf-idf值后,将多个所述第二tf-idf值进行倒序排序,获取排序在前预设数量(例如,前100个)的第二tf-idf值作为目标第二tf-idf值,将所述目标第二tf-idf值对应的分词确定为目标第二分词,根据多个所述目标第二分词构建分词字典。
示例性的,假设某个对话文本的第一文本特征为(t1,t2,t3,t4),目标第一分词t1与所述分词字典中的某个目标第二分词相同,则表明目标第一分词t1与所述分词字典匹配成功,将所述目标第一分词t1编码为第一值,例如1;目标第一分词t2与所述分词字典中的任意一个目标第二分词均不相同,则表明目标第一分词t2与所述分词字典匹配失败,将所述目标第一分词t2编码为第二值,例如0。对对话文本的第一文本特征中的每一个目标第一分词与分词字典中的每一个目标第二分词进行匹配,并根据匹配结果将每一个目标第一分词编码为第一值或者第二值,从而根据第一值及第二值生成第一编码特征,例如,(1,0,0,1)。
该可选的实施例中,通过对所述每个对话文本的文本特征进行二值化编码得到第一编码特征,能够将文本型的特征编码为数值型的特征,更有利于训练决策树模型。相较于现有技术中,提取文本的文本特征之后,直接使用文本特征训练模型,本发明通过对文本特征进行二值化,有效的减少了数据的复杂度,降低了计算的复杂度,提高了模型的训练效率。
s13,基于所述第一分箱特征及所述第一编码特征构建训练文本集,并基于所述训练文本集训练决策树模型。
基于每一个对话文本对应的第一分箱特征及第一编码特征构建一个训练文本,多个训练文本构建为训练文本集。
可以从训练文本集中随机选取多个训练文本,训练决策树模型。随机选取的方式训练决策树模型,能够防止决策树模型过拟合。
s14,通过调用感知机模型更新所述决策树模型得到目标决策树模型。
感知机模型是二分类的线性模型,其输入是实例的特征向量,输出的是实例的类别。感知机模型学习的目标是求得一个能够将训练数据集正实例点和负实例点完全正确分开的分离超平面。
基于训练文本集训练完成决策树模型后,通过感知机模型对决策树模型中每颗决策树的参数进行投票,实现对参数的自适应更新,从而实现对决策树模型的更新。
在一个可选的实施例中,所述通过调用感知机模型更新所述决策树模型得到目标决策树模型包括:
初始化感知机模型参数;
在每次迭代中存储每次分类中正样本被正确分类的第一比例及负样本被正确分类的第二比例;
获取分类错误的目标正样本及目标负样本,并根据所述目标正样本及所述目标负样本更新所述参数,并使用更新后的参数进行新一轮的迭代训练;
当迭代次数大于预设次数阈值时,结束迭代训练,并将迭代结束时所述第一比例为1,所述第二比例最高的参数作为目标参数,根据所述目标参数对应的决策树模型得到目标决策树模型。
可以将感知机模型的参数全部初始化为0。
使用分类判别函数y=wx+b预测所有样本的类别,计算正样本被正确分类的正确率cpt,和负样本被正确分类的正确率cnt,找到所有分类错误的正样本,所有分类错误的负样本,取出第一个分类错误的正样本和第一个分类错误的父样本更新参数。
可以通过判断正样本被正确分类的比例是否等于预设第一值来判断正样本是否完全正确,预设第一值可以为1。当所述正样本被正确分类的比例等于所述预设第一值,则确定正样本完全被正确分类。当所述正样本被正确分类的比例小于所述预设第一值,则确定正样本没有完全被正确分类。
可以通过判断某一次迭代时的负样本被正确分类的比例是否大其余迭代时负样本被正确分类的比例来判断负样本被正确分类的正确率是否最高。当某一次迭代时的负样本被正确分类的比例大于其余任意一次迭代时负样本被正确分类的比例,则确定某一次迭代时的负样本被正确分类的比例最高。
如果迭代次数大于次数阈值(例如,100),则在保证正样本正确判别的基础上尽量排除负样本,用错误样本更新感知机模型的参数w和b时,优先使用错误正样本修正感知机模型的参数w和b,当没有错误正样本时,选择负样本修正感知机模型的参数w和b,并选择正样本正确率cpt=1且负样本正确率cnt最大的{wpt,bpt}作为感知机模型参数输出。
现有技术中的感知机模型,仅仅通过梯度下降算法,使分类判别函数y=wx+b最小化,w和b为分类超平面参数。但是,现有技术中的感知机模型并没有考虑正负样本之间数量的不平衡问题,导致训练出的感知机模型,容易过拟合。本实施例,通过优先正样本和排除反样本相结合的方式来训练感知机模型,能够最大限度地解决正负样本之间数量的不平衡现象,使得训练得到的目标决策树能够准确的进行分类。
s15,提取对话语音的特征数据,并输入所述特征数据至所述目标决策树模型中进行识别,获取所述目标决策树模型中每颗决策树的输出结果,根据所述输出结果确定目标对话内容类别。
计算机设备响应于对话语音的对话内容类别识别指令时,使用训练完成的目标决策树模型对所述对话语音进行识别,得到对话内容类别。根据识别得到的对话内容类别判断所述对话语音中的保险代理人的对话内容是否专业。
当根据识别得到的对话内容类别确定所述对话语音中的代理人的对话内容时,则可以确定所述对话语音为优质的对话语音,从而将优质的对话语音作为对话话术的挖掘来源,挖掘出优质的对话话术,用以辅助其他保险代理人进行保险销售。
在一个可选的实施例中,所述提取对话语音的特征数据,并输入所述特征数据至所述目标决策树模型中进行识别,获取所述目标决策树模型中每颗决策树的输出结果,根据所述输出结果确定目标对话内容类别包括:
识别所述对话语音得到语音文本;
提取所述语音文本的第二统计特征及第二文本特征;
对所述第二统计特征进行等频分箱得到第二分箱特征,及对所述第二文本特征进行二值化编码得到第二编码特征;
根据所述第二分箱特征及所述第二编码特征生成特征数据;
输入所述特征数据至所述目标决策树模型中并获取所述目标决策树模型中每颗决策树的输出结果;
根据所述每颗决策树的输出结果及对应的目标权重进行加和计算得到和值;
通过所述感知机模型基于所述和值计算阶跃值;
将所述阶跃值对应的类别确定为所述目标对话内容类别。
计算机设备可以使用语音识别技术识别所述对话语音为语音文本,从所述语音文本中提取出第三对话子文本的第三长度及第四对话子文本的第四长度,根据对话语音的对话轮次及第三长度和第四长度生成第二统计特征,并对第二统计特征进行等频分箱得到第二分箱特征。
计算机设备对所述语音文本进行分词,得到多个分词,计算每个分词的第三tf-idf值,根据所述第三tf-idf值从所述多个分词中获取多个目标第三分词,根据所述多个目标第三分词生成第二文本特征。将所述第二文本特征与所述分词字典进行匹配,当所述第二文本特征中的目标第三分词与所述分词字典匹配成功时,将所述目标第二分词编码为第一值,当所述第二文本特征中的目标第三分词与所述分词字典匹配失败时,将所述目标第三分词编码为第二值,根据所述第一值及所述第二值生成第二编码特征。
每颗决策树的输出结果可以为1或者0,其中,输出结果为1时,表明决策树预测得到的是第一内容类别(例如,对话内容专业),输出结果为0时,表明决策树预测得到的第二内容类别(例如,对话内容不专业)。
计算机设备对每颗决策树的输出结果进行加权,将每棵决策树的输出结果x1,x2,……,xn接入感知机模型进行处理。其中,感知机模型的激活函数可以选择阶跃函数f,输出1表示正样本(第一内容类别,对话内容专业),-1表示负样本(第二内容类别,对话内容不专业)。
计算机设备根据所述第二分箱特征及所述第二编码特征生成特征数据,使用所述目标决策树模型中的每颗决策树识别所述特征数据的对话内容类别,再使用所述感知机模型中的阶跃函数基于所述和值计算得到阶跃值。当所述阶跃值为1时,则确定目标对话内容类别为第一内容类别,当所述阶跃值为-1时,则确定目标对话内容类别为第二内容类别。
在一个可选的实施例中,所述方法还包括:
获取目标对象的多个目标对话语音;
使用所述目标决策树模型识别每个所述目标对话语音的对话内容类别;
获取多个所述对话内容类别中目标对话内容类别的第一数量;
计算所述第一数量与所述多个目标对话语音的第二数量的比值;
根据所述比值确定所述目标对象的级别。
其中,所述目标对象为需要进行级别考核的保险代理人。
计算机设备使用训练完成的目标决策树模型和所述感知机模型对待进行级别考核的保险代理人的每一个目标对话语音进行对话内容类别的识别。
示例性的,假设待进行级别考核的保险代理人有100个目标对话语音,使用训练完成的目标决策树模型和所述感知机模型对这100个目标对话语音进行识别后,有80个目标对话语音的对话内容类别为第一内容类别,20个目标对话语音的对话内容类别为第二内容类别,则计算的比值为80%。
计算机设备与预先配置的多个比值范围进行比较,根据比较结果及预设比值范围级别映射关系确定待进行级别考核的保险代理人的级别。
该可选的实施例中,通过使用本发明所述的方法基于需要进行级别考核的保险代理人的对话语音,能够快速的确定需要进行级别考核的保险代理人的级别,级别的确定较为客观,准确度高,可信度高。
需要强调的是,为进一步保证上述目标决策树模型的私密性和安全性,上述目标决策树模型可存储于区块链的节点中。
图2是本发明实施例二提供的对话内容类别识别装置的结构图。
在一些实施例中,所述对话内容类别识别装置20可以包括多个由计算机程序段所组成的功能模块。所述对话内容类别识别装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)对话内容类别识别的功能。
本实施例中,所述对话内容类别识别装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:提取模块201、编码模块202、训练模块203、更新模块204、识别模块205及定级模块206。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述提取模块201,用于提取对话文本集中每个对话文本的第一统计特征及第一文本特征。
计算机设备中存储有多个对话文本,所述对话文本可以是根据保险代理人与客户之间的对话语音识别得到的,例如,通过语音识别技术将所述对话语音识别为对话本文。
多个对话文本构成对话文本集,计算机设备提取所述对话文本集中每个对话文本的一个或者多个第一统计特征,并提取每个对话文本的一个或者多个第一文本特征。
在一个可选的实施例中,所述提取模块201提取对话文本集中每个对话文本的第一统计特征及第一文本特征包括:
确定每个对话文本的文本切分点,并根据所述文本切分点计算对应的对话文本的对话轮次;
所述根据所述文本切分点切分对应的对话文本得到多个第一对话子文本及多个第二对话子文本;
计算所述多个第一对话子文本的第一长度及计算所述多个第二对话子文本的第二长度;
根据每个对话文本的对话轮次及对应的第一长度和第二长度生成第一统计特征。
由于每个对话文本对应一个对话语音,计算机设备采用语音分离技术对所述对话语音进行语音分离,得到多个语音片段,从而根据多个语音片段确定文本切分点。还可以由人工确定多个语音片段中属于保险代理人的语音片段及属于客户的语音片段。
由于每个对话文本对应一个对话语音,计算机设备采用语音分离技术对所述对话语音进行语音分离,得到多个语音片段,从而根据多个语音片段确定文本切分点。计算机设备还可以识别多个语音片段中属于保险代理人的语音片段及属于客户的语音片段,从而根据保险代理人的语音片段进行语音识别得到第一对话子文本,根据客户的语音片段进行语音识别得到第二对话子文本。保险代理人的第一个语音片段与客户的第一个语音片段称之为第一个对话轮次,保险代理人的第二个语音片段与客户的第二个语音片段称之为第二个对话轮次,以此类推,确定对话文本的对话轮次。所述第一统计特征可以包括,但不限于:对话文本的总长度,代理人的对话文本的长度,客户的对话文本的长度,对话轮数。
在一个可选的实施例中,所述提取每个对话文本的第一文本特征包括:
对所述对话文本进行分词,得到多个分词;
计算每个分词的第一tf-idf值;
根据所述第一tf-idf值从所述多个分词中获取多个目标第一分词;
根据所述多个目标第一分词生成第一文本特征。
计算机设备可以采用结巴分词工具对所述对话文本进行分词。在计算每个分词的第一tf-idf值后,将多个所述第一tf-idf值进行倒序排序,获取排序在前预设数量(例如,前100个)的第一tf-idf值作为目标第一tf-idf值,将所述目标第一tf-idf值对应的分词确定为目标第一分词,拼接所述目标第一分词得到第一文本特征。所述第一文本特征可以为对话文本的多个分词。
所述编码模块202,用于对所述每个对话文本的第一统计特征进行等频分箱得到第一分箱特征,及对所述每个对话文本的第一文本特征进行二值化编码得到第一编码特征。
计算机设备可以将多个对话文本中相同属性的第一统计特征进行等频分箱得到第一分箱特征。示例性的,第一个对话文本包括第一统计特征a11,a12,a13,第二个对话文本包括第一统计特征a21,a22,a23,…,第n个对话文本包括第一统计特征an1,an2,an3,则将n个对话文本的相同属性的第一统计特征a11,a21,…,an1进行顺序排序或者倒序排序,并按照预设第一分箱数进行等频分箱;将n个对话文本的相同属性的第一统计特征a12,a22,…,an2进行顺序排序或者倒序排序,并按照预设第二分箱数进行等频分箱;将n个对话文本的相同属性的第一统计特征a13,a23,…,an3进行顺序排序或者倒序排序,并按照预设第三分箱数进行等频分箱。所述预设第一分箱数、所述预设第二分箱数及所述预设第三分箱数可以相同,也可以不同。
在一个可选的实施例中,所述编码模块202对所述每个对话文本的文本特征进行二值化编码得到第一编码特征包括:
基于所述对话文本集中的对话文本的多个分词,计算每个分词的第二tf-idf值;
根据所述第二tf-idf值生成分词字典;
将所述第一文本特征与所述分词字典进行匹配;
当所述第一文本特征中的目标第一分词与所述分词字典匹配成功时,将所述目标第一分词编码为第一值;
当所述第一文本特征中的目标第一分词与所述分词字典匹配失败时,将所述目标第一分词编码为第二值;
根据所述第一值及所述第二值生成第一编码特征。
在提取每个对话文本的第一文本特征时,是基于每个对话文本自身对应的多个分词计算第一tf-idf值,即第一tf-idf值是相对于单个对话文本得到的。在生成分词字典时,则是基于对话文本集中所有对话文本对应的多个分词计算第二tf-idf值,即第二tf-idf值是相对于整个对话文本集得到的。
在计算每个分词的第二tf-idf值后,将多个所述第二tf-idf值进行倒序排序,获取排序在前预设数量(例如,前100个)的第二tf-idf值作为目标第二tf-idf值,将所述目标第二tf-idf值对应的分词确定为目标第二分词,根据多个所述目标第二分词构建分词字典。
示例性的,假设某个对话文本的第一文本特征为(t1,t2,t3,t4),目标第一分词t1与所述分词字典中的某个目标第二分词相同,则表明目标第一分词t1与所述分词字典匹配成功,将所述目标第一分词t1编码为第一值,例如1;目标第一分词t2与所述分词字典中的任意一个目标第二分词均不相同,则表明目标第一分词t2与所述分词字典匹配失败,将所述目标第一分词t2编码为第二值,例如0。对对话文本的第一文本特征中的每一个目标第一分词与分词字典中的每一个目标第二分词进行匹配,并根据匹配结果将每一个目标第一分词编码为第一值或者第二值,从而根据第一值及第二值生成第一编码特征,例如,(1,0,0,1)。
该可选的实施例中,通过对所述每个对话文本的文本特征进行二值化编码得到第一编码特征,能够将文本型的特征编码为数值型的特征,更有利于训练决策树模型。相较于现有技术中,提取文本的文本特征之后,直接使用文本特征训练模型,本发明通过对文本特征进行二值化,有效的减少了数据的复杂度,降低了计算的复杂度,提高了模型的训练效率。
所述训练模块203,用于基于所述第一分箱特征及所述第一编码特征构建训练文本集,并基于所述训练文本集训练决策树模型。
基于每一个对话文本对应的第一分箱特征及第一编码特征构建一个训练文本,多个训练文本构建为训练文本集。
可以从训练文本集中随机选取多个训练文本,训练决策树模型。随机选取的方式训练决策树模型,能够防止决策树模型过拟合。
所述更新模块204,用于通过调用感知机模型更新所述决策树模型得到目标决策树模型。
感知机模型是二分类的线性模型,其输入是实例的特征向量,输出的是实例的类别。感知机模型学习的目标是求得一个能够将训练数据集正实例点和负实例点完全正确分开的分离超平面。
基于训练文本集训练完成决策树模型后,通过感知机模型对决策树模型中每颗决策树的参数进行投票,实现对参数的自适应更新,从而实现对决策树模型的更新。
在一个可选的实施例中,所述更新模块204通过调用感知机模型更新所述决策树模型得到目标决策树模型包括:
初始化感知机模型参数;
在每次迭代中存储每次分类中正样本被正确分类的第一比例及负样本被正确分类的第二比例;
获取分类错误的目标正样本及目标负样本,并根据所述目标正样本及所述目标负样本更新所述参数,并使用更新后的参数进行新一轮的迭代训练;
当迭代次数大于预设次数阈值时,结束迭代训练,并将迭代结束时所述第一比例为1,所述第二比例最高的参数作为目标参数,根据所述目标参数对应的决策树模型得到目标决策树模型。
可以将感知机模型的参数全部初始化为0。
使用分类判别函数y=wx+b预测所有样本的类别,计算正样本被正确分类的正确率cpt,和负样本被正确分类的正确率cnt,找到所有分类错误的正样本,所有分类错误的负样本,取出第一个分类错误的正样本和第一个分类错误的父样本更新参数。
可以通过判断正样本被正确分类的比例是否等于预设第一值来判断正样本是否完全正确,预设第一值可以为1。当所述正样本被正确分类的比例等于所述预设第一值,则确定正样本完全被正确分类。当所述正样本被正确分类的比例小于所述预设第一值,则确定正样本没有完全被正确分类。
可以通过判断某一次迭代时的负样本被正确分类的比例是否大其余迭代时负样本被正确分类的比例来判断负样本被正确分类的正确率是否最高。当某一次迭代时的负样本被正确分类的比例大于其余任意一次迭代时负样本被正确分类的比例,则确定某一次迭代时的负样本被正确分类的比例最高。
如果迭代次数大于次数阈值(例如,100),则在保证正样本正确判别的基础上尽量排除负样本,用错误样本更新感知机模型的参数w和b时,优先使用错误正样本修正感知机模型的参数w和b,当没有错误正样本时,选择负样本修正感知机模型的参数w和b,并选择正样本正确率cpt=1且负样本正确率cnt最大的{wpt,bpt}作为感知机模型参数输出。
现有技术中的感知机模型,仅仅通过梯度下降算法,使分类判别函数y=wx+b最小化,w和b为分类超平面参数。但是,现有技术中的感知机模型并没有考虑正负样本之间数量的不平衡问题,导致训练出的感知机模型,容易过拟合。本实施例,通过优先正样本和排除反样本相结合的方式来训练感知机模型,能够最大限度地解决正负样本之间数量的不平衡现象,使得训练得到的目标决策树能够准确的进行分类。
所述识别模块205,用于提取对话语音的特征数据,并输入所述特征数据至所述目标决策树模型中进行识别,获取所述目标决策树模型中每颗决策树的输出结果,根据所述输出结果确定目标对话内容类别。
计算机设备响应于对话语音的对话内容类别识别指令时,使用训练完成的目标决策树模型对所述对话语音进行识别,得到对话内容类别。根据识别得到的对话内容类别判断所述对话语音中的保险代理人的对话内容是否专业。
当根据识别得到的对话内容类别确定所述对话语音中的代理人的对话内容时,则可以确定所述对话语音为优质的对话语音,从而将优质的对话语音作为对话话术的挖掘来源,挖掘出优质的对话话术,用以辅助其他保险代理人进行保险销售。
在一个可选的实施例中,所述识别模块205提取对话语音的特征数据,并输入所述特征数据至所述目标决策树模型中进行识别,获取所述目标决策树模型中每颗决策树的输出结果,根据所述输出结果确定目标对话内容类别包括:
识别所述对话语音得到语音文本;
提取所述语音文本的第二统计特征及第二文本特征;
对所述第二统计特征进行等频分箱得到第二分箱特征,及对所述第二文本特征进行二值化编码得到第二编码特征;
根据所述第二分箱特征及所述第二编码特征生成特征数据;
输入所述特征数据至所述目标决策树模型中并获取所述目标决策树模型中每颗决策树的输出结果;
根据所述每颗决策树的输出结果及对应的目标权重进行加和计算得到和值;
通过所述感知机模型基于所述和值计算阶跃值;
将所述阶跃值对应的类别确定为所述目标对话内容类别。
计算机设备可以使用语音识别技术识别所述对话语音为语音文本,从所述语音文本中提取出第三对话子文本的第三长度及第四对话子文本的第四长度,根据对话语音的对话轮次及第三长度和第四长度生成第二统计特征,并对第二统计特征进行等频分箱得到第二分箱特征。
计算机设备对所述语音文本进行分词,得到多个分词,计算每个分词的第三tf-idf值,根据所述第三tf-idf值从所述多个分词中获取多个目标第三分词,根据所述多个目标第三分词生成第二文本特征。将所述第二文本特征与所述分词字典进行匹配,当所述第二文本特征中的目标第三分词与所述分词字典匹配成功时,将所述目标第二分词编码为第一值,当所述第二文本特征中的目标第三分词与所述分词字典匹配失败时,将所述目标第三分词编码为第二值,根据所述第一值及所述第二值生成第二编码特征。
每颗决策树的输出结果可以为1或者0,其中,输出结果为1时,表明决策树预测得到的是第一内容类别(例如,对话内容专业),输出结果为0时,表明决策树预测得到的第二内容类别(例如,对话内容不专业)。
计算机设备对每颗决策树的输出结果进行加权,将每棵决策树的输出结果x1,x2,……,xn接入感知机模型进行处理。其中,感知机模型的激活函数可以选择阶跃函数f,输出1表示正样本(第一内容类别,对话内容专业),-1表示负样本(第二内容类别,对话内容不专业)。
计算机设备根据所述第二分箱特征及所述第二编码特征生成特征数据,使用所述目标决策树模型中的每颗决策树识别所述特征数据的对话内容类别,再使用所述感知机模型中的阶跃函数基于所述和值计算得到阶跃值。当所述阶跃值为1时,则确定目标对话内容类别为第一内容类别,当所述阶跃值为-1时,则确定目标对话内容类别为第二内容类别。
在一个可选的实施例中,所述定级模块206,用于获取目标对象的多个目标对话语音;使用所述目标决策树模型识别每个所述目标对话语音的对话内容类别;获取多个所述对话内容类别中目标对话内容类别的第一数量;计算所述第一数量与所述多个目标对话语音的第二数量的比值;根据所述比值确定所述目标对象的级别。
其中,所述目标对象为需要进行级别考核的保险代理人。
计算机设备使用训练完成的目标决策树模型和所述感知机模型对待进行级别考核的保险代理人的每一个目标对话语音进行对话内容类别的识别。
示例性的,假设待进行级别考核的保险代理人有100个目标对话语音,使用训练完成的目标决策树模型和所述感知机模型对这100个目标对话语音进行识别后,有80个目标对话语音的对话内容类别为第一内容类别,20个目标对话语音的对话内容类别为第二内容类别,则计算的比值为80%。
计算机设备与预先配置的多个比值范围进行比较,根据比较结果及预设比值范围级别映射关系确定待进行级别考核的保险代理人的级别。
该可选的实施例中,通过使用本发明所述的方法基于需要进行级别考核的保险代理人的对话语音,能够快速的确定需要进行级别考核的保险代理人的级别,级别的确定较为客观,准确度高,可信度高。
需要强调的是,为进一步保证上述目标决策树模型的私密性和安全性,上述目标决策树模型可存储于区块链的节点中。
参阅图3所示,为本发明实施例三提供的计算机设备的结构示意图。在本发明较佳实施例中,所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的计算机设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述计算机设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的对话内容类别识别方法中的全部或者部分步骤。所述存储器31包括只读存储器(read-onlymemory,rom)、可编程只读存储器(programmableread-onlymemory,prom)、可擦除可编程只读存储器(erasableprogrammableread-onlymemory,eprom)、一次可编程只读存储器(one-timeprogrammableread-onlymemory,otprom)、电子擦除式可复写只读存储器(electrically-erasableprogrammableread-onlymemory,eeprom)、只读光盘(compactdiscread-onlymemory,cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述计算机设备3的控制核心(controlunit),利用各种接口和线路连接整个计算机设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的对话内容类别识别方法的全部或者部分步骤;或者实现对话内容类别识别装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(centralprocessingunit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述计算机设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本发明陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。