一种基于客服沟通数据的情绪识别方法、装置及电子设备与流程

文档序号:24429845发布日期:2021-03-27 00:07阅读:69来源:国知局
一种基于客服沟通数据的情绪识别方法、装置及电子设备与流程

1.本发明属于数据信息处理技术领域,特别适用于在线服务中的数据信息处理,更具体的是涉及一种基于客服沟通数据的情绪识别方法、装置及电子设备。


背景技术:

2.客户服务中心是企业与用户沟通的主要桥梁,提升用户满意度的主要渠道。以前客户服务中心主要以人工客服为主,由专业的客服人员为用户进行服务。
3.随着计算机信息处理技术的发展,越来越多的客户服务中心开始采用语音机器人来为用户进行服务,缓解人工客服等待时间过长的问题。在与用户进行沟通过程中,为了让用户体验更好需要对用户的情绪进行识别。
4.但目前使用的语音机器人仅仅能够识别出用户大概的情绪,比如感谢包括客气性的感谢、一般感谢、真心实意的感谢等几种情况,语音机器人可以识别出用户在表达感谢,但不能确定用户是客气还是真心实意感谢,无法根据情况调整策略,使得用户体验很不好。
5.而且极端情绪在沟通数据中心数据量非常小导致样例少,不太好训练语音机器人。使得语音机器人识别极端情绪更加困难。


技术实现要素:

6.(一)要解决的技术问题
7.本发明旨在解决现有客户服务中心使用的语音机器人无法对极端情绪进行识别的问题。
8.(二)技术方案
9.为解决上述技术问题,本发明的一方面提出一种基于客服沟通数据的情绪识别方法,包括:
10.s1、收集客服与用户进行沟通的沟通数据,对所述沟通数据进行初步情绪识别;
11.s2、使用情绪识别模型基于所述初步情绪识别结果对所述沟通数据进行第一情绪识别,判断第一情绪识别结果是否达标,如果达标则对所述情绪识别模型进行保存并上线;
12.s3、所述情绪识别模型上线后通过自学习进行迭代,使用所述迭代后的情绪识别模型进行第二情绪识别。
13.根据本发明的优选实施方式,对所述沟通数据进行初步情绪识别进一步包括:
14.s101、利用无样本学习对所述沟通数据进行提纯;
15.s102、由人工对提纯后的沟通数据进行初筛。
16.根据本发明的优选实施方式,使用情绪识别模型基于所述初步情绪识别结果对所述沟通数据进行第一情绪识别进一步包括:
17.s201、由人工对初步情绪识别结果进行标注;
18.s202、使用标注后的初步情绪识别结果创建训练数据;
19.s203、使用所述训练数据对所述情绪识别模型进行训练;
20.s204、使用训练后的情绪识别模型对所述沟通数据进行第一情绪识别。
21.根据本发明的优选实施方式,判断第一情绪识别结果是否达标进一步包括:
22.预先设置第一召回率阈值和第一准确率阈值,判断第一情绪识别结果是否同时满足第一召回率阈值和第一准确率阈值,是则第一情绪识别结果达标。
23.根据本发明的优选实施方式,如果第一情绪识别结果仍然不满足第一召回率阈值和第一准确率阈值,则调整标注标准重新执行s201至s204。
24.根据本发明的优选实施方式,所述情绪识别模型上线后通过自学习进行迭代进一步包括:
25.s301、收集所述情绪识别模型上线后客服与用户进行沟通的线上沟通数据;
26.s302、使用所述情绪识别模型对所述线上沟通数据进行初步情绪识别;
27.s303、基于所述初步情绪识别结果训练所述情绪识别模型。
28.根据本发明的优选实施方式,基于所述初步情绪识别结果训练所述情绪识别模型进一步包括:
29.设置正例阈值以及硬负例阈值;
30.所述初步情绪识别结果中置信数据满足正例阈值的作为训练正例补充到训练数据中;
31.所述初步情绪识别结果中置信数据满足硬负例阈值的作为硬负例补充到训练数据中心;
32.使用补充训练正例和硬负例的训练数据对情绪识别模型进行训练。
33.根据本发明的优选实施方式,预设第二准确率阈值和第二召回率阈值,判断情绪识别结果是否同时满足第二准确率阈值和第二召回率阈值,是则保留当前情绪识别模型,否则重新执行s301至s303。
34.根据本发明的优选实施方式,预设迭代次数阈值,如果达到迭代次数阈值后如果初步情绪识别结果仍然不满足第二准确率阈值或不满足第二召回率阈值,则调整标注标准重新执行s2至s3。
35.本发明第二方面提出一种基于客服沟通数据的情绪识别装置,包括:
36.初步情绪识别模块,用于收集客服与用户进行沟通的沟通数据,对所述沟通数据进行初步情绪识别;
37.模型构建模块,用于使用情绪识别模型基于所述初步情绪识别结果对所述沟通数据进行第一情绪识别,判断第一情绪识别结果是否达标,如果达标则对所述情绪识别模型进行保存并上线;
38.模型迭代模块,所述情绪识别模型上线后通过自学习进行迭代,使用所述迭代后的情绪识别模型进行第二情绪识别。
39.根据本发明的优选实施方式,对所述沟通数据进行初步情绪识别进一步包括:
40.利用无样本学习对所述沟通数据进行提纯;
41.由人工对提纯后的沟通数据进行初筛。
42.根据本发明的优选实施方式,使用情绪识别模型基于所述初步情绪识别结果对所述沟通数据进行第一情绪识别进一步包括:
43.由人工对初步情绪识别结果进行标注;
44.使用标注后的初步情绪识别结果创建训练数据;
45.使用所述训练数据对所述情绪识别模型进行训练;
46.使用训练后的情绪识别模型对所述沟通数据进行第一情绪识别。
47.根据本发明的优选实施方式,判断第一情绪识别结果是否达标进一步包括:
48.预先设置第一召回率阈值和第一准确率阈值,判断第一情绪识别结果是否同时满足第一召回率阈值和第一准确率阈值,是则第一情绪识别结果达标。
49.根据本发明的优选实施方式,如果第一情绪识别结果仍然不满足第一召回率阈值和第一准确率阈值,则调整标注标准重新执行使用情绪识别模型基于所述初步情绪识别结果对所述沟通数据进行第一情绪识别。
50.根据本发明的优选实施方式,所述情绪识别模型上线后通过自学习进行迭代进一步包括:
51.收集所述情绪识别模型上线后客服与用户进行沟通的线上沟通数据;
52.使用所述情绪识别模型对所述线上沟通数据进行初步情绪识别;
53.基于所述初步情绪识别结果训练所述情绪识别模型。
54.根据本发明的优选实施方式,基于所述初步情绪识别结果训练所述情绪识别模型进一步包括:
55.设置正例阈值以及硬负例阈值;
56.所述初步情绪识别结果中置信数据满足正例阈值的作为训练正例补充到训练数据中;
57.所述初步情绪识别结果中置信数据满足硬负例阈值的作为硬负例补充到训练数据中心;
58.使用补充训练正例和硬负例的训练数据对情绪识别模型进行训练。
59.根据本发明的优选实施方式,预设第二准确率阈值和第二召回率阈值,判断情绪识别结果是否同时满足第二准确率阈值和第二召回率阈值,是则保留当前情绪识别模型,否则重新执行基于所述初步情绪识别结果训练所述情绪识别模型。
60.根据本发明的优选实施方式,预设迭代次数阈值,如果达到迭代次数阈值后如果初步情绪识别结果仍然不满足第二准确率阈值或不满足第二召回率阈值,则调整标注标准重新执行使用情绪识别模型基于所述初步情绪识别结果对所述沟通数据进行第一情绪识别。
61.本发明第三方面提出一种电子设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行所述的方法。
62.本发明第四方面还提出一种计算机可读介质,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现所述的方法。
63.(三)有益效果
64.本发明通过初步情绪识别和第一情绪识别完成情绪识别模型的构建,上线后使用大量的线上沟通数据使情绪识别模型通过自学习进行迭代升级,能够更准确的对极端情绪进行识别。
附图说明
65.图1是本发明的一个实施例的一种基于客服沟通数据的情绪识别方法流程示意图;
66.图2是本发明的一个实施例的一种基于客服沟通数据的情绪识别装置结构示意图;
67.图3是本发明的一个实施例的电子设备的结构示意图;
68.图4是本发明的一个实施例的计算机可读记录介质的示意图。
具体实施方式
69.在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
70.附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
71.附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实体。
72.各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
73.为解决上述技术问题,本发明提出一种基于客服沟通数据的情绪识别方法,方法流程图如图1所示,包括:
74.s1、收集客服与用户进行沟通的沟通数据,对所述沟通数据进行初步情绪识别。
75.在本实施方式中,所需要的识别的内容是极端情绪。通常在对话中用户的情绪发展是有个过程,以发怒为例,通常是从不满逐渐过渡到生气,最后发展为愤怒。在语音机器人客服中通常会对用户的情绪进行识别,当识别用户情绪为发怒后会根据预设的对话策略进行安抚,调节用户情绪。但也有极个别情况是用户直接进入愤怒状态,此时如果仍使用针对发怒的通用对话策略进行安抚,很可能无法安抚用户情绪。
76.由于极端情绪在客服与用户的对话数据中出现的数量非常少,所以很难抓取出来作为训练数据对模型进行训练。
77.因此在本实施方式中先对客服与用户进行沟通的沟通数据进行收集汇总,在对客服与用户进行沟通的沟通数据进行初筛,即初步情绪识别。
78.在上述技术方案的基础上进一步地,对所述沟通数据进行初步情绪识别进一步包
括:
79.s101、利用无样本学习对所述沟通数据进行提纯;
80.s102、由人工对提纯后的沟通数据进行初筛。
81.无样本学习是利用了在自然语言推断任务上进行了训练的模型以及已知标签来对未标注数据进行推断的一种算法。在本实施方式中使用训练好的模型,设置好标签内容,构造一个有空白的语句,将分别将标签内容填入构造语句的空白处,判断填入标签的语句与未标注数据的置信度来进行推测。
82.下面通过例子对无样本学习进行说明,无样本学习模型已经完成与训练。
83.未标注数据:从中我作为家长也学到不少东西,感谢您。
84.标签:a用户不满;b用户满意。
85.构造句子:这句话是[__]。
[0086]
分别将标签a和b填入构造句子中,判断未标注数据与两句话的相识度,无样本学习模型输出结果是:a用户不满6.2%置信度;b用户满意93.8%置信度。
[0087]
因此,经过无样本学习模型的判断该句话标注b标签。通过无样本学习可以筛选掉很多无用的数据,大大提高沟通数据中表达极端情绪信息的数据浓度。
[0088]
然后使用人工筛选的方式对已经提纯的沟通数据进行初筛,选出表达极端情绪的语句或信息。
[0089]
人工标引虽然准确,但人工标引相对效率较低,无法采用人工标引的方式对所有的沟通数据进行标引。通常情况下1万条沟通数据中表达极端情绪信息的分布密度已经非常接近沟通数据中表达极端情绪系的真实浓度。因此,在本实施方式中采用人工标引的方式标引1万条沟通数据。
[0090]
s2、使用情绪识别模型基于所述初步情绪识别结果对所述沟通数据进行第一情绪识别,判断第一情绪识别结果是否达标,如果达标则对所述情绪识别模型进行保存并上线。
[0091]
在本实施方式中使用初步情绪识别的结果做为训练数据,使用训练数据对情绪识别模型进行初步的训练,判断情绪识别结果是否达标,如果达标说明情绪识别模型符合基本要求,可以上线应用,添加到现有语音机器人中。
[0092]
在上述技术方案的基础上进一步地,使用情绪识别模型基于所述初步情绪识别结果对所述沟通数据进行第一情绪识别进一步包括:
[0093]
s201、由人工对初步情绪识别结果进行标注。
[0094]
在本实施方式中,通过无样本学习对沟通数据进行数据提纯,通过人工标引的方式初筛出比较准确的表达极端情绪的信息,再通过人工标注的方式对这些信息进行具体的标注,给出准确的标签。
[0095]
s202、使用标注后的初步情绪识别结果创建训练数据。
[0096]
在本实施方式中,情绪识别模型为双向长短时期记忆网络模型。双向长短时期记忆网络模型是循环神经网络的一种,能够更好的对语句的前后词进行考虑,比如“我不觉得今天天气好”,其中“不”是对后面的“天气好”进行限定,表示对天气好的否定,采用双向长短时期记忆网络模型可以更好的捕捉到较长距离的依赖关系,而且双向长短时期记忆网络模型还可以顾及到后面的词对前面的词的限定,比如“今天的天气冷的不行”,其中“不行”是“冷”的修饰和限定。
[0097]
然后将s201中人工标注的数据分为两部分,其中一部分作为训练集,另一部分作为校验集。
[0098]
s203、使用所述训练数据对所述情绪识别模型进行训练。
[0099]
在本实施方式中,先使用训练集对双向长短时期记忆网络模型进行训练,直至双向长短时期记忆网络模型收敛或者已经达到预期的效果时结束训练。然后使用校验集对双向长短时期记忆网络模型进行校验,如果通过验证则双向长短时期记忆网络模型构训练完成。
[0100]
s204、使用训练后的情绪识别模型对所述沟通数据进行第一情绪识别。
[0101]
在本实施方式中,当情绪识别模型训练完成后,对未标引的沟通数据进行第一情绪识别,给出关于标签的置信度。比如“现在有些忙,时间不合适,请记录一下”,经过情绪识别模型计算,标签a用户不满的置信度为53.32%,标签b用户满意的置信度为46.68%;而“这个课程的价格确实很优惠我报名参加吧”经过情绪识别模型计算,标签a用户不满的置信度为11.04%,标签b用户满意的置信度为88.96%。
[0102]
在上述技术方案的基础上进一步地,判断第一情绪识别结果是否达标进一步包括:
[0103]
预先设置第一召回率阈值和第一准确率阈值,判断第一情绪识别结果是否同时满足第一召回率阈值和第一准确率阈值,是则第一情绪识别结果达标。
[0104]
在本实施方式中,评价第一情绪识别结果是否达标的标准就是召回率和准确率。
[0105]
tp(ture positive)把正的判断为正的数目,判断正确,且判为了正,即正的预测为正的;
[0106]
fn(false negative)把正的错判为负的数目,判断错误,且判为了负,即把正的判为了负的;
[0107]
fp(false positive)把负的错判为正的数目,判断错误,且判为了正,即把负的判为了正的;
[0108]
tn(true negative)把负的判为负的数目,判断正确,且判为了负,即把负的判为了负的。
[0109]
召回率是相对于样本而言的,即样本中有多少正样本被预测正确了,这样的有tp个,所有的正样本有两个去向,一个是被判为正的,另一个是错判为负的,因此总共有tp+fn个,所以,召回率
[0110]
准确率是相对于预测结果而言的,它表示的是预测为正的样本中有多少是对的;那么预测为正的样本就有两种可能来源,一种是把正的预测为正的,这类有tp个,另外一种是把负的错判为正的,这类有fp个,因此,准确率
[0111]
召回率和准确率是衡量情绪识别模型性能最基本的指标。由于两个指标不可能同时都达到100%,因此在会根据任务不同调整两个指标的具体数值。
[0112]
在上述技术方案的基础上进一步地,如果第一情绪识别结果仍然不满足第一召回率阈值和第一准确率阈值,则调整标注标准重新执行s201至s204。
[0113]
在本实施方式中,如果第一情绪识别的结果不达标,则可能标注标准有些问题需
要进行调整,调整后重新执行使用情绪识别模型基于所述初步情绪识别结果对所述沟通数据进行第一情绪识别,如果达标则可以保存当前情绪识别模型的参数,上线应用,否则的继续调整标注标准,重复步骤s201

s204,直至符合第一召回率阈值和第一准确率阈值。
[0114]
s3、所述情绪识别模型上线后通过自学习进行迭代,使用所述迭代后的情绪识别模型进行第二情绪识别。
[0115]
在本实施方式中,由于线上沟通的方便和便捷性,用户随时随地可以与客户服务中心的客服人员进行沟通,线上沟通数据的数据量远远大于以前积累的沟通数据,遇到的情景也会多种多样,模型可能无法满足线上的沟通数据,因此在情绪识别模型上线后,通过自学的方式进行迭代升级。
[0116]
在上述技术方案的基础上进一步地,所述情绪识别模型上线后通过自学习进行迭代进一步包括:
[0117]
s301、收集所述情绪识别模型上线后客服与用户进行沟通的线上沟通数据。
[0118]
s302、使用所述情绪识别模型对所述线上沟通数据进行初步情绪识别;
[0119]
s303、基于所述初步情绪识别结果训练所述情绪识别模型。
[0120]
在上述技术方案的基础上进一步地,基于所述初步情绪识别结果训练所述情绪识别模型进一步包括:
[0121]
设置正例阈值以及硬负例阈值;
[0122]
所述初步情绪识别结果中置信数据满足正例阈值的作为训练正例补充到训练数据中;
[0123]
所述初步情绪识别结果中置信数据满足硬负例阈值的作为硬负例补充到训练数据中心;
[0124]
使用补充训练正例和硬负例的训练数据对情绪识别模型进行训练。
[0125]
在本实施方式中,通常正例阈值设置的范围为80%

95%,表示能够准确识别出表达极端情绪的语句或信息。
[0126]
硬负例指的是情绪识别模型相对难以分辨的数据。比如在表达感谢的句子中,有些句子表达客气性的感谢,有些句子表达一般感谢,而有些句子表达的是真心实意的感谢。其中表达真心实意感谢的句子是极端情绪识别的目标,即属于正例,而表达客气性的感谢和表达一般感谢的句子虽然也是属于感谢,但并未到极端情绪的程度,这种模型相对来说难以分辨,因此属于硬负例。硬负例阈值通常是置信度的区间值,上限通常设置在40%

70%,下限设置在20%

40%。不同的任务设置不同的硬负例区间。
[0127]
下面通过例子来说明正例和硬负例。
[0128]
标签包括a用户不满,b用户满意。
[0129]
设置正例阈值为b标签的置信度大于90%,硬负例阈值为b标签置信度在30%~55%。
[0130]“从中我作为家长也学到不少东西,感谢您”,经过情绪识别模型计算,b标签置信度为93.8%,满足正例阈值,属于正例,该句话表达极端情绪,补充到训练数据中。
[0131]“今天就这样吧,谢谢”,经过情绪识别模型计算,b标签置信度为53.32%,满足硬负例阈值,属于硬负例,虽然该句话表达感谢,但属于客气性的感谢,达不到极端情绪的程度,属于训练数据的负例。
[0132]
使用当前的情绪识别模型作为父模型,经过对线上沟通数据的第二情绪识别获得第二情绪识别结果,从中选取正例和硬负例作为训练模型对父模型进行训练,调整模型参数获得子模型。然后再用获得的子模型作为第二父模型对线上沟通数据进行第二情绪识别,重复上述步骤使得情绪识别模型获得迭代升级。其中线上沟通数据是在不断积累的,后一次的线上沟通数据包含前一次线上沟通数据以及新收集的沟通数据。
[0133]
在上述技术方案的基础上进一步地,预设第二准确率阈值和第二召回率阈值,判断情绪识别结果是否同时满足第二准确率阈值和第二召回率阈值,是则保留当前情绪识别模型,否则重新执行s301至s303。
[0134]
在本实施方式中,同样的评述第二情绪识别结果的指标依然是召回率和准确率。
[0135]
在上述技术方案的基础上进一步地,预设迭代次数阈值,如果达到迭代次数阈值后如果初步情绪识别结果仍然不满足第二准确率阈值或不满足第二召回率阈值,则调整标注标准重新执行s201。
[0136]
在本实施方式中,如果经过多次迭代,达到预设迭代次数后第二情绪识别结果的指标仍不符合设置的第二准确率阈值和第二召回率阈值。则很可能第一次标注的1万条沟通数据中极端情绪的分布与实际沟通数据中极端情绪的分布偏差较大,所以重新执行s2至s3,重新标注1万条沟通数据,使极端情绪的分布趋近真实情况。
[0137]
图2是本发明实施例中一种挖掘用户需求的数据处理装置200,包括:
[0138]
初步情绪识别模块201,用于收集客服与用户进行沟通的沟通数据,对所述沟通数据进行初步情绪识别。
[0139]
在本实施方式中,所需要的识别的内容是极端情绪。通常在对话中用户的情绪发展是有个过程,以发怒为例,通常是从不满逐渐过渡到生气,最后发展为愤怒。在语音机器人客服中通常会对用户的情绪进行识别,当识别用户情绪为发怒后会根据预设的对话策略进行安抚,调节用户情绪。但也有极个别情况是用户直接进入愤怒状态,此时如果仍使用针对发怒的通用对话策略进行安抚,很可能无法安抚用户情绪。
[0140]
由于极端情绪在客服与用户的对话数据中出现的数量非常少,所以很难抓取出来作为训练数据对模型进行训练。
[0141]
因此在本实施方式中先对客服与用户进行沟通的沟通数据进行收集汇总,在对客服与用户进行沟通的沟通数据进行初筛,即初步情绪识别。
[0142]
在上述技术方案的基础上进一步地,对所述沟通数据进行初步情绪识别进一步包括:
[0143]
s101、利用无样本学习对所述沟通数据进行提纯;
[0144]
s102、由人工对提纯后的沟通数据进行初筛。
[0145]
无样本学习是利用了在自然语言推断任务上进行了训练的模型以及已知标签来对未标注数据进行推断的一种算法。在本实施方式中使用训练好的模型,设置好标签内容,构造一个有空白的语句,将分别将标签内容填入构造语句的空白处,判断填入标签的语句与未标注数据的置信度来进行推测。
[0146]
下面通过例子对无样本学习进行说明,无样本学习模型已经完成与训练。
[0147]
未标注数据:从中我作为家长也学到不少东西,感谢您。
[0148]
标签:a用户不满;b用户满意。
[0149]
构造句子:这句话是[__]。
[0150]
分别将标签a和b填入构造句子中,判断未标注数据与两句话的相识度,无样本学习模型输出结果是:a用户不满6.2%置信度;b用户满意93.8%置信度。
[0151]
因此,经过无样本学习模型的判断该句话标注b标签。通过无样本学习可以筛选掉很多无用的数据,大大提高沟通数据中表达极端情绪信息的数据浓度。
[0152]
然后使用人工筛选的方式对已经提纯的沟通数据进行初筛,选出表达极端情绪的语句或信息。
[0153]
人工标引虽然准确,但人工标引相对效率较低,无法采用人工标引的方式对所有的沟通数据进行标引。通常情况下1万条沟通数据中表达极端情绪信息的分布密度已经非常接近沟通数据中表达极端情绪系的真实浓度。因此,在本实施方式中采用人工标引的方式标引1万条沟通数据。
[0154]
模型构建模块202,用于使用情绪识别模型基于所述初步情绪识别结果对所述沟通数据进行第一情绪识别,判断第一情绪识别结果是否达标,如果达标则对所述情绪识别模型进行保存并上线。
[0155]
在本实施方式中使用初步情绪识别的结果做为训练数据,使用训练数据对情绪识别模型进行初步的训练,判断情绪识别结果是否达标,如果达标说明情绪识别模型符合基本要求,可以上线应用,添加到现有语音机器人中。
[0156]
在上述技术方案的基础上进一步地,使用情绪识别模型基于所述初步情绪识别结果对所述沟通数据进行第一情绪识别进一步包括:
[0157]
s201、由人工对初步情绪识别结果进行标注。
[0158]
在本实施方式中,通过无样本学习对沟通数据进行数据提纯,通过人工标引的方式初筛出比较准确的表达极端情绪的信息,再通过人工标注的方式对这些信息进行具体的标注,给出准确的标签。
[0159]
s202、使用标注后的初步情绪识别结果创建训练数据。
[0160]
在本实施方式中,情绪识别模型为双向长短时期记忆网络模型。双向长短时期记忆网络模型是循环神经网络的一种,能够更好的对语句的前后词进行考虑,比如“我不觉得今天天气好”,其中“不”是对后面的“天气好”进行限定,表示对天气好的否定,采用双向长短时期记忆网络模型可以更好的捕捉到较长距离的依赖关系,而且双向长短时期记忆网络模型还可以顾及到后面的词对前面的词的限定,比如“今天的天气冷的不行”,其中“不行”是“冷”的修饰和限定。
[0161]
然后将s201中人工标注的数据分为两部分,其中一部分作为训练集,另一部分作为校验集。
[0162]
s203、使用所述训练数据对所述情绪识别模型进行训练。
[0163]
在本实施方式中,先使用训练集对双向长短时期记忆网络模型进行训练,直至双向长短时期记忆网络模型收敛或者已经达到预期的效果时结束训练。然后使用校验集对双向长短时期记忆网络模型进行校验,如果通过验证则双向长短时期记忆网络模型构训练完成。
[0164]
s204、使用训练后的情绪识别模型对所述沟通数据进行第一情绪识别。
[0165]
在本实施方式中,当情绪识别模型训练完成后,对未标引的沟通数据进行第一情
绪识别,给出关于标签的置信度。比如“现在有些忙,时间不合适,请记录一下”,经过情绪识别模型计算,标签a用户不满的置信度为53.32%,标签b用户满意的置信度为46.68%;而“这个课程的价格确实很优惠我报名参加吧”经过情绪识别模型计算,标签a用户不满的置信度为11.04%,标签b用户满意的置信度为88.96%。
[0166]
在上述技术方案的基础上进一步地,判断第一情绪识别结果是否达标进一步包括:
[0167]
预先设置第一召回率阈值和第一准确率阈值,判断第一情绪识别结果是否同时满足第一召回率阈值和第一准确率阈值,是则第一情绪识别结果达标。
[0168]
在本实施方式中,评价第一情绪识别结果是否达标的标准就是召回率和准确率。
[0169]
tp(ture positive)把正的判断为正的数目,判断正确,且判为了正,即正的预测为正的;
[0170]
fn(false negative)把正的错判为负的数目,判断错误,且判为了负,即把正的判为了负的;
[0171]
fp(false positive)把负的错判为正的数目,判断错误,且判为了正,即把负的判为了正的;
[0172]
tn(true negative)把负的判为负的数目,判断正确,且判为了负,即把负的判为了负的。
[0173]
召回率是相对于样本而言的,即样本中有多少正样本被预测正确了,这样的有tp个,所有的正样本有两个去向,一个是被判为正的,另一个是错判为负的,因此总共有tp+fn个,所以,召回率
[0174]
准确率是相对于预测结果而言的,它表示的是预测为正的样本中有多少是对的;那么预测为正的样本就有两种可能来源,一种是把正的预测为正的,这类有tp个,另外一种是把负的错判为正的,这类有fp个,因此,准确率
[0175]
召回率和准确率是衡量情绪识别模型性能最基本的指标。由于两个指标不可能同时都达到100%,因此在会根据任务不同调整两个指标的具体数值。
[0176]
在上述技术方案的基础上进一步地,如果第一情绪识别结果仍然不满足第一召回率阈值和第一准确率阈值,则调整标注标准重新执行s201至s204。
[0177]
在本实施方式中,如果第一情绪识别的结果不达标,则可能标注标准有些问题需要进行调整,调整后重新执行使用情绪识别模型基于所述初步情绪识别结果对所述沟通数据进行第一情绪识别,如果达标则可以保存当前情绪识别模型的参数,上线应用,否则的继续调整标注标准,重复步骤s201

s204,直至符合第一召回率阈值和第一准确率阈值。
[0178]
模型迭代模块203,所述情绪识别模型上线后通过自学习进行迭代,使用所述迭代后的情绪识别模型进行第二情绪识别。
[0179]
在本实施方式中,由于线上沟通的方便和便捷性,用户随时随地可以与客户服务中心的客服人员进行沟通,线上沟通数据的数据量远远大于以前积累的沟通数据,遇到的情景也会多种多样,模型可能无法满足线上的沟通数据,因此在情绪识别模型上线后,通过自学的方式进行迭代升级。
[0180]
在上述技术方案的基础上进一步地,所述情绪识别模型上线后通过自学习进行迭代进一步包括:
[0181]
s301、收集所述情绪识别模型上线后客服与用户进行沟通的线上沟通数据。
[0182]
s302、使用所述情绪识别模型对所述线上沟通数据进行初步情绪识别;
[0183]
s303、基于所述初步情绪识别结果训练所述情绪识别模型。
[0184]
在上述技术方案的基础上进一步地,基于所述初步情绪识别结果训练所述情绪识别模型进一步包括:
[0185]
设置正例阈值以及硬负例阈值;
[0186]
所述初步情绪识别结果中置信数据满足正例阈值的作为训练正例补充到训练数据中;
[0187]
所述初步情绪识别结果中置信数据满足硬负例阈值的作为硬负例补充到训练数据中心;
[0188]
使用补充训练正例和硬负例的训练数据对情绪识别模型进行训练。
[0189]
在本实施方式中,通常正例阈值设置的范围为80%

95%,表示能够准确识别出表达极端情绪的语句或信息。
[0190]
硬负例指的是情绪识别模型相对难以分辨的数据。比如在表达感谢的句子中,有些句子表达客气性的感谢,有些句子表达一般感谢,而有些句子表达的是真心实意的感谢。其中表达真心实意感谢的句子是极端情绪识别的目标,即属于正例,而表达客气性的感谢和表达一般感谢的句子虽然也是属于感谢,但并未到极端情绪的程度,这种模型相对来说难以分辨,因此属于硬负例。硬负例阈值通常是置信度的区间值,上限通常设置在40%

70%,下限设置在20%

40%。不同的任务设置不同的硬负例区间。
[0191]
下面通过例子来说明正例和硬负例。
[0192]
标签包括a用户不满,b用户满意。
[0193]
设置正例阈值为a标签的置信度大于90%,硬负例阈值为a标签置信度在30%~55%。
[0194]“从中我作为家长也学到不少东西,感谢您”,经过情绪识别模型计算,b标签置信度为93.8%,满足正例阈值,属于正例,该句话表达极端情绪,补充到训练数据中。
[0195]“今天就这样吧,谢谢”,经过情绪识别模型计算,b标签置信度为53.32%,满足硬负例阈值,属于硬负例,虽然该句话表达感谢,但属于客气性的感谢,达不到极端情绪的程度,属于训练数据的负例。
[0196]
使用当前的情绪识别模型作为父模型,经过对线上沟通数据的第二情绪识别获得第二情绪识别结果,从中选取正例和硬负例作为训练模型对父模型进行训练,调整模型参数获得子模型。然后再用获得的子模型作为第二父模型对线上沟通数据进行第二情绪识别,重复上述步骤使得情绪识别模型获得迭代升级。其中线上沟通数据是在不断积累的,后一次的线上沟通数据包含前一次线上沟通数据以及新收集的沟通数据。
[0197]
在上述技术方案的基础上进一步地,预设第二准确率阈值和第二召回率阈值,判断情绪识别结果是否同时满足第二准确率阈值和第二召回率阈值,是则保留当前情绪识别模型,否则重新执行s301至s303。
[0198]
在本实施方式中,同样的评述第二情绪识别结果的指标依然是召回率和准确率。
[0199]
在上述技术方案的基础上进一步地,预设迭代次数阈值,如果达到迭代次数阈值后如果初步情绪识别结果仍然不满足第二准确率阈值或不满足第二召回率阈值,则调整标注标准重新执行s201。
[0200]
在本实施方式中,如果经过多次迭代,达到预设迭代次数后第二情绪识别结果的指标仍不符合设置的第二准确率阈值和第二召回率阈值。则很可能第一次标注的1万条沟通数据中极端情绪的分布与实际沟通数据中极端情绪的分布偏差较大,所以重新执行s2至s3,重新标注1万条沟通数据,使极端情绪的分布趋近真实情况。
[0201]
图3是本发明的一个实施例的电子设备的结构示意图,该电子设备包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行基于旋转角监测的车辆智能助力推行方法。
[0202]
如图3所示,电子设备以通用计算设备的形式表现。其中处理器可以是一个,也可以是多个并且协同工作。本发明也不排除进行分布式处理,即处理器可以分散在不同的实体设备中。本发明的电子设备并不限于单一实体,也可以是多个实体设备的总和。
[0203]
所述存储器存储有计算机可执行程序,通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行,以使得电子设备能够执行本发明的方法,或者方法中的至少部分步骤。
[0204]
所述存储器包括易失性存储器,例如随机存取存储单元(ram)和/或高速缓存存储单元,还可以是非易失性存储器,如只读存储单元(rom)。
[0205]
可选的,该实施例中,电子设备还包括有i/o接口,其用于电子设备与外部的设备进行数据交换。i/o接口可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
[0206]
应当理解,图3显示的电子设备仅仅是本发明的一个示例,本发明的电子设备中还可以包括上述示例中未示出的元件或组件。例如,有些电子设备中还包括有显示屏等显示单元,有些电子设备还包括人机交互元件,例如按扭、键盘等。只要该电子设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤,均可认为是本发明所涵盖的电子设备。
[0207]
图4是本发明的一个实施例的计算机可读记录介质的示意图。如图4所示,计算机可读记录介质中存储有计算机可执行程序,所述计算机可执行程序被执行时,实现本发明上述的基于旋转角监测的车辆智能助力推行方法。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
[0208]
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户
计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0209]
通过以上对实施方式的描述,本领域的技术人员易于理解,本发明可以由能够执行特定计算机程序的硬件来实现,例如本发明的系统,以及系统中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等,本发明也可以由包含上述系统或部件的至少一部分的车辆来实现。本发明也可以由执行本发明的方法的计算机软件来实现,例如由机车端的微处理器、电子控制单元,客户端、服务器端等执行的控制软件来实现。但需要说明的是,执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行,其也可以是由不特定具体硬件的以分布式的方式来实现,例如计算机程序执行的某些方法步骤可以在机车端执行,另一部分可以在移动终端或智能头盔等中执行。对于计算机软件,软件产品可以存储在一个计算机可读的存储介质(可以是cd

rom,u盘,移动硬盘等)中,也可以分布式存储于网络上,只要其能使得电子设备执行根据本发明的方法。
[0210]
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1