本技术涉及人工智能,具体涉及一种基于双注意力神经网络的内容识别方法及装置。
背景技术:
1、在运营商客服作业流程中,产生了大量的客户反馈意见,每天需要花费大量的人力物力进行反馈意见的评定审查,对客户的投诉和要求进行传统的人工分类,并根据分类结果进行派单,这些工作占据了大量的人力和时间,并且人工的分类会出现分类效率低、准确率不高等问题。传统的文本分类方法基于人工提取有效特征,这些特征可用于有监督的学习方法或半监督的方法,如基于图的半监督算法。
2、但是,这些方法依赖于人工提取有效特征,在面对复杂的业务场景及不断增加的工单类型时,将会耗费大量的时间与精力,已经无法满足工单智能分类的需求。因此,需要使用深度学习对工单分类进行优化处理。一方面,通过获取历史工单处理情况训练神经网络模型,对实时工单做分类处理并预测对应接单班组,有助于提升工单流转效率,降低工单处理时长。另一方面,深度学习模型能够通过学习新的信息不断提升预测准确率,有助于降低运营成本、改善用户体验、提升企业竞争力。
3、基于深度学习的方法主要采用词嵌入表示技术表示文本词语,利用深层神经网络从低层的文本表示中学习抽象文本语义特征,如将卷积神经网络(convolutional neuralnetwork,cnn)和循环神经网络(recurrent neural network,rnn)应用于学习文档表示。相比传统方法,基于深度学习的方法不需要人工提取特征即可取得显著的分类效果。
4、但上述的基于深度学习的方法没有考虑到类别标签对文本的影响,所以又有人提出了如exam、lsan等考虑类别标签与文本词汇关系的分类方法,上述两种方法都依赖于数据集带有类别标签文本信息描述类别标签,然而,在一些应用场景中,无法获得相应的类别标签表述信息,只含有简单的类别标签,类别标签本身不具有情感语义信息,而且数据集没有关于类别标签的描述信息,从而无法应用相关方法。
5、也即,现有技术中内容识别方法准确度比较低。
技术实现思路
1、本技术旨在提供一种基于双注意力神经网络的内容识别方法及装置,旨在解决现有技术中内容识别方法准确度比较低的问题。
2、一方面,本技术提供一种基于双注意力神经网络的内容识别方法,所述基于双注意力神经网络的内容识别方法包括:
3、获取通信运营商语料库,利用自动类别标签描述生成方式为每个类别标签生成对应的类别标签描述,计算通信运营商语料库中文本单词与类别标签之间的对应关系,得到标签表示矩阵;
4、使用文本编码器对通信运营商的工单信息进行预处理,得到预处理文本表示;
5、将预处理文本表示输入到自注意力机制网络,得到自注意力文本表示;
6、将预处理文本表示输入到标签注意力神经网络,得到标签注意力文本表示;
7、使用自适应门控制机制对自注意力文本表示和标签注意力文本表示处理,构建标签指导文本表示;
8、将标签指导文本表示输入分类器,得到分类结果。
9、可选地,所述工单信息包括产品类型、服务类型以及服务内容,所述使用文本编码器对通信运营商的工单信息进行预处理,得到预处理文本表示,包括:
10、使用下划线符号替换产品类型和服务类型中的正斜杠符号,使用连字符拼接产品类型和服务类型,生成工单类型;
11、对服务内容进行文本预处理,过滤服务内容文本长度大于16或大于800的数据样本,将所有的字母转换为小写,将并使用stanford corenlp对文本进行分词,得到文本单词;
12、使用bigru作为文本编码器,将服务内容序列输入到文本编码器中,使用词向量矩阵把每个文本单词嵌入为词向量;将每个词向量输入到第1个bigru,其中,bigru由一个正向gru和一个反向gru组成;将正向gru和后向gru的隐藏状态拼接起来,得到整个服务内容文本的浅层隐藏状态;再将浅层隐藏状态输入到第2个bigru中,得到服务内容之间的交互作用信息,使用残差连接融合浅层隐藏状态和服务内容之间的交互作用信息,得到文本编码器输出的预处理文本表示。
13、可选地,所述获取通信运营商语料库,利用自动类别标签描述生成方式为每个类别标签生成对应的类别标签描述,计算通信运营商语料库中文本单词与类别标签之间的对应关系,得到标签表示矩阵,包括:
14、计算文本单词在服务内容文本中的tf-idf值;
15、根据tf-idf值计算文本单词与类别标签的相关性得分;
16、计算文本单词出现在相应服务内容文本中的不同类别标签的数量,根据文本单词与类别标签的相关性得分和文本单词出现在相应服务内容文本中的不同类别标签的数量确定文本单词相对于类别标签的基于逆类别标签频次的相关性分数;
17、对每个类别标签选出相关性分数最高的多个文本单词作为类别标签的描述;
18、使用词向量矩阵把每个描述类别标签的文本单词嵌入为词向量,通过词向量得到标签表示矩阵。
19、可选地,所述将预处理文本表示输入到自注意力机制网络,得到自注意力文本表示,包括:
20、采用自注意力机制计算预处理文本表示的label-word注意力分数;
21、利用label-word注意力分数得到由自注意力机制网络计算的自注意力文本表示;
22、所述将预处理文本表示输入到标签注意力神经网络,得到标签注意力文本表示,包括:
23、将标签表示矩阵映射到与预处理文本表示相同的向量空间;
24、利用点积计算文本单词和标签表示矩阵之间的文本单词标签语义关系;
25、根据文本单词标签语义关系和文本单词确定类别标签指导的特定于类别标签的标签注意力文本表示。
26、可选地,所述使用自适应门控制机制对自注意力文本表示和标签注意力文本表示处理,构建标签指导文本表示,包括:
27、利用2个权重向量对自注意力文本表示和标签注意力文本表示加权,得出标签指导文本表示。
28、可选地,分类结果为服务内容文本的预测类别标签,所述将标签指导文本表示输入分类器,得到分类结果,包括:
29、将标签指导文本表示输入softmax函数生成各个类别标签上的概率分布;
30、将概率最高的类别标签作为服务内容文本的预测类别标签。
31、可选地,所述将标签指导文本表示输入softmax函数生成各个类别标签上的概率分布,包括:
32、对标签指导文本表示进行均值池化,得到均值池化文本表示;
33、将均值池化文本表示输入softmax函数生成类别标签上的概率分布。
34、一方面,本技术提供一种基于双注意力神经网络的内容识别装置,所述基于双注意力神经网络的内容识别装置包括:
35、标签表示单元,用于获取通信运营商语料库,利用自动类别标签描述生成方式为每个类别标签生成对应的类别标签描述,计算通信运营商语料库中文本单词与类别标签之间的对应关系,得到标签表示矩阵;
36、预处理单元,用于使用文本编码器对通信运营商的工单信息进行预处理,得到预处理文本表示;
37、自注意机制单元,用于将预处理文本表示输入到自注意力机制网络,得到自注意力文本表示;
38、标签注意力机制单元,用于将预处理文本表示输入到标签注意力神经网络,得到标签注意力文本表示;
39、自适应门控制机制单元,用于使用自适应门控制机制对自注意力文本表示和标签注意力文本表示处理,构建标签指导文本表示;
40、分类单元,用于将标签指导文本表示输入分类器,得到分类结果。
41、一方面,本技术还提供一种电子设备,所述电子设备包括:
42、一个或多个处理器;
43、存储器;以及
44、一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现第一方面中任一项所述的基于双注意力神经网络的内容识别方法。
45、一方面,本技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行第一方面任一项的基于双注意力神经网络的内容识别方法中的步骤。
46、本技术提供一种基于双注意力神经网络的内容识别方法,该基于双注意力神经网络的内容识别方法包括:获取通信运营商语料库,利用自动类别标签描述生成方式为每个类别标签生成对应的类别标签描述,计算通信运营商语料库中文本单词与类别标签之间的对应关系,得到标签表示矩阵;使用文本编码器对通信运营商的工单信息进行预处理,得到预处理文本表示;将预处理文本表示输入到自注意力机制网络,得到自注意力文本表示;将预处理文本表示输入到标签注意力神经网络,得到标签注意力文本表示;使用自适应门控制机制对自注意力文本表示和标签注意力文本表示处理,构建标签指导文本表示;将标签指导文本表示输入分类器,得到分类结果。本技术可以在分类时不仅考虑文本单词对分类的影响,也考虑到类别标签和文本单词结合后对分类的综合影响,能够更好地识别工单内容中的重要信息,正确地预测相应的分类结果,缩短工单处理时长,提升工单处理效率,提高派单准确度,最终提升服务质量与用户满意度。