1.本发明属于自然语言处理方法,尤其涉及一种数据分析、结构和非结构化语义信息表示学习、文本分类方法。
背景技术:2.面向将混合数据类型(包括结构化数据和非结构化数据等)构成的业务记录按照公司业务体系进行自动层次化打标签的应用场景,属于自然语言处理(nlp)领域中的文本分类问题。文本分类又称文本归档,其目的是将预定义标签分配给文本单元,如句子、查询、段落和文档。在很多nlp应用,例如情感分析、主题识别、问答和对话行为分类中,文本分类是一项必需且重要的任务。在当今信息爆炸的时代,人工处理和分类文本数据既费时又有挑战性。另外,人工文本分类的准确性容易受到人为因素,例如身心疲劳和专业知识的影响。因此,人们期望使用机器学习方法使文本分类过程自动化以产生更可靠且减少主观性的结果。此外,这还可以通过定位所需信息来帮助提高信息检索效率并减轻信息过载问题。在上述的应用场景中,客户投诉分类的自动化就有利于在实现降低人工成本的同时,提高投诉业务处理质量和用户体验和满意度的总体目标。
3.从1960年代到2010年代,基于浅层学习的文本分类模型一直占据主导地位。浅层学习是指基于统计的模型,例如朴素贝叶斯(nb),k最近邻(knn)和支持向量机(svm)。与早期的基于规则的方法相比,浅层学习方法在准确性和稳定性方面具有明显的优势。但是,这些方法仍然需要进行耗时且昂贵的功能设计,而且它们通常不考虑文本数据中的自然序列结构或上下文信息,这使得学习单词的语义信息具有挑战性。
4.自2010年代以来,文本分类的主流方法已经逐渐从浅层学习模型转变为深度学习模型。与基于浅层学习方法相比,深度学习方法避免了人工设计规则和功能,并自动为文本挖掘提供语义上有意义的表示形式。因此,大多数文本分类的研究工作都基于数据驱动的深层神经网络(dnn)。dnn由人工神经网络组成,该人工神经网络模拟人脑以自动从数据中学习高级功能,在语音识别、图像处理和文本理解方面比浅层学习模型获取更好的效果。前馈神经网络(ffnn)和递归神经网络是用于文本分类任务的前两种深度学习方法,然后是cnn,rnn和注意力机制用于文本分类。研究者通过改进cnn
1.、rnn
2.和注意力机制
3.,或模型融合和多任务方法来提高针对不同任务的文本分类性能。可生成上下文化的词向量的transformers
4.的双向编码器(bert)的出现是文本分类和其他nlp技术发展的重要转折点。许多研究人员已经研究了基于bert的文本分类模型,该模型在包括文本分类在内的多个nlp任务中比之前的模型具有更好的性能。
5.在上述的目标应用场景中,来自客户投诉的业务记录中包含多种混合数据类型,需要根据业务体系为其分配层次化的投诉原因标签。标签体现实际业务中可能出现的原因或现象,这些多级标签如树状结构一样,由多个大类型标签随层次逐渐细化分裂为小类型标签,最多有6层。层次文本分类
5.是文本分类的一项子任务,目的即是在一组以结构化类型层次组织的标签中对文本进行分类。与扁平的文本分类相比,htc被认为是更具挑战性的
问题,因为需要在对不同层次的类型分配时考虑组织内节点与其上层节点(父亲节点)的关系
6.。htc的解决方法可分为局部或全局策略。前者在逐层分类的每一层中利用局部信息,而后者则利用针对所有类别和层次的单个模型来解决任务。基于神经网络的模型在两种方法中都展示了出色的性能。
6.[参考文献]
[0007]
[1]y.kim.2014.convolutional neural networks for sentence classification.in proc.emnlp,2014,pp.1746
–
1751.
[0008]
[2]x.zhu,p.sobhani,and h.guo.2015.long short-term memory over recursive structures.in proc.icml,2015,pp.1604
–
1612.
[0009]
[3]z.yang,d.yang,c.dyer,x.he,a.j.smola,and e.h.hovy.2016.hierarchical attention networks for document classification.in proc.naacl,2016,pp.1480
–
1489.
[0010]
[4]a.vaswani,n.shazeer,n.parmar,j.uszkoreit,l.jones,a.n.gomez,l.kaiser,and i.polosukhin.2017.attention is all you need.in proc.neurips,2017,pp.5998
–
6008.
[0011]
[5]carlos n.silla and alex a.freitas.2011.a survey of hierarchical classification across different application domains.data mining and knowledge discovery,22(1-2):31
–
72.
[0012]
[6]liqun liu,funan mu,pengyu li,xin mu,jing tang,xingsheng ai,ran fu,lifeng wang,and xing zhou.2019.neuralclassifier:an open-source neural hierarchical multi-label text classification toolkit.in proc.acl 2019,pages 87
–
92,florence,italy.
技术实现要素:[0013]
针对上述现有技术,本发明基于层次文本分类已有技术,针对实际应用场景中数据和效率需求,融合多种深度学习方法进行层次化文本分类任务,本发明提供了一种用于分级体系和混合数据类型的业务记录分类方法。与相关任务相比,本发明在设计中需要面对的挑战主要有:
[0014]
(1)在客户投诉的业务记录中,非结构化形式的文本字段占据数据的绝大部分,而其他结构化形式的标签也可作为分类的重要判断依据而不可忽视。将所有字段全都视作文本类型处理可能会丢失重要信息或引入干扰信息。如果想要充分利用输入数据中的混合类型字段,需要针对不同字段的特征设计不同编码模式,并考虑如何在后期融合这些编码表示。
[0015]
(2)因实际业务中对于投诉内容和其反馈的记录字段来自于不同业务人员,其文字风格和语言素养不同,数据条目间文本质量差异较大,这给数据的清洗与预处理带来了挑战。并且因文本字段大多较长,使用bert等基于自注意力的transformers模型或截断过长文本造成部分信息丢失,或训练中产生巨大计算消耗,提高研发成本。
[0016]
(3)业务体系层级结构繁多且标签数量大,从一级标签到最深层标签组成的不完全相同的路径多达3000多条,且基于标签路径的样本分布极不平衡。
[0017]
为了解决上述技术问题,本发明提出的一种用于分级体系和混合数据类型的业务记录分类方法,面向的是将由混合类型构成的业务记录数据按照公司的分级业务体系进行自动层次化打标签的应用场景;数据是来自电信公司真实业务活动的由人工填写和标注的对客户投诉事件的业务记录,对于每一条数据样本,输入数据为中描述该次客户投诉事件的混合数据类型的各个字段,输入数据字段包括非结构化数据类型字段和结构化数据类型字段,输出数据为该次客户投诉事件对应于公司分级业务体系中的多层级投诉原因类别标签表现为多级逐级细分的结构;使用包括编码器模块和解码器模块的端到端框架进行训练和预测,所述编码器模块使用嵌入层将输入数据中的原始字段转化成向量表示后,使用卷积神经网络和循环神经网络分别对不同数据类型字段的向量表示进行特征抽取并使用前馈神经网络进行特征融合,所述解码器模块是由多个多层感知机分类器组成的多级分类器链结构,接收编码器模块的融合结果并预测输出数据中的各层级类别标签。
[0018]
本发明所述的业务记录分类方法,包括以下三个步骤:
[0019]
步骤一、对上述数据进行清洗和预处理后,随机选择80%和10%的数据分别作为训练神经网络模型的训练集和验证集,选择剩余10%的数据作为用于评估模型性能的测试集;
[0020]
步骤二:利用编码器模块对数据进行特征抽取,以获取多个向量形式的嵌入表示;
[0021]
1)对非结构化数据类型字段即文本字段使用分词工具分词后,经过词嵌入层获取词语的嵌入表示,使用卷积神经网络捕捉长段文本中的局部特征,获取文本字段的编码表示;
[0022]
2)将结构化数据类型字段视作离散的标签并转换成数字编码,并使用类似词嵌入层的数字编码嵌入层,将数字编码映射为连续向量的嵌入表示;使用循环神经网络捕捉结构化数据类型字段的特征,获取包含所有结构化数据类型字段信息的编码表示;
[0023]
3)对步骤1)中由卷积神经网络和步骤2)中由循环神经网络分别获取的不同输入字段的编码表示使用向量串联的方式连接后输入到前馈神经网络中进行特征信息融合,得到编码器模块的输出结果;
[0024]
步骤三:将步骤二中编码器模块的输出结果放入解码器模块中逐级生成多级投诉原因类别标签;将所有层级的类别标签连接即得到解码器模块对投诉类别标签的预测结果。
[0025]
进一步讲,上述的业务记录分类方法中,其中:
[0026]
步骤一中,首先使用统计分析方法对原始数据形态进行评估,包括各结构化数据字段的标签类别样本分布特点,并基于统计分析结果对数据进行样本重采样、数据清洗、数据增强的预处理过程。
[0027]
步骤二中,所述步骤1)的过程是:
[0028]
文本字段的分词和词向量化:使用结巴(jieba)分词工具对文本字段进行分词,将分词后的词映射为低维空间中稠密连续向量的嵌入表示,所获取到的词向量通过相似度计算表征两词之间的语义相关性,选取网络上开源的词向量资源初始化嵌入层参数,其中,选取腾讯人工智能实验室发布的中文词向量,对于文本型输入序列中的词i,经过嵌入层可以得到其k维的低维词嵌入k=200;将文本形式的输入数据字段看作由单词构成的序列,则一个包含n个单词的序列表示为:
[0029][0030]
式(1)中,xi表示序列中的第i个单词对应的词向量,表示向量串联操作;
[0031]
文本字段的特征抽取:所述的卷积神经网络为文本卷积神经网络textcnn,输入数据字段包括投诉描述和投诉处理意见;分别使用两个独立的文本卷积神经网络textcnn对投诉描述和投诉处理意见这两个文本形式的输入数据字段的嵌入表示进行特征抽取,得到这两个输入数据字段的特征编码表示;在文本卷积神经网络textcnn中,使用窗口尺寸为h的卷积核对输入序列进行滑动窗口卷积操作获取窗口内的局部特征,其中第i维特征表示为ci:
[0032]ci
=f(w
·
x
i:i+h-1
+b)
ꢀꢀꢀ
(2)
[0033]
式(2)中,f为非线性激活函数,b为偏移参数;进而整个输入序列卷积操作完成后得到特征图c:
[0034]
c=[c1,c2,...,c
n-h+1
]
ꢀꢀꢀ
(3)
[0035]
将c进行池化计算后送入全连接层就可以得到cnn输出的编码表示;使用多尺寸卷积核的cnn,同时使用窗口尺寸分别为3,4,5的三个卷积核进行上述卷积操作,并最终将结果串联得到c
cnn
;
[0036]
步骤二中,所述步骤2)的过程是:
[0037]
结构化数据字段的编码和向量化:结构化数据形式的输入数据字段包括投诉处理地、二级责任单位、客户群类型和五级投诉现象,共8个字段,将所述8个字段看作离散的类别标签;将每个标签映射为一个数字编码,并使用能够获取类似词向量的数字编码嵌入层,将编码映射为连续的嵌入表示;
[0038]
结构化数据字段的特征抽取:每个样本的8个标签经过上述嵌入表示后,送入所述的循环神经网络,所述的循环神经网络为双向rnn的变体结构双向长短期记忆网络(lstm),得到包含所有选取的结构化数据字段的标签信息的编码表示;在双向rnn的变体结构双向长短期记忆网络结构中,第t个时间步的隐藏状态组件的计算方式为:
[0039]ft
=σ(wf[h
t-1
,x
t
]+bf)
[0040]it
=σ(wi[h
t-1
,x
t
]+bi)
[0041]ot
=σ(wo[h
t-1
,x
t
]+bo)
ꢀꢀꢀ
(4)
[0042][0043][0044]ht
=o
t
*tanh(c
t
)
[0045]
式(4)中,wf,wi,wo,wc为可训练权重矩阵,bf,bi,bo,bc为对应的偏移参数,h
t
和x
t
分别表示第t个时间步时lstm的隐藏状态和输入向量,σ为sigmoid函数:
[0046][0047]
获取第t个时间步的前向隐藏状态和后向隐藏状态并将其连接后得到最终的隐层上下文状态
[0048]
步骤二中,所述步骤3)的过程是:将上述步骤1)中得到投诉描述和投诉处理意见这两个输入数据字段的特征编码表示和步骤2)得到的包含所有选取的结构化数据字段的
标签信息的编码表示串联为编码器最终的输出向量h:
[0049][0050]
式(6)中,ffn表示包含relu激活函数的前馈神经网络,和分别为步骤1)中的文本卷积神经网络textcnn对投诉描述和投诉处理意见字段的文本嵌入表示进行特征抽取的结果,h
bi-lstm
为步骤2)中所述的双向rnn的变体结构双向长短期记忆网络(lstm)对结构化数据字段的标签嵌入的编码结果。
[0051]
步骤三中,由解码器模块接收步骤二的输出结果,解码器模块中的每级分类器同时接收编码器的输出结果和上一级分类器的预测结果,输出当前层级的投诉原因类别标签的概率分布以预测当前级的结果;具体过程如下:
[0052]
将经过步骤二特征信息融合得到的输出向量h放入解码器模块中进行标签预测,所述的解码器模块中的每个分类器的神经网络结构中,通过softmax函数:得到一个与当前层类别标签数量等同的输出向量,其中ei表示向量中第i个维度的值;对于第一层分类器的预测结果y
(1)
是:
[0053]y(1)
=softmax(mlp(h))
ꢀꢀꢀ
(7)
[0054]
式(7)中,mlp为多层感知机结构;使用交叉熵作为当前层分类器训练过程的损失函数:
[0055][0056]
式(8)中,t
ic
为符号函数,如果样本i的真实类别为c则取1,否则取0;
[0057]
从第二层分类器开始,将上一层分类器的预测输出并入下一层分类器的输入中:
[0058][0059]
式(9)中,i∈{2,3,4},y(i)为第i层分类器的预测结果;模型最终损失函数loss为四层分类器的交叉熵损失之和:
[0060][0061]
与现有技术相比,本发明的有益效果是:
[0062]
(1)本发明根据输入字段特征的不同,采用混合textcnn和双向rnn网络结构的方式构建了编码器,利用不同神经网络结构捕捉文本语义特征的不同倾向,能够充分利用输入字段提供的局部和全局信息。从评估结果来看,本发明的编码器端设计相比于常见的卷积神经网络和循环神经网络结构,在各层标签预测准确率上都有显著提升。
[0063]
(2)分类器链是针对本次任务中输出标签的特点采取的方法,意图使上级标签影响下级标签的预测,以表现标签层级之间的依赖关系。从结果中发现,相对于各级准确率,分类器链对于总体准确率提升的作用更为显著。这一定程度上说明,由于这一设置,预测结果更倾向于遵循标准标签路径的规则。
附图说明
[0064]
图1是用于分级体系和混合数据类型的业务记录分类方法的流程图。
[0065]
图2是实现用于分级体系和混合数据类型的业务记录分类方法的模型框架图。
具体实施方式
[0066]
下面结合附图及具体实施例对本发明做进一步的说明,但下述实施例绝非对本发明有任何限制。
[0067]
本发明提出的一种用于分级体系和混合数据类型的业务记录分类方法,面向的是将由混合类型构成的业务记录数据按照公司的分级业务体系进行自动层次化打标签的应用场景,图1显示了用于分级体系和混合数据类型的业务记录分类方法的过程。
[0068]
数据是来自电信公司真实业务活动的由人工填写和标注的对客户投诉事件的业务记录,对于每一条数据样本,输入数据为中描述该次客户投诉事件的混合数据类型的各个字段,包括非结构化数据类型字段和结构化数据类型字段,输出数据为该次客户投诉事件对应于公司分级业务体系中的多层级投诉原因类别标签,表现为多级逐级细分的结构。
[0069]
本发明提出的用于分级体系和混合数据类型的业务记录分类方法的整体架构,包括两个模块:编码器模块和分类器模块。使用包括编码器模块和解码器模块的端到端框架进行训练和预测,所述编码器模块使用嵌入层将输入数据中的原始字段转化成向量表示后,使用卷积神经网络和循环神经网络分别对不同数据类型字段的向量表示进行特征抽取并使用前馈神经网络进行特征融合,为考虑投诉原因标签存在的层级间相关性,所述解码器模块是由多个多层感知机分类器组成的多级分类器链结构,接收编码器模块的融合结果并预测输出数据中的各层级类别标签。图2显示了实现用于分级体系和混合数据类型的业务记录分类方法的模型框架。
[0070]
本发明所述的业务记录分类方法包括以下步骤:
[0071]
步骤一、对上述数据进行清洗和预处理后,随机选择80%和10%的数据分别作为训练神经网络模型的训练集和验证集,选择剩余10%的数据作为用于评估模型性能的测试集。
[0072]
步骤二:利用编码器模块对数据进行特征抽取,以获取多个向量形式的嵌入表示;
[0073]
1)对非结构化数据类型字段即文本字段使用分词工具分词后,经过词嵌入层获取词语的嵌入表示,使用卷积神经网络捕捉长段文本中的局部特征,获取文本字段的编码表示。
[0074]
文本字段的分词和词向量化:使用结巴(jieba)分词工具对文本字段进行分词,将分词后的词映射为低维空间中稠密连续向量的嵌入表示,所获取到的词向量通过相似度计算表征两词之间的语义相关性,选取网络上开源的词向量资源初始化嵌入层参数,其中,选取腾讯人工智能实验室发布的中文词向量,对于文本型输入序列中的词i,经过嵌入层可以得到其k维的低维词嵌入k=200;将文本形式的输入数据字段看作由单词构成的序列,则一个包含n个单词的序列表示为:
[0075][0076]
式(1)中,xi表示序列中的第i个单词对应的词向量,表示向量串联操作;
[0077]
文本字段的特征抽取:所述的卷积神经网络为文本卷积神经网络textcnn,输入数据字段包括投诉描述和投诉处理意见;分别使用两个独立的文本卷积神经网络textcnn对投诉描述和投诉处理意见这两个文本形式的输入数据字段的嵌入表示进行特征抽取,得到这两个输入数据字段的特征编码表示;在文本卷积神经网络textcnn中,使用窗口尺寸为h的卷积核对输入序列进行滑动窗口卷积操作获取窗口内的局部特征,其中第i维特
征表示为ci:
[0078]ci
=f(w
·
x
i:i+h-1
+b)
ꢀꢀꢀ
(2)
[0079]
式(2)中,f为非线性激活函数,b为偏移参数;进而整个输入序列卷积操作完成后得到特征图c:
[0080]
c=[c1,c2,...,c
n-h+1
]
ꢀꢀꢀ
(3)
[0081]
将c进行池化计算后送入全连接层就可以得到cnn输出的编码表示;使用多尺寸卷积核的cnn,同时使用窗口尺寸分别为3,4,5的三个卷积核进行上述卷积操作,并最终将结果串联得到c
cnn
;
[0082]
2)将结构化数据类型字段视作离散的标签并转换成数字编码,并使用类似词嵌入层的数字编码嵌入层,将数字编码映射为连续向量的嵌入表示;使用循环神经网络捕捉结构化数据类型字段的特征,获取包含所有结构化数据类型字段信息的编码表示。
[0083]
结构化数据字段的编码和向量化:结构化数据形式的输入数据字段包括投诉处理地、二级责任单位、客户群类型和五级投诉现象,共8个字段,将所述8个字段看作离散的类别标签;将每个标签映射为一个数字编码,并使用能够获取类似词向量的数字编码嵌入层,将编码映射为连续的嵌入表示;
[0084]
结构化数据字段的特征抽取:每个样本的8个标签经过上述嵌入表示后,送入所述的循环神经网络,所述的循环神经网络为双向循环神经网络的变体结构双向长短期记忆网络(lstm),得到包含所有选取的结构化数据字段的标签信息的编码表示;双向长短期记忆网络结构中,第t个时间步的隐藏状态组件的计算方式为:
[0085]ft
=σ(wf[h
t-1
,x
t
]+bf)
[0086]it
=σ(wi[h
t-1
,x
t
]+bi)
[0087]ot
=σ(wo[h
t-1
,x
t
]+bo)
ꢀꢀꢀ
(4)
[0088][0089][0090]ht
=o
t
*tanh(c
t
)
[0091]
式(4)中,wf,wi,wo,wc为可训练权重矩阵,bf,bi,bo,bc为对应的偏移参数,h
t
和x
t
分别表示第t个时间步时lstm的隐藏状态和输入向量,σ为sigmoid函数:
[0092][0093]
获取第t个时间步的前向隐藏状态和后向隐藏状态并将其连接后得到最终的隐层上下文状态
[0094]
3)特征信息融合:对步骤1)中由卷积神经网络和步骤2)中由循环神经网络分别获取的不同输入字段的编码表示使用向量串联的方式连接后输入到前馈神经网络中加以融合,得到编码器模块的输出结果。
[0095]
将以上模型得到的嵌入表示串联为编码器最终的输出向量h:
[0096][0097]
其中,ffn表示前馈神经网络,和分别为textcnn对“投诉描述”和“投诉处理意见”字段的文本嵌入表示进行特征抽取的结果,h
bi-lstm
为双向lstm对结构化数据字
段的标签嵌入的编码结果。
[0098]
步骤三:将步骤二中编码器模块的输出结果放入解码器模块中逐级生成多级投诉原因类别标签;将所有层级的类别标签连接即得到解码器模块对投诉类别标签的预测结果。
[0099]
将经过步骤二中3)得到的输出向量h放入解码器模块中进行标签预测。本发明中的解码器模块是由四个神经网络结构的分类器连接组成的分类器链,分别对应一级到四级的投诉原因类别标签,从每个分类器可以获取当前层级投诉原因类别标签的预测结果。每个分类器的神经网络结构中,通过softmax函数:得到一个与当前层类别标签数量等同的输出向量,其中ei表示向量中第i个维度的值;
[0100]
对于第一层分类器的预测结果y
(1)
是:
[0101]y(1)
=softmax(mlp(h))
ꢀꢀꢀ
(7)
[0102]
其中,mlp为多层感知机结构。
[0103]
使用交叉熵作为当前层分类器训练过程的损失函数:
[0104][0105]
式(8)中,t
ic
为符号函数,如果样本i的真实类别为c则取1,否则取0。
[0106]
从第二层分类器开始,将上一层分类器的预测输出并入下一层分类器的输入中:
[0107][0108]
式(9)中,i∈{2,3,4},y(i)为第i层分类器的预测结果;
[0109]
模型最终损失函数loss为四层分类器的交叉熵损失之和:
[0110][0111]
研究实验材料:
[0112]
由于本发明使用的研究实验材料来自于公司业务部门真实活动产生的业务记录,在进行模型架构的设计前,本发明首先使用统计分析方法对原始数据形态进行了评估,包括各结构化数据字段的标签类别样本分布特点等。接下来,基于统计分析结果对原始数据进行样本重采样、数据清洗、数据增强的预处理过程,并切分成模型训练集、验证集和测试集,即随机选择80%和10%的数据分别作为训练神经网络模型的训练集和验证集,选择剩余10%的数据作为用于评估模型性能的测试集。本发明提出的模型框架在训练集和验证集上通过所述损失函数进行训练和验证,并在测试集上评估模型对于投诉原因类别的预测性能。
[0113]
该研究实验材料的数据来源于电信公司业务部门在2019年下半年及2020年上半年共12个月的对于客户投诉事件的业务记录。该数据反映了较长时间内该部门及相关责任单位所受理客户投诉事件对应的投诉原因类别的样本分布状况。样本中各输入和输出字段均由人工标注,并且“投诉原因分类”多级字段组成的标签路径应该能与公司提供的“投诉原因分类表”中的类别匹配。
[0114]
以2020年上半年数据为例,数据相关信息如下:
[0115]
样本总数252236条。去除类别空缺及无法与“投诉原因分类表”中类别匹配的条目,保留有效样本241469条。每条样本中,包括如下字段:
[0116]
(1)输入字段:投诉单编号、投诉设备号、二级责任单位、客户群类型、投诉产品、营销活动名称、套餐系列、设备区局、投诉现象一级~六级等;
[0117]
(2)输出字段:投诉原因类别一级到(最多)六级。在公司的投诉原因类型业务体系中,从第二级开始,每级标签代表的投诉原因类别为上一级标签所代表的投诉原因类型的子类,根据这种父子依赖关系,可构建一棵以投诉原因类型标签为节点的树状结构,而一级到六级的标签组合均可体现为一条从树的根节点到叶子节点的路径。
[0118]
本实施例中,输入数据字段的混合数据类型包括结构化数据(例如产品类型、责任单位编号、投诉现象类别标签等)和非结构化数据(即文本),本发明在初期进行了数据分析和特征工程实验后,确定了与所要预测的输出字段相关性较强的输入字段,包括“投诉处理地”、“二级责任单位”、“客户群类型”和一级到五级“投诉现象”共8个字段;输出数据的投诉原因类别标签表现为多级逐级细分的结构,(自二级标签起)每级标签作为上一级标签的子类存在依赖关系。由于五级和六级投诉原因类别中空标签较多(具体地,从实际业务活动中收集到的数据样本中,五级、六级标签为空的样本占总样本数的比例分别为35.8%和68.7%),将投诉原因类别标签的预测范围约定为从一级到四级标签,从第一级到第四级的完整路径数量大于1600个,其中,一级到四级级标签的数量分别为(包含空标签):一级14个,二级75个,三级182个,四级431个。
[0119]
本发明评价指标为分类正确的准确率,即分类正确的样本数与总样本数的比值,其中分类正确定义为:一级到四级标签预测结果全部与真实值相同。
[0120]
将上述12个月的数据样本作为训练集和验证集,使用相同来源和形式的2020年7月的数据作为测试集,两组数据集间不存在样本重叠且不保证样本有相似分布。考虑到数据分布不平衡问题,本发明中对训练集样本进行了重采样和欠采样等平衡化和去稀疏化的预处理。
[0121]
模型训练中,对训练集使用8折交叉验证测试准确性。即将数据集分成8份,轮流将其中7份作为训练数据,1份作为测试/验证数据,进行试验。每次试验都会得出相应的准确率。将8次的结果的准确率的平均值作为对算法性能的估计。
[0122]
为了适应应用场景中混合类型输入数据和多级投诉原因标签的特点,本发明经过多次实验确定了最终的模块设计。为了说明本发明中各模块设计的有效性,本发明选取了现有的主流文本分类技术作为基线模型,设计了基线模型与本发明的对比实验来评估本发明体现在性能上的优越性。基线模型包括:
[0123]
(1)textcnn:将所有字段视作文本,串联成一个长序列后,使用单个textcnn编码,使用单个分类器;
[0124]
(2)bi-rnn:将所有字段视作文本,串联成一个长序列后,使用双向rnn编码,使用单个分类器;
[0125]
本发明与基线模型性能比较结果如表1。
[0126]
表1测试集上的准确率(%)性能指标
[0127][0128]
由性能评估结果可知,本发明相对于基线模型都取得了显著改善。本发明的优点及有益效果如下:
[0129]
(1)本发明根据输入字段特征的不同,采用混合textcnn和双向rnn网络结构的方式构建了编码器,利用不同神经网络结构捕捉文本语义特征的不同倾向,能够充分利用输入字段提供的局部和全局信息。从评估结果来看,本发明的编码器端设计相比于常见的卷积神经网络和循环神经网络结构,在各层标签预测准确率上都有显著提升。
[0130]
(2)分类器链是针对本次任务中输出标签的特点采取的方法,意图使上级标签影响下级标签的预测,以表现标签层级之间的依赖关系。从结果中发现,相对于各级准确率,分类器链对于总体准确率提升的作用更为显著。这一定程度上说明,由于这一设置,预测结果更倾向于遵循标准标签路径的规则。
[0131]
尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。