本技术涉及文本分类,特别是涉及一种客诉文本分类方法、装置、计算机设备和存储介质。
背景技术:
1、客户投诉是指客户对企业产品质量或服务上的不满意,而提出的书面或口头上的异议、抗议、索赔和要求解决问题等行为的一种手段。客户投诉处理流程包括以下几个步骤:步骤1,将客户投诉的全部内容整理成客诉文本,例如,详细记录投诉人、投诉时间、投诉对象、投诉要求等并形成客诉文本;步骤2,查明客户投诉的具体原因;步骤3,提出处理方案。
2、随着互联网的发展,对客诉内容进行文本分类有助于为后续的业务应用提供基础数据和一系列的辅助功能。现有的文本分类方法主要通过文本分类模型得到待分类文本数据所属的主题类别,根据主题类别得到客诉的主题分布。现有的文本分类方法无法深度分析主题类别下的具体客诉内容,导致分类结果的准确性低的问题。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高文本分类准确率低的问题的客诉文本分类方法、装置、计算机设备和存储介质。
2、第一方面,本技术提供了一种客诉文本分类方法。所述方法包括:
3、获取待处理文本数据,对待处理文本数据进行预处理,得到多个分词结果;
4、对多个分词结果进行向量化处理,得到各分词结果的第一向量值;
5、将多个分词结果输入至预先训练好的主题分析模型中,得到待处理文本数据归属于各客诉主题的第二向量值,以及待处理文本数据的关键词的第三向量值;
6、对第一向量值、第二向量值和第三向量值进行拼接处理,得到拼接特征,将拼接特征作为待处理文本数据的特征;
7、将待处理文本数据的特征分别输入至预先训练好的分类模型的主题分类模型和感知分类模型中,得到待处理文本数据所属的客诉主题类别以及客诉感知类别。
8、在其中一个实施例中,所述方法还包括:
9、获取历史客诉数据;
10、基于预先构建好的二维标签系统对历史客诉数据进行主题和感知标注,得到带有主题标签的第一标注数据和带有感知标签的第二标注数据;
11、将第一标注数据输入至分类模型的主题分类模型中,得到第一标注数据的主题预测数据;
12、将第二标注数据输入至分类模型的感知分类模型中,得到第二标注数据的感知预测数据;
13、基于主题预测数据和第一标注数据的误差值,以及感知预测数据和第二标注数据的误差值,调整主题分类模型和感知分类模型的参数,完成一次迭代;
14、若误差值小于预设值,则停止迭代,得到训练好的分类模型。
15、在其中一个实施例中,所述方法还包括:
16、对历史客诉数据进行预处理,得到历史客诉数据对应的分词结果;
17、对所述分词结果进行主题和关键词提取,得到各所述历史客诉数据对应的基础主题和基础关键词;
18、对每个基础主题和每个基础关键词进行标签标注处理,得到每个基础主题对应的三级主题标签,以及每个基础关键词对应的三级感知标签;
19、分别对三级主题标签和三级感知标签进行聚类处理,得到多个主题聚类集合和感知聚集合,分别对主题聚类集合和感知聚类集合进行标签标注处理,得到每个主题聚类集合对应的二级主题标签,以及每个感知聚类集合对应的二级感知标签;
20、分别对二级主题标签和二级感知标签进行聚类处理,得到多个主题聚类子集和感知聚类子集,分别对主题聚类子集和感知聚类子集进行标签标注处理,得到每个主题聚类子集对应的一级主题标签,以及每个感知聚类子集对应的一级感知标签;
21、基于三级主题标签、三级感知标签、二级主题标签、二级感知标签、一级主题标签和一级感知标签,确定二维标签系统。
22、在其中一个实施例中,基于预先构建好的二维标签系统对历史客诉数据进行主题和感知标注,得到带有主题标签的第一标注数据和带有感知标签的第二标注数据,包括:
23、对当前的历史客诉数据对应的基础主题和基础关键词进行向量化处理,得到当前的历史客诉数据的主题向量值和关键词向量值;
24、基于当前的历史客诉数据的主题向量值和关键词向量值,确定当前的历史客诉数据对应的三级主题标签和三级感知标签,以及带有三级主题标签的第一标注数据和带有三级感知标签的第二标注数据。
25、在其中一个实施例中,基于预先构建好的二维标签系统对历史客诉数据进行主题和感知标注,得到带有主题标签的第一标注数据和带有感知标签的第二标注数据,还包括:
26、根据三级主题标签、三级感知标签和二维标签系统,确定当前的历史客诉数据对应的二级主题标签和二级感知标签,以及带有三级主题标签和二级主题标签的第一标注数据和带有三级感知标签和二级感知标签的第二标注数据。
27、在其中一个实施例中,基于预先构建好的二维标签系统对历史客诉数据进行主题和感知标注,得到带有主题标签的第一标注数据和带有感知标签的第二标注数据,还包括:
28、根据二级主题标签、二级感知标签和二维标签系统,确定当前的历史客诉数据对应的一级主题标签和一级感知标签,以及带有三级主题标签、二级主题标签和一级主题标签的第一标注数据,带有三级感知标签、二级感知标签和一级感知标签的第二标注数据。
29、在其中一个实施例中,获取待处理文本数据,对待处理文本数据进行预处理,得到多个分词结果,包括:
30、获取待处理文本数据,对待处理文本数据进行去重复词处理、去停用词处理,得到初始文本;
31、对初始文本进行分词处理,得到多个分词结果。
32、第二方面,本技术还提供了一种客诉文本分类方法装置。所述装置包括:
33、分词模块,用于获取待处理文本数据,对待处理文本数据进行预处理,得到多个分词结果;
34、第一向量化模块,用于对多个分词结果进行向量化处理,得到各分词结果的第一向量值;
35、第二向量化模块,用于将多个分词结果输入至预先训练好的主题分析模型中,得到待处理文本数据归属于各客诉主题的第二向量值,以及待处理文本数据的关键词的第三向量值;
36、特征拼接模块,用于对第一向量值、第二向量值和第三向量值进行拼接处理,得到拼接特征,将拼接特征作为待处理文本数据的特征;
37、分类模块,用于将待处理文本数据的特征分别输入至预先训练好的分类模型的主题分类模型和感知分类模型中,得到待处理文本数据所属的客诉主题类别以及客诉感知类别。
38、第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
39、获取待处理文本数据,对待处理文本数据进行预处理,得到多个分词结果;
40、对多个分词结果进行向量化处理,得到各分词结果的第一向量值;
41、将多个分词结果输入至预先训练好的主题分析模型中,得到待处理文本数据归属于各客诉主题的第二向量值,以及待处理文本数据的关键词的第三向量值;
42、对第一向量值、第二向量值和第三向量值进行拼接处理,得到拼接特征,将拼接特征作为待处理文本数据的特征;
43、将待处理文本数据的特征分别输入至预先训练好的分类模型的主题分类模型和感知分类模型中,得到待处理文本数据所属的客诉主题类别以及客诉感知类别。
44、第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
45、获取待处理文本数据,对待处理文本数据进行预处理,得到多个分词结果;
46、对多个分词结果进行向量化处理,得到各分词结果的第一向量值;
47、将多个分词结果输入至预先训练好的主题分析模型中,得到待处理文本数据归属于各客诉主题的第二向量值,以及待处理文本数据的关键词的第三向量值;
48、对第一向量值、第二向量值和第三向量值进行拼接处理,得到拼接特征,将拼接特征作为待处理文本数据的特征;
49、将待处理文本数据的特征分别输入至预先训练好的分类模型的主题分类模型和感知分类模型中,得到待处理文本数据所属的客诉主题类别以及客诉感知类别。
50、第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
51、获取待处理文本数据,对待处理文本数据进行预处理,得到多个分词结果;
52、对多个分词结果进行向量化处理,得到各分词结果的第一向量值;
53、将多个分词结果输入至预先训练好的主题分析模型中,得到待处理文本数据归属于各客诉主题的第二向量值,以及待处理文本数据的关键词的第三向量值;
54、对第一向量值、第二向量值和第三向量值进行拼接处理,得到拼接特征,将拼接特征作为待处理文本数据的特征;
55、将待处理文本数据的特征分别输入至预先训练好的分类模型的主题分类模型和感知分类模型中,得到待处理文本数据所属的客诉主题类别以及客诉感知类别。
56、上述客诉文本分类方法、装置、计算机设备和存储介质,通过对待处理文本数据的各分词结果的第一向量值、待处理文本数据归属于各客诉主题的第二向量值、待处理文本数据的关键词的第三向量值进行拼接处理,得到拼接特征,将拼接特征作为待处理文本数据的特征输入至预先训练好的分类模型的领域分类模型和感知分类模型中,得到待处理文本数据所属的领域类别以及感知类别。采用该方法不仅可以增强主题和关键词对分类模型的影响,从而提高分类模型的准确率,还可以将待处理文本数据划分到具体的主题维度以及主题维度对应的问题,深度分析领域类别下的具体客诉内容,提高分类结果的准确性。