本技术涉及大数据,尤其涉及一种基于树形图的业务分类方法、装置、设备及存储介质。
背景技术:
1、资产托管业务是银行重要的金融服务,每天主要通过邮件等方式进行交易数据传递,银行根据传递的数据进行资金管理服务。由于没有标准的数据接口规范,各个公司机构存在实体差异、业务种类迥异的问题,即使相同的业务种类,不同的公司机构的邮件格式和内容的形式也各不相同。
2、银行在资金划拨前,需要根据邮箱地址、邮件标题、邮件附件名称、邮件内容等信息中的特征字符串进行邮件分类,从而确定交易的业务大类、子类和对应的科目代码等信息。
3、目前,通常采用正则表达式匹配固定特征和程序片匹配动态特征对特征字符串进行标记编号,生成一个程序脚本,然后将程序脚本存入到数据库的特征规则表中形成一条记录,在进行业务分类时,查询出特征规则表中每一条记录中的程序脚本,对邮件相关数据执行对应的程序,进行正则化匹配和动态字符串匹配,获得对应标记编号,在根据标记编号查询出邮件对应的业务分类。
4、但是,由于邮件格式和业务产品种类众多,特征字符串相应增加,每封邮件都要对特征规则中记录的每一条程序脚本进行查询并运行程序,导致正则化匹配和程序片匹配的效率低,无法满足业务分类时效性的问题。
技术实现思路
1、有鉴于此,本技术实施例提供了一种基于树形图的业务分类方法、装置、设备及存储介质,旨在提升特征字符串的匹配效率,从而保证业务分类处理的时效性。
2、第一方面,本技术实施例提供了一种基于树形图的业务分类方法,所述方法包括:
3、对特征规则数据中的特征字符串构建树形图,获得特征树图,所述特征规则数据包含邮件数据中的特征字符串、特征编号以及所述特征字符串和所述特征编号之间的对应关系;
4、获取待分类邮件数据中的待检字符数组,所述待检字符数组是根据邮件的结构信息确定的;
5、根据所述特征树图对所述待检字符数组中的特征字符串进行检索,获得所述待检字符数组的特征编号列表字符串;
6、根据业务分类映射表对所述特征编号列表字符串进行查询,获得所述待分类邮件数据对应的业务分类,所述业务分类映射表包括所述特征编号列表字符串与业务分类的对应关系。
7、可选地,所述对特征规则数据中的特征字符串构建树形图,获得特征树图,包括:
8、将所述特征规则数据中的特征字符串转换为字符数组;所述特征规则数据中的特征字符串包括动态特征字符串,所述动态特征字符串转换为一个字符;
9、按照字符顺序对所述字符数组中的特征字符构建树形图,获得特征树图。
10、可选地,所述获取待分类邮件数据中的待检字符数组,所述待检字符数组是根据邮件的结构信息确定的,包括:
11、获取待分类邮件数据的待检特征字符串,所述待检特征字符串是根据邮件的结构信息确定的;
12、将所述待检特征字符串转换为待检字符数组。
13、可选地,所述构建树形图的步骤,包括:
14、当增加第一特征字符串时,增加第一树状分支,并在叶子节点记录对应的特征编号;
15、当增加第二特征字符串时,在所述第一树状分支上增加第二树状分支,所述第二特征字符串包括所述第一特征字符串。
16、可选地,所述对特征规则数据中的特征字符串构建树形图,获得特征树图,之前还包括:
17、读取状态标识为正常的特征规则数据,所述状态标识用于标识所述特征规则数据的存储状态。
18、第二方面,本技术实施例提供了一种基于树形图的业务分类装置,所述装置包括:
19、构建模块,用于对特征规则数据中的特征字符串构建树形图,获得特征树图,所述特征规则数据包含邮件数据中的特征字符串、特征编号以及所述特征字符串和所述特征编号之间的对应关系;
20、获取模块,用于获取待分类邮件数据中的待检字符数组,所述待检字符数组是根据邮件的结构信息确定的;
21、检索模块,用于根据所述特征树图对所述待检字符数组中的特征字符串进行检索,获得所述待检字符数组的特征编号列表字符串;
22、查询模块,用于根据业务分类映射表对所述特征编号列表字符串进行查询,获得所述待分类邮件数据对应的业务分类,所述业务分类映射表包括所述特征编号列表字符串与业务分类的对应关系。
23、可选地,所述构建模块包括:
24、第一转换单元,用于将所述特征规则数据中的特征字符串转换为字符数组;所述特征规则数据中的特征字符串包括动态特征字符串,所述动态特征字符串转换为一个字符;
25、构建单元,用于按照字符顺序对所述字符数组中的特征字符构建树形图,获得特征树图。
26、可选地,所述获取模块包括:
27、获取单元,用于获取待分类邮件数据的待检特征字符串,所述待检特征字符串是根据邮件的结构信息确定的;
28、第二转换单元,用于将所述待检特征字符串转换为待检字符数组。
29、可选地,所述构建树形图的步骤,包括:
30、第一增加单元,用于当增加第一特征字符串时,增加第一树状分支,并在叶子节点记录对应的特征编号;
31、第二增加单元,用于当增加第二特征字符串时,在所述第一树状分支上增加第二树状分支,所述第二特征字符串包括所述第一特征字符串。
32、可选地,所述构建模块,之前还包括:
33、读取单元,用于读取状态标识为正常的特征规则数据,所述状态标识用于标识所述特征规则数据的存储状态。
34、第三方面,本技术实施例提供了一种基于树形图的业务分类设备,所述设备包括:
35、存储器,用于存储计算机程序;
36、处理器,用于执行所述计算机程序,以使所述设备执行前述第一方面所述的基于树形图的业务分类方法。
37、第四方面,本技术实施例提供了一种计算机存储介质,所述计算机可读存储介质上存储有计算机程序,当所述计算机程序被运行时,运行所述计算机程序的设备实现前述第一方面所述的基于树形图的业务分类方法。
38、相较于现有技术,本技术实施例具有以下有益效果:
39、本技术实施例提供了一种基于树形图的业务分类方法、装置、设备及存储介质,在该方法中,首先对特征规则数据中的特征字符串构建树形图,获得特征树图,特征规则数据包含邮件数据中的特征字符串、特征编号以及特征字符串和特征编号之间的对应关系。然后,获取待分类邮件数据中的待检字符数组,待检字符数组是根据邮件的结构信息确定的,根据特征树图对待检字符数组中的特征字符串进行检索,获得待检字符数组的特征编号列表字符串。最后,根据业务分类映射表对特征编号列表字符串进行查询,获得待分类邮件数据对应的业务分类,业务分类映射表包括特征编号列表字符串与业务分类的对应关系。可见,由于树形图可以包含同一属性的不同分支,使得特征字符串的匹配过程能够快速简洁,无需遍历所有的特征规则数据,然后基于特征树图对待分类邮件数据中的特征字符串进行检索,即可确定出待分类邮件数据所对应的特征编号,基于业务分类映射表即可确定出特征编号对应的业务分类,实现了邮件的快速业务分类,提升了特征字符串的匹配效率,从而保证了业务分类处理的时效性。