本发明涉及机器学习,具体涉及一种用于资管行业spv穿透式监管的spv交易对手名称匹配方法。
背景技术:
1、spv(special purpose vehicle,特殊目的的载体)指目前发布的《金融机构资产管理产品统计制度》中提及的银行非保本理财产品、信托公司资管产品、证券公司及子公司资管产品、基金公司及其子公司专户产品、保险资管产品、公募基金产品、期货公司及子公司资管产品、以及金融资产投资公司资管产品8个类型的产品。每个spv被规定了唯一编码标识,称对应spv的spv码,以及,每个spv和每个spv发行机构也被规定了各自的标准名称。各spv码、spv标准名称、和spv发行机构标准名称被存储在预设数据库中。
2、spv交易之间的交易链需要上报监管机构(包括中国人民银行和中国证券监督管理委员会),2022年12月,中国人民银行发布《关于印发<国家金融基础数据库大数据平台资管产品统计系统数据采集规范>的通知》,要求对公司每月的数据报送中,将与公司存在交易行为的8类spv在报送场景中上报其spv码,由监管机构根据spv代码建立起不同spv之间的嵌套关联关系(从而可以穿透到不同spv间的多层嵌套关系),据此进行交叉性金融产品统计,以监测跨行业、跨市场、及跨部门金融活动。因此,在实际应用过程中,需要根据spv交易对手提供的spv名称(即spv交易对手名称),在预设数据库中确定其对应的spv码,具体的,通过将spv交易对手提供的spv名称分别与预设数据库中的各spv标准名称进行匹配,并将匹配到的spv标准名称所对应的spv码确定为spv交易对手提供的spv名称所对应的spv码。然而,当spv交易对手提供的spv名称是spv非标准名称时,无法通过直接将其与预设数据库中的spv标准名称进行匹配来得到对应的spv码。
3、基于此,如何提高spv非标准名称的匹配效率、匹配结果准确性和泛化性、及匹配模型的训练效率,成为了亟待解决的技术问题。
技术实现思路
1、为了解决现有技术存在的难以提高spv非标准名称的匹配效率、匹配结果准确性和泛化性、及匹配模型的训练效率的问题,本发明提供了一种用于资管行业spv穿透式监管的spv交易对手名称匹配方法。
2、本发明的技术方案如下:
3、本发明提供了一种用于资管行业spv穿透式监管的spv交易对手名称匹配方法,包括:
4、获取spv非标准数据;所述spv非标准数据中包括第一待匹配spv非标准名称;
5、基于第一预设业务规则,判断预设数据库的所有spv标准名称中是否存在所述第一待匹配spv非标准名称所实际对应的目标spv标准名称;所述第一预设业务规则为基于决策树算法,根据携带有第一标签的第一匹配对而生成的业务规则,所述第一标签用于表示对应第一匹配对的实际匹配结果,所述第一匹配对由一个spv非标准名称和一个spv标准名称组成;
6、若基于第一预设业务规则,判断预设数据库的所有spv标准名称中不存在所述第一待匹配spv非标准名称所实际对应的目标spv标准名称,则确定第一候选集;所述第一候选集中包括所述预设数据库的所有spv标准名称中的多个spv标准名称,且所述第一候选集中的任一spv标准名称与所述第一待匹配spv非标准名称之间的相似度均大于第一指定spv标准名称与所述第一待匹配spv非标准名称之间的相似度,所述第一指定spv标准名称为所述预设数据库的所有spv标准名称中除所述第一候选集之外的其他spv标准名称中的任一spv标准名称;
7、基于第一预设分类模型,确定所述第一候选集中的各个所述spv标准名称是所述目标spv标准名称的第一概率值;所述第一预设分类模型为基于第一预设分类算法,根据所有所述第一匹配对中除与所述第一预设业务规则对应的第一匹配对之外的其他第一匹配对训练得到的模型;
8、若所有所述第一概率值中数值最大的第一概率值大于第一预设概率阈值,则确定该数值最大的第一概率值所对应的spv标准名称为所述目标spv标准名称。
9、可选的,确定第一候选集,具体包括:
10、基于多个第一召回算法,根据所述第一待匹配spv非标准名称、和第一spv标准名称候选集,确定每个所述第一召回算法的第二spv标准名称候选集;所述第一spv标准名称候选集中包括所述预设数据库的所有spv标准名称中的多个spv标准名称;所述第二spv标准名称候选集中包括所述第一spv标准名称候选集中的多个spv标准名称,且所述第二spv标准名称候选集中的任一spv标准名称与所述第一待匹配spv非标准名称之间的相似度均大于第二指定spv标准名称与所述第一待匹配spv非标准名称之间的相似度,所述第二指定spv标准名称为所述第一spv标准名称候选集中除所述第二spv标准名称候选集之外的其他spv标准名称中的任一spv标准名称;
11、对所有所述第二spv标准名称候选集中的spv标准名称进行去重处理,得到所述第一候选集;所述第一候选集中包括去重处理后的所有所述第二spv标准名称候选集中的spv标准名称。
12、可选的,所述多个第一召回算法包括最长连续公共子序列算法、最长非连续公共子序列算法、word2vec模型、及bert模型。
13、可选的,所述spv非标准数据中还包括第一待匹配spv发行机构非标准名称;
14、在基于多个第一召回算法,根据所述第一待匹配spv非标准名称、和第一spv标准名称候选集,确定每个所述第一召回算法的第二spv标准名称候选集之前,本发明的用于资管行业spv穿透式监管的spv交易对手名称匹配方法,还包括:
15、判断所述预设数据库的所有spv发行机构标准名称中是否存在所述第一待匹配spv发行机构非标准名称所实际对应的目标spv发行机构标准名称;
16、若所述预设数据库的所有spv发行机构标准名称中存在所述第一待匹配spv发行机构非标准名称所实际对应的目标spv发行机构标准名称,则确定所述目标spv发行机构标准名称所对应的所有spv标准名称构成所述第一spv标准名称候选集;
17、否则,确定所述预设数据库的所有spv标准名称构成所述第一spv标准名称候选集。
18、可选的,判断所述预设数据库的所有spv发行机构标准名称中是否存在所述第一待匹配spv发行机构非标准名称所实际对应的目标spv发行机构标准名称,具体包括:
19、基于第二预设业务规则,判断所述预设数据库的所有spv发行机构标准名称中是否存在所述目标spv发行机构标准名称;所述第二预设业务规则为基于决策树算法,根据携带有第二标签的第二匹配对而生成的业务规则,所述第二标签用于表示对应第二匹配对的实际匹配结果,所述第二匹配对由一个spv发行机构非标准名称和一个spv发行机构标准名称组成;
20、若基于第二预设业务规则,判断所述预设数据库的所有spv发行机构标准名称中不存在所述目标spv发行机构标准名称,则确定第二候选集;所述第二候选集中包括所述预设数据库的所有spv发行机构标准名称中的多个spv发行机构标准名称,且所述第二候选集中的任一spv发行机构标准名称与所述第一待匹配spv发行机构非标准名称之间的相似度均大于第一指定spv发行机构标准名称与所述第一待匹配spv发行机构非标准名称之间的相似度,所述第一指定spv发行机构标准名称为所述预设数据库的所有spv发行机构标准名称中除所述第二候选集之外的其他spv发行机构标准名称中的任一spv发行机构标准名称;
21、基于第二预设分类模型,确定所述第二候选集中的各个所述spv发行机构标准名称是所述目标spv发行机构标准名称的第二概率值;所述第二预设分类模型为基于第二预设分类算法,根据所有所述第二匹配对中除与所述第二预设业务规则对应的第二匹配对之外的其他第二匹配对训练得到的模型;
22、判断所有所述第二概率值中数值最大的第二概率值是否大于第二预设概率阈值;
23、若所有所述第二概率值中数值最大的第二概率值大于第二预设概率阈值,则确定该数值最大的第二概率值所对应的spv发行机构标准名称为所述目标spv发行机构标准名称。
24、可选的,确定第二候选集,具体包括:
25、基于多个第二召回算法,根据所述第一待匹配spv发行机构非标准名称,确定每个所述第二召回算法的第一spv发行机构标准名称候选集;所述第一spv发行机构标准名称候选集中包括所述预设数据库的所有spv发行机构标准名称中的多个spv发行机构标准名称,且所述第一spv发行机构标准名称候选集中的任一spv发行机构标准名称与所述第一待匹配spv发行机构非标准名称之间的相似度,均大于第二指定spv发行机构标准名称与所述第一待匹配spv发行机构非标准名称之间的相似度,所述第二指定spv发行机构标准名称为所述预设数据库的所有spv发行机构标准名称中除所述第一spv发行机构标准名称候选集之外的其他spv发行机构标准名称中的任一spv发行机构标准名称;
26、对所有所述第一spv发行机构标准名称候选集中的spv发行机构标准名称进行去重处理,得到所述第二候选集;所述第二候选集中包括去重处理后的所有所述第一spv发行机构标准名称候选集中的spv发行机构标准名称。
27、可选的,所述多个第二召回算法包括最长连续公共子序列算法、最长非连续公共子序列算法、word2vec模型、及bert模型。
28、可选的,所述携带有第一标签的第一匹配对的获取过程包括:
29、获取spv非标准样本数据;所述spv非标准样本数据中包括第二待匹配spv非标准名称;
30、基于多个第一召回算法,根据所述第二待匹配spv非标准名称、和第三spv标准名称候选集,确定每个所述第一召回算法的第四spv标准名称候选集;所述第三spv标准名称候选集中包括所述预设数据库的所有spv标准名称中的多个spv标准名称;所述第四spv标准名称候选集中包括所述第三spv标准名称候选集中的多个spv标准名称,且所述第四spv标准名称候选集中的任一spv标准名称与所述第二待匹配spv非标准名称之间的相似度均大于第三指定spv标准名称与所述第二待匹配spv非标准名称之间的相似度,所述第三指定spv标准名称为所述第三spv标准名称候选集中除所述第四spv标准名称候选集之外的其他spv标准名称中的任一spv标准名称;
31、对所有所述第四spv标准名称候选集中的spv标准名称进行去重处理,得到第三候选集;所述第三候选集中包括去重处理后的所有所述第四spv标准名称候选集中的spv标准名称;
32、针对所述第三候选集中的每个spv标准名称,确定该spv标准名称与所述第二待匹配spv非标准名称构成目标第一匹配对;
33、响应于用户的标记操作,生成所述目标第一匹配对的第一标签。
34、本发明采用上述技术方案,具备如下有益效果:
35、一种用于资管行业spv穿透式监管的spv交易对手名称匹配方法,包括:先利用第一预设业务规则进行spv名称匹配,在第一次匹配失败时,再利用第一预设分类模型进行spv名称匹配,可见,本发明实现了自动化进行spv名称匹配,且第一预设业务规则具有匹配效率较高的优点,这使得本发明能够提高spv名称匹配效率和匹配结果准确性,以及,由于在第一次匹配失败时,会再利用第一预设分类模型进行spv名称匹配,使得本发明能够提高匹配结果的泛化性;此外,由于用于训练第一预设分类模型的训练样本为所有第一匹配对中除与第一预设业务规则对应的第一匹配对之外的其他第一匹配对,也即,利用第一预设业务规则将所有第一匹配对中明显匹配的样本排除掉了,使得本发明能够提高第一预设分类模型的学习效率。