本公开涉及计算机,具体涉及大数据、金融科技,更具体地涉及一种数据表图谱聚合方法、装置、设备、介质和程序产品。
背景技术:
1、在企业的业务处理中,会涉及到大量的数据表,这些都属于企业的数据资产。企业的数据资产种类和数量非常庞大,需要大量的人工维护,为了实现数据表的有效管理,可以基于数据表的信息构建数据表图谱。
2、在实现本公开构思的过程中,发明人发现相关技术中至少存在如下问题,在利用数据表图谱进行数据查询的过程中,通常需要根据查询字段进行多个表的查询跳转,才能得到用户所需数据,如此,降低了数据查询的效率,无法快速有效地进行数据的定位搜索。
技术实现思路
1、鉴于上述问题,本公开提供了一种数据表图谱聚合方法、装置、设备、介质和程序产品。
2、本公开的一个方面,提供了一种数据表图谱聚合方法,包括:
3、从图数据库中读取待处理的数据表图谱,数据表图谱包括与m个业务数据表关联的m个表节点,m个表节点中存在调用关系的表节点之间通过有权边进行关联,表节点的属性包括表特征;
4、从数据表图谱中读取当前待聚合的目标表节点的第一表特征、m个表节点中候选被聚合的n个候选表节点各自的第二表特征、候选表节点各自所关联的l条候选有权边各自的边查询权重;
5、将第一表特征、n个第二表特征、l条候选有权边各自的边查询权重,输入智能体模型,输出聚合结果,聚合结果包括n个候选表节点中拟被聚合的优选表节点。
6、根据本公开的实施例,数据表图谱聚合方法,还包括:
7、根据聚合结果,将优选表节点对应的优选业务数据表,与目标表节点对应的目标业务数据表进行表合并,生成聚合表;
8、基于聚合表在数据表图谱中新增聚合表节点。
9、根据本公开的实施例,将第一表特征、n个第二表特征、l条候选有权边各自的边查询权重,输入智能体模型,输出聚合结果包括:
10、将第一表特征、n个第二表特征、l条候选有权边各自的边查询权重,输入智能体模型,输出n个候选表节点各自对应的奖励值;
11、根据n个候选表节点各自对应的奖励值,从n个候选表节点中确定优选表节点。
12、根据本公开的实施例,表节点的表特征包括以下至少之一:表字段的完整性、表数据的一致性、表规则的数量、表的整体质量评分、是否包含通用表字段、通用表字段的重要等级、表字段值的缺失率、表的存储位置、表的存储空间。
13、根据本公开的实施例,表节点的表特征包括正向特征和负向特征,其中,正向特征可以为该业务数据表在数据表图谱中的展示和查询带来正面影响,负向特征可以为该业务数据表在数据表图谱中的展示和查询带来负面影响。
14、根据本公开的实施例,正向特征包括以下至少之一:表字段的完整性、表数据的一致性、表规则的数量、表的整体质量评分、是否包含通用表字段、通用表字段的重要等级;
15、负向特征包括以下至少之一:表字段值的缺失率、表的存储空间。
16、根据本公开的实施例,将第一表特征、n个第二表特征、l条候选有权边各自的边查询权重,输入智能体模型,输出n个候选表节点各自对应的奖励值包括:
17、根据l条候选有权边各自的边查询权重,确定候选表节点的节点权重;
18、根据目标表节点的第一表特征中的负向特征,以及n个候选表节点各自的第二表特征中的负向特征,确定将目标表节点和候选表节点聚合后带来的负向影响值;
19、根据n个候选表节点各自的第二表特征中的正向特征,确定候选表节点的正向影响值;
20、根据节点权重、负面影响值、正向影响值,确定n个候选表节点各自对应的奖励值。
21、根据本公开的实施例,候选表节点各自所关联的l条候选有权边包括:与候选表节点直接连接的多条第一候选有权边,通过预设次数的跳转可间接连接至候选表节点的多条第二候选有权边;
22、根据l条候选有权边各自的边查询权重,确定候选表节点的节点权重包括:
23、根据多条第一候选有权边和多条第二候选有权边各自的边查询权重,确定候选表节点的节点权重。
24、根据本公开的实施例,有权边的边查询权重是基于调用次数生成的。
25、根据本公开的实施例,智能体模型是利用强化学习算法训练得到的。
26、本公开的另一个方面提供了一种数据表图谱聚合装置,包括:
27、第一读取模块,用于从图数据库中读取待处理的数据表图谱,数据表图谱包括与m个业务数据表关联的m个表节点,m个表节点中存在调用关系的表节点之间通过有权边进行关联,表节点的属性包括表特征;
28、第二读取模块,用于从数据表图谱中读取当前待聚合的目标表节点的第一表特征、m个表节点中候选被聚合的n个候选表节点各自的第二表特征、候选表节点各自所关联的l条候选有权边各自的边查询权重;以及
29、输出模块,用于将第一表特征、n个第二表特征、l条候选有权边各自的边查询权重,输入智能体模型,输出聚合结果,聚合结果包括n个候选表节点中拟被聚合的优选表节点。
30、本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个计算机程序,其中,上述一个或多个处理器执行上述一个或多个计算机程序以实现上述方法的步骤。
31、本公开的第四方面还提供了一种计算机可读存储介质,其上存储有计算机程序或指令,上述计算机程序或指令被处理器执行时实现上述方法的步骤。
32、本公开的第五方面还提供了一种计算机程序产品,包括计算机程序或指令,上述计算机程序或指令被处理器执行时实现上述方法的步骤。
33、根据本公开的实施例,通过从提前构建得到的数据表图谱中读取表特征和边查询权重,以获得各个表特征和与其他表之间的调用关系及边的查询权重,进一步地,基于表特征和边的查询权重,通过预定智能体模型识别优选表节点,以此确定了多个候选表节点中与目标表节点关联性最强的表节点,初步将与目标表节点关联性最强的表节点视为可以与目标表节点聚合的表节点,为后续的聚合处理提供了数据基础。同时,利用智能体模型,基于边权重、表节点特征,将相关表进行聚合,如此,聚合后的表具有较高的查询权重,在特征上具有较强的关联性,基于聚合后的节点进行表数据查询,可较大程度减少相关表之间的表跳转操作,较大程度提高数据查询效率。
1.一种数据表图谱聚合方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,还包括:
3.根据权利要求1所述的方法,其特征在于,将所述第一表特征、n个所述第二表特征、l条候选有权边各自的边查询权重,输入智能体模型,输出聚合结果包括:
4.根据权利要求1-3任一项所述的方法,其特征在于:
5.根据权利要求1-3任一项所述的方法,其特征在于:
6.根据权利要求5所述的方法,其特征在于:
7.根据权利要求5所述的方法,其特征在于,将所述第一表特征、n个所述第二表特征、l条候选有权边各自的边查询权重,输入智能体模型,输出所述n个候选表节点各自对应的奖励值包括:
8.根据权利要求7所述的方法,其特征在于:
9.根据权利要求1所述的方法,其特征在于:
10.根据权利要求1所述的方法,其特征在于:
11.一种数据表图谱聚合装置,其特征在于,所述装置包括:
12.一种电子设备,包括:
13.一种计算机可读存储介质,其上存储有计算机程序或指令,其特征在于,该计算机程序或指令被处理器执行时实现根据权利要求1~10中任一项所述方法的步骤。
14.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现根据权利要求1~10中任一项所述方法的步骤。