图数据采样、图神经网络训练方法及系统、设备和介质与流程

文档序号:34603321发布日期:2023-06-29 01:54阅读:46来源:国知局
图数据采样、图神经网络训练方法及系统、设备和介质与流程

本申请实施例涉及数据处理,具体涉及一种图数据采样、图神经网络训练方法及系统、设备和介质。


背景技术:

1、图数据是一种描述实体和实体间关系的数据结构,可以在较多应用场景下建模数据关系。随着神经网络技术的发展,处理图数据的图神经网络(graph neural network,gnn)应运而生;图神经网络可以视为是处理图数据的神经网络模型,其广泛应用在数据推荐、安全风控、药物分子预测等应用场景下。

2、在训练图神经网络时,需要对作为训练数据的图数据进行采样,因此如何提升图数据的采样效率,进而提升图神经网络的训练效率,成为了本领域技术人员亟需解决的技术问题。


技术实现思路

1、有鉴于此,本申请实施例提供一种图数据采样、图神经网络训练方法及系统、设备和介质,以提升图数据的采样效率,进而提升图神经网络的训练效率。

2、为实现上述目的,本申请实施例提供如下技术方案。

3、第一方面,本申请实施例提供一种图数据采样方法,应用于第一节点设备,所述方法包括:

4、获取采样任务,并确定所述采样任务对应的多个待采样对象;

5、对于任一待采样对象,根据预设的分配关系,确定存放所述待采样对象的目标数据切片;所述分配关系至少记录有切分后的图数据所分配的数据切片,其中,切分后的图数据分配到多个数据切片进行存放,多个数据切片存储在多个节点设备;

6、如果所述目标数据切片存储于第一节点设备,使用第一节点设备的资源对所述待采样对象执行采样任务,以得到所述待采样对象的采样结果;

7、如果所述目标数据切片存储于第二节点设备,调用第二节点设备的资源对所述待采样对象执行采样任务,以得到所述待采样对象的采样结果;

8、根据各待采样对象的采样结果,得到所述采样任务的采样结果。

9、第二方面,本申请实施例提供一种图神经网络训练方法,包括:

10、获取图数据的采样结果;所述图数据的采样结果基于上述第一方面所述的图数据采样方法确定;

11、根据图数据的采样结果,训练图神经网络。

12、第三方面,本申请实施例提供一种图神经网络训练系统,包括:

13、存储层,所述存储层用于实现图数据的切分,以及数据切片在对应节点设备的分布式存储;

14、图算子层,所述图算子层提供cpu的算子和gpu的算子;

15、接口层和分布式采样层,所述接口层和分布式采样层至少提供采样器的接口,所述采样器被配置为执行如上述第一方面所述的图数据采样方法;

16、模型层,用于支持图神经网络的训练。

17、第四方面,本申请实施例提供一种节点设备,包括至少一个存储器和至少一个处理器,所述存储器存储一条或多条计算机可执行指令,所述处理器调用所述一条或多条计算机可执行指令,以执行如上述第一方面所述的图数据采样方法,或者如上述第二方面所述的图神经网络训练方法。

18、第五方面,本申请实施例提供一种存储介质,所述存储介质存储一条或多条计算机可执行指令,所述一条或多条计算机可执行指令被执行时实现如上述第一方面所述的图数据采样方法,或者如上述第二方面所述的图神经网络训练方法。

19、第六方面,本申请实施例提供一种计算机程序,所述计算机程序被执行时实现如上述第一方面所述的图数据采样方法,或者如上述第二方面所述的图神经网络训练方法。

20、本申请实施例提供的图数据采样方法可在对图数据进行切分和分布式存储的基础上进行,切分后的图数据可分配到多个数据切片进行存放,并且多个数据切片存储在多个节点设备,切分后的图数据所分配的数据切片可通过分配关系进行记录。从而,在对图数据进行采样时,第一节点设备可获取采样任务,并确定所述采样任务对应的多个待采样对象;对于任一待采样对象,第一节点设备可根据预设的分配关系,确定存放待采样对象的目标数据切片;如果目标数据切片存储于第一节点设备,则本申请实施例可使用第一节点设备的资源对待采样对象执行采样任务,以得到待采样对象的采样结果;如果目标数据切片存储于第二节点设备,则本申请实施例可调用第二节点设备的资源对待采样对象执行采样任务,以得到待采样对象的采样结果;进而,第一节点设备可根据各待采样对象的采样结果,得到所述采样任务的采样结果。

21、可见,在将切分后的图数据分配给多个数据切片,并且多个数据切片存储在多个节点设备后,节点设备在处理采样任务时,只对采样任务中本地数据切片所存放的待采样对象执行采样任务;对于非本地数据切片存放的待采样对象,节点设备通过调用非本地数据切片对应的其他节点设备来执行采样任务,因此采样任务对应的多个待采样对象可以在多个节点设备异步的并行执行采样任务,从而高效利用多个节点设备的资源来执行多个待采样对象的采样任务,实现多个节点设备之间的资源合理分配和负载均衡,提升图数据的采样效率。可见,本申请实施例提供的图数据采样方法可以显著提升图数据的采样效率,进而为提升图神经网络的训练效率提供基础。



技术特征:

1.一种图数据采样方法,其中,应用于第一节点设备,所述方法包括:

2.根据权利要求1所述的方法,其中,所述待采样对象为待采样节点和待采样边中的任一项;所述采样任务为子图采样任务和子图特征采样任务中的任一项,其中,所述子图采样任务用于采样所述多个待采样对象对应的子图,所述子图特征采样任务用于采样所述子图中各待采样对象的特征。

3.根据权利要求2所述的方法,其中,所述待采样对象为待采样节点,所述采样任务为子图采样任务;所述如果所述目标数据切片存储于第一节点设备,使用第一节点设备的资源对所述待采样对象执行采样任务,以得到所述待采样对象的采样结果包括:

4.根据权利要求2所述的方法,其中,所述采样任务为子图特征采样任务;所述采样任务对应的多个待采样对象为子图中的各待采样节点;所述如果所述目标数据切片存储于第一节点设备,使用第一节点设备的资源对所述待采样对象执行采样任务,以得到所述待采样对象的采样结果包括:

5.根据权利要求1所述的方法,其中,还包括:

6.根据权利要求1-5任一项所述的方法,其中,一个节点设备运行至少一个采样器,多个采样器分布于多个节点设备;节点设备中运行的采样器用于执行所述图数据采样方法。

7.根据权利要求3或4所述的方法,其中,所述分配关系至少记录有切分后的图数据所分配的数据切片包括:所述分配关系记录有图数据的节点、边以及特征所分配的数据切片;

8.根据权利要求7所述的方法,其中,所述图数据中的节点根据节点标识以及数据切片的数量,确定分配的数据切片;所述图数据中的边存放在边的源节点所位于的数据切片;所述图数据中的特征,根据特征关联的节点的入度或者被采样概率,确定热数据特征和冷数据特征;其中,热数据特征所关联的节点的入度或者被采样概率,高于冷数据特征所关联的节点的入度或者被采样概率;对于图数据整体,图数据的全局高热数据特征为:入度或者被采样概率的排序处于排序预设值之前的节点所关联的特征。

9.一种图神经网络训练方法,其中,包括:

10.一种图神经网络训练系统,其中,包括:

11.根据权利要求10所述的图神经网络训练系统,其中,一个节点设备的一个进程执行图数据采样和图神经网络训练,并且一个节点设备通过多个进程并行执行图数据采样和图神经网络训练,多个节点设备运行的进程分布式的执行图数据采样和图神经网络训练;

12.根据权利要求10所述的图神经网络训练系统,其中,一个服务节点设备运行多个采样进程并行执行图数据采样,多个服务节点设备运行的采样进程分布式的执行图数据采样;一个客户节点设备运行多个训练进程并行执行图神经网络的训练,多个客户节点设备运行的训练进程分布式的执行图神经网络的训练;

13.一种节点设备,其中,包括至少一个存储器和至少一个处理器,所述存储器存储一条或多条计算机可执行指令,所述处理器调用所述一条或多条计算机可执行指令,以执行如权利要求1-8任一项所述的图数据采样方法,或者如权利要求9所述的图神经网络训练方法。

14.一种存储介质,其中,所述存储介质存储一条或多条计算机可执行指令,所述一条或多条计算机可执行指令被执行时实现如权利要求1-8任一项所述的图数据采样方法,或者如权利要求9所述的图神经网络训练方法。


技术总结
本申请实施例提供一种图数据采样、图神经网络训练方法及系统、设备和介质,其中图数据采样方法应用于第一节点设备,包括:获取采样任务,并确定采样任务对应的多个待采样对象;对于任一待采样对象,根据预设的分配关系,确定存放待采样对象的目标数据切片;如果目标数据切片存储于第一节点设备,使用第一节点设备的资源对待采样对象执行采样任务,以得到待采样对象的采样结果;如果目标数据切片存储于第二节点设备,调用第二节点设备的资源对待采样对象执行采样任务,以得到待采样对象的采样结果;根据各待采样对象的采样结果,得到采样任务的采样结果。本申请实施例可以提升图数据的采样效率,进而提升图神经网络的训练效率。

技术研发人员:艾宝乐,张子超,苏立,胡树弦,沈雯婷,李永,于文渊
受保护的技术使用者:阿里巴巴(中国)有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1