本发明实施例涉及图像处理技术,尤其涉及一种图像识别分布式训练的监控方法、装置、设备及介质。
背景技术:
1、由于加速卡的存储和算力受限,训练图像识别大模型时需要采用多张加速卡进行长时间的分布式训练。但在分布式训练模型过程中,任何因素的故障或者异常都会导致分布式训练的失败或中断。
2、但是针对目前的图像识别分布式训练过程,故障和异常通常难以排查定位从而影响训练效率,而分布式训练又需要训练较长时间才能收敛达到业务使用所需要的精度,如果无法完成长时间的训练会影响实际生产使用,也会导致大量的算力浪费在失败的训练中。
技术实现思路
1、本发明实施例提供一种图像识别分布式训练的监控方法、装置、设备及介质,以提高图像识别分布式训练过程的稳定性和可靠性。
2、第一方面,本发明实施例提供了一种图像识别分布式训练的监控方法,包括:采集每次图像识别分布式训练的时序数据;
3、对所述时序数据进行时序特征提取获取初始样本数据,其中,所述初始样本数据中包含多个时间步,并且各所述时间步中包含类型相同的时序特征;
4、根据所述初始样本数据获取训练样本数据,其中,所述训练样本数据中标注有每次图像识别分布式训练的训练结果;
5、根据所述训练样本数据构建图像识别分布式训练的监控模型,并采用所述监控模型对当前图像识别分布式训练过程进行监控。
6、第二方面,本发明实施例还提供了一种图像识别分布式训练的监控装置,包括:时序数据采集模块,用于采集每次图像识别分布式训练的时序数据;
7、时序特征提取模块,用于对所述时序数据进行时序特征提取获取初始样本数据,其中,所述初始样本数据中包含多个时间步,并且各所述时间步中包含类型相同的时序特征;
8、训练样本数据获取模块,用于根据所述初始样本数据获取训练样本数据,其中,所述训练样本数据中标注有每次图像识别分布式训练的训练结果;
9、图像识别分布式训练监控模块,用于根据所述训练样本数据构建图像识别分布式训练的监控模型,并采用所述监控模型对当前图像识别分布式训练过程进行监控。
10、第四方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如本发明任一实施例所述的方法。
11、第五方面,本发明实施例还提供了一种计算机可执行指令的存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本发明任一实施例所述的方法。
12、本发明通过对采集图像识别分布式训练过程中的样本建立图像识别分布式训练的监控模型,并采用监控模型对当前图像识别分布式训练过程进行监控,预测当前图像识别分布式训练是否能顺利完成,在预测失败的情况下及时终止训练,根据所获取的故障类型及时进行调整,以提高图像识别分布式训练效率和训练的稳定性、可靠性,避免大量算力浪费在失败的训练中。
1.一种图像识别分布式训练的监控方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述采集每次图像识别分布式训练的时序数据,包括:
3.根据权利要求2所述的方法,其特征在于,所述硬件数据包括加速卡存储占用量、加速卡通信吞吐量、cpu占用量、硬盘占用量和网卡吞吐量;
4.根据权利要求2所述的方法,其特征在于,所述对所述时序数据进行时序特征提取获取初始样本数据,包括:
5.根据权利要求4所述的方法,其特征在于,所述硬件时序特征包括加速卡存储占用率、加速卡通信吞吐率、加速卡异常监控、cpu占用率、硬盘占用率和网卡吞吐率;
6.根据权利要求1所述的方法,其特征在于,所述根据所述初始样本数据获取训练样本数据,包括:
7.根据权利要求1所述的方法,其特征在于,所述根据所述训练样本数据构建图像识别分布式训练的监控模型,并采用所述监控模型对当前图像识别分布式训练过程进行监控,包括:
8.一种图像识别分布式训练的监控装置,其特征在于,包括:
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的方法。
10.一种计算机可执行指令的存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的方法。