一种基于深度学习科学计算应用的工作负载测试方法

文档序号:37793181发布日期:2024-04-30 17:03阅读:9来源:国知局
一种基于深度学习科学计算应用的工作负载测试方法

本发明涉及计算机应用,尤其涉及一种基于深度学习科学计算应用的工作负载测试方法。


背景技术:

1、随着深度学习在科学计算中的应用日益广泛,需要一种有效的测试方法来评估计算开销和准确性。

2、当前针对基于深度学习的科学应用性能与工作负载基础测试主要集中在单台计算机和小规模超算平台层面,而基于大型超算平台的多节点、大规模并行的全方位工作负载测试很少。同时,具备加速卡(gpu、dcu等)的异构超算可以作为人工智能平台为大规模科学计算提供算力支持,然而针对基于深度学习的科学计算应用在这些平台上的可扩展性以及不同平台的可复现性研究目前处于缺失状态。

3、除此之外,目前的测试方法还具有以下问题:1)基于深度学习的科学计算应用常常以混合精度的形式实现,目前的测试方法仅支持单精度,测试不全面;2)没有充分调用hpc环境下的多节点资源,对性能的评估不准确;3)随机性高,多次测试结果波动大;4)泛用性差,支持的应用范围小。

4、因此,本领域的技术人员致力于开发一种基于深度学习科学计算应用的工作负载测试方法,能够将基础的性能测试方法与基于ai的平台方案相结合,全面而综合地分析评估基于深度学习的科学计算应用的性能。


技术实现思路

1、有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何全面评估基于深度学习的科学计算应用的性能。

2、为实现上述目的,本发明提供了一种基于深度学习科学计算应用的工作负载测试方法,所述方法包括以下步骤:

3、步骤1、搭建测试环境;

4、步骤2、实施基础测试;

5、步骤3、实施ai平台测试。

6、进一步地,所述步骤1还包括:关闭针对cuda的不支持优化策略。

7、进一步地,所述步骤2还包括:

8、步骤2.1、单节点单卡性能测试;

9、步骤2.2、单节点多卡性能测试;

10、步骤2.3、多节点多卡性能测试;

11、步骤2.4、性能分析;

12、步骤2.5、多节点通信优化。

13、进一步地,所述步骤2.4还包括:采用性能分析工具分析性能瓶颈并采取相应优化策略,所述性能分析工具包括rocm profiler、hip profiler。

14、进一步地,所述步骤2.5还包括:多节点通信优化方法包括异步通信、数据传输压缩。

15、进一步地,所述步骤3还包括:

16、步骤3.1、扩展性测试;

17、步骤3.2、性能与开销平衡测试;

18、步骤3.3、混合精度测试;

19、步骤3.4、记录分析测试数据。

20、进一步地,所述步骤3.1还包括:

21、步骤3.1.1、收集和记录在当前超算平台上测试的相关性能数据;所述相关性能数据包括从资源管理器中获取的每个作业的信息;所述每个作业的信息包括队列、启动和完成时间、分区名称、用户帐户名称、使用的节点数量、启动命令以及每个作业执行期间性能参数;所述性能参数包括cpu负载、每秒缓存未命中次数、每秒发送和接收的字节数、gpu负载;

22、步骤3.1.2、分析和理解所述相关性能数据数据,建立性能预测模型;对于不同的应用程序,分析测试数据,了解不同性能指标在不同硬件资源配置下的变化趋势;基于所述相关性能数据数据建立一个扩展性的性能预测模型,用于预测更大规模超算平台的性能;

23、步骤3.1.3、通过使用深度神经网络和主成分分析(pca)机器学习模型在不进行耗时模拟的情况下准确预测个人计算机的性能;通过考虑计算机的内部组件特征,包括cpu类型、频率、核心数量、内存大小和速度,利用深度学习模型推断基准性能。

24、进一步地,所述步骤3.2还包括:针对深度学习模型训练,定义计算速度、吞吐量和加速比作为优化目标,通过基准测试、逐步调整参数以及综合测试,分析不同参数设置下的性能变化。

25、进一步地,所述测试方法还包括:选择预定义的深度学习架构,避免随机神经网络架构搜索。

26、进一步地,所述测试方法还包括:在测试过程中,使用确定性的随机数生成器以减少随机性。

27、与现有技术相比,本发明至少具有如下有益技术效果:

28、1、本发明将基础的性能测试方法与基于ai的平台测试方法相结合,不仅考虑了节点通信的分析,还扩展了对可扩展性的考量,为基于深度学习的科学计算应用的性能评估提供了更为全面的视角;

29、2、本发明能够在不同的平衡参数下进行性能评估,以找到最佳的性能与开销平衡点,从而进一步提高了应用在分布式计算环境下的性能表现;

30、3、本发明能够在混合精度上衡量效率和性能的平衡,具有较高的实用性和可行性,为应用部署时性能的提高提供有效的支持;

31、4、本发明能够提供稳定而准确的性能衡量,为不同应用场景下的深度学习性能评估提供更加可靠的数据支持;

32、5、本发明适用于多种基于深度学习的科学计算应用,包括但不限于sciann、cosmoflow和deepcam等典型代表案例,能够为不同领域的科学研究提供有力的支持。

33、以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。



技术特征:

1.一种基于深度学习科学计算应用的工作负载测试方法,其特征在于,所述方法包括以下步骤:

2.如权利要求1所述的基于深度学习科学计算应用的工作负载测试方法,其特征在于,所述步骤1还包括:关闭针对cuda的不支持优化策略。

3.如权利要求1所述的基于深度学习科学计算应用的工作负载测试方法,其特征在于,所述步骤2还包括:

4.如权利要求3所述的基于深度学习科学计算应用的工作负载测试方法,其特征在于,所述步骤2.4还包括:采用性能分析工具分析性能瓶颈并采取相应优化策略,所述性能分析工具包括rocm profiler、hip profiler。

5.如权利要求3所述的基于深度学习科学计算应用的工作负载测试方法,其特征在于,所述步骤2.5还包括:多节点通信优化方法包括异步通信、数据传输压缩。

6.如权利要求1所述的基于深度学习科学计算应用的工作负载测试方法,其特征在于,所述步骤3还包括:

7.如权利要求6所述的基于深度学习科学计算应用的工作负载测试方法,其特征在于,所述步骤3.1还包括:

8.如权利要求3所述的基于深度学习科学计算应用的工作负载测试方法,其特征在于,所述步骤3.2还包括:针对深度学习模型训练,定义计算速度、吞吐量和加速比作为优化目标,通过基准测试、逐步调整参数以及综合测试,分析不同参数设置下的性能变化。

9.如权利要求1所述的基于深度学习科学计算应用的工作负载测试方法,其特征在于,所述方法还包括:选择预定义的深度学习架构,避免随机神经网络架构搜索。

10.如权利要求1所述的基于深度学习科学计算应用的工作负载测试方法,其特征在于,所述方法还包括:在测试过程中,使用确定性的随机数生成器以减少随机性。


技术总结
本发明公开了一种基于深度学习科学计算应用的工作负载测试方法,涉及计算机应用技术领域,所述方法包括以下步骤:步骤1、搭建测试环境;步骤2、实施基础测试;步骤3、实施AI平台测试。本发明结合了基础测试方法和基于人工智能平台的测试方法,为基于深度学习的科学计算应用的性能评估提供了更为全面的视角。

技术研发人员:宋涛,颜培深,牛秣,吴晓宇,管海兵
受保护的技术使用者:上海交通大学
技术研发日:
技术公布日:2024/4/29
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1