一种优化GPU服务器的性能的方法及装置与流程

文档序号：18213556发布日期：2019-07-19 22:28阅读：240来源：国知局

本发明涉及gpu服务器领域，更具体地，特别是指一种优化gpu服务器的性能的方法及装置。

背景技术：

近年来，ai技术在图像识别、自然语言处理、推荐系统等领域取得了巨大突破，为商业领域落地提供了无限可能。ai模型首先需要进行大量的数据训练，才能够达到较高的精度，从而在实际生产中发挥作用。ai技术的突破，除了算法本身之外，最重要的原因在于计算力的快速增长，gpu加速卡起到了至关重要的作用。

深度学习框架，常用来帮助开发者快速实现ai模型的开发、训练，同时，也可以在生产环境中部署，用于推理作业。caffe，全称convolutionalarchitectureforfastfeatureembedding，是一种常用的深度学习框架。caffe可以运行在cpu或者gpu之上，在模型训练阶段，gpu是当前性能最强大的计算部件。如果要想gpu发挥最大的计算性能，需要cpu、内存系统、pcie系统、散热系统以及其它io系统的配合，保证gpu处于最佳的工作状态。

技术实现要素：

有鉴于此，本发明实施例的目的在于提出一种优化gpu服务器的性能的方法及装置，其能够实现对服务器的各个系统的状态监测，发现并消除瓶颈，提高gpu的计算性能。

基于上述目的，本发明实施例的一方面提供了一种优化gpu服务器的性能的方法，包括如下步骤：在gpu服务器上构建深度学习框架并利用深度学习框架进行训练，得到深度学习模型；监控训练过程中gpu服务器的各项性能数据；根据监控得到的各项性能数据，判断gpu服务器运行是否异常以及gpu利用率是否小于第一预定值；响应于gpu服务器运行异常，更改gpu服务器或深度学习模型的配置；以及响应于gpu利用率小于第一预定值，增大传输数据块的大小和增加数据传输线程数。

在一些实施方式中，监控训练过程中gpu服务器的各项性能数据包括：监控cpu和gpu的温度和利用率、磁盘输入输出情况、内存缓存的大小。

在一些实施方式中，判断gpu服务器运行是否异常包括：检测cpu或gpu温度是否大于第二预定值。

在一些实施方式中，响应于gpu服务器运行异常，更改gpu服务器或深度学习模型的配置包括：响应于检测到cpu或gpu温度大于第二预定值时，增大风扇的转速。

在一些实施方式中，判断gpu服务器运行是否异常包括：检测深度学习框架的测试数据是否全部缓存到内存中。

在一些实施方式中，响应于gpu服务器运行异常，更改gpu服务器或深度学习模型的配置包括：响应于检测到深度学习框架的测试数据未完全缓存到内存中，延长训练时间。

在一些实施方式中，判断gpu服务器运行是否异常包括：检测cpu利用率是否高于第三预定值。

在一些实施方式中，响应于gpu服务器运行异常，更改gpu服务器或深度学习模型的配置包括：响应于检测到cpu利用率高于第三预定值，更换cpu。

本发明实施例的另一方面，还提供了一种计算机设备，包括：至少一个处理器；以及存储器，存储器存储有可在处理器上运行的计算机指令，指令由处理器执行以实现如下步骤：在gpu服务器上构建深度学习框架并利用深度学习框架进行训练；监控训练过程中gpu服务器的各项性能数据；根据监控得到的各项性能数据，判断gpu服务器运行是否异常以及gpu利用率是否小于第一预定值；响应于gpu服务器运行异常，更改gpu服务器或深度学习模型的配置；以及响应于gpu利用率小于第一预定值，增大传输数据块的大小和增加数据传输线程数。

本发明实施例的再一方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有被处理器执行时执行如上方法的计算机程序。

本发明具有以下有益技术效果：能够实现对服务器的各个系统的状态监测，发现并消除瓶颈，提高gpu的计算性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明提供的优化gpu服务器的性能的方法的实施例的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

基于上述目的，本发明实施例的第一个方面，提出了一种优化gpu服务器的性能的方法的实施例。图1示出的是本发明提供的优化gpu服务器的性能的方法的实施例的流程示意图。如图1所示，本发明实施例包括如下步骤：

s1、在gpu服务器上构建深度学习框架并利用深度学习框架进行训练，得到深度学习模型；

s2、监控训练过程中gpu服务器的各项性能数据；

s3、根据监控得到的各项性能数据，判断gpu服务器运行是否异常以及gpu利用率是否小于第一预定值；

s4、响应于gpu服务器运行异常，更改gpu服务器或深度学习模型的配置；以及响应于gpu利用率小于第一预定值，增大传输数据块的大小和增加数据传输线程数。

在gpu服务器上运行深度学习框架，本实施例中以caffe为例进行说明，在其他的实施例中也可以采用其他的深度学习框架训练gpu服务器。

监控训练过程中gpu服务器的各项性能数据。性能数据包括：cpu和gpu的温度、利用率和运行频率；训练数据内存缓存(cache)情况；磁盘io情况；以及内存实时带宽。

在本实施例中，可以使用turbostat工具监控cpu核心的利用率以及运行频率，使用ipmi工具获取cpu的温度；使用gpu厂商提供的管理工具，监控gpu的利用率和温度；使用free指令查看内存使用状况，观察cache部分的使用情况；使用iostat指令查看实时磁盘io，观察是否存在将磁盘数据读入内存的过程；利用intel-cmt-cat工具，对内存带宽进行实时观察。

响应于gpu服务器运行异常，更改所述gpu服务器或深度学习模型的配置包括：响应于检测到cpu或gpu温度大于第二预定值，增大风扇的转速。根据cpu和gpu的温度监控数据，判断散热系统是否满足散热要求。例如，当cpu或gpu的温度超过第二预定值时，可以增大风扇的转速，提高散热能力，保证cpu和gpu正常工作。第二预定值可以人为设定，例如可以是80摄氏度，当然也可以根据实际情况设定为其他的值。

响应于gpu服务器运行异常，更改所述gpu服务器或深度学习模型的配置包括：响应于深度学习框架的测试数据未完全缓存到内存中，延长训练时间。深度学习框架第一次启动时，根据磁盘输入输出(io)情况和内存缓存的大小，以及训练数据集的大小，判断测试数据是否都已经缓存到内存中。由于cpu从内存中获取数据的速度远远高于磁盘，因此，缓存训练数据能够极大的提高cpu的运行性能，进而提高gpu的性能。当磁盘io停止、cache大小停止增长并且大于训练数据，则证明数据已缓存在内存中。如果数据没有完全缓存在内存中，则延长训练的时间。

响应于gpu服务器运行异常，更改所述gpu服务器或深度学习模型的配置包括：响应于cpu利用率高于第三预定值，更换所述cpu。根据cpu核心利用率情况，判断cpu规格是否合理。如果cpu核心利用率高于第三预定值，则证明cpu存在瓶颈，需更换更高规格的产品。第三预定值也可以人为设定，例如可以是90％，当然，在其他的实施例中也可以设置为其他的数值。

根据gpu利用率情况判断gpu是否存在瓶颈。如果gpu利用率不稳定，跳跃较大且经常达不到饱和状态，也即是gpu利用率小于第一预定值，证明gpu存在瓶颈，训练数据无法及时送达。此时可以通过采取增大数据的传输速度来优化gpu性能，例如，可以适当增大传输数据块(batchsize)的大小或增加数据传输线程数的方式，从而减少gpu空载的几率，提升整体性能。第一预定值也可以人为设定，例如，第一预定值可以是95％。

需要特别指出的是，上述优化gpu服务器的性能的方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于优化gpu服务器的性能的方法也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在实施例之上。

基于上述目的，本发明实施例的第二个方面，提出了一种计算机设备，包括至少一个处理器和存储器。所述存储器存储有可在所述处理器上运行的计算机指令，所述指令由所述处理器执行以实现如下步骤：在gpu服务器上构建深度学习框架并利用所述深度学习框架进行训练；监控训练过程中gpu服务器的各项性能数据；根据监控得到的各项性能数据，判断gpu服务器运行是否异常以及gpu利用率是否小于第一预定值；响应于gpu服务器运行异常，更改所述gpu服务器或深度学习模型的配置；以及响应于gpu利用率小于第一预定值，增大传输数据块的大小和增加数据传输线程数。

本发明还提供了一种优化gpu服务器的性能的计算机可读存储介质，计算机可读存储介质存储有被处理器执行时执行如上所述方法的计算机程序。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，优化gpu服务器的性能的方法的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，程序的存储介质可为磁碟、光盘、只读存储记忆体(rom)或随机存储记忆体(ram)等。上述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

此外，根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时，执行本发明实施例公开的方法中限定的上述功能。

此外，上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

此外，应该明白的是，本文的计算机可读存储介质(例如，存储器)可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的，非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦写可编程rom(eeprom)或快闪存储器。易失性存储器可以包括随机存取存储器(ram)，该ram可以充当外部高速缓存存储器。作为例子而非限制性的，ram可以以多种形式获得，比如同步ram(dram)、动态ram(dram)、同步dram(sdram)、双数据速率sdram(ddrsdram)、增强sdram(esdram)、同步链路dram(sldram)、以及直接rambusram(drram)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里功能的下列部件来实现或执行：通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器，但是可替换地，处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合，例如，dsp和微处理器的组合、多个微处理器、一个或多个微处理器结合dsp和/或任何其它这种配置。

结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在ram存储器、快闪存储器、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动盘、cd-rom、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器，使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中，存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在asic中。asic可以驻留在用户终端中。在一个替换方案中，处理器和存储介质可以作为分立组件驻留在用户终端中。

在一个或多个示例性设计中，功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现，则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质，该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的，该计算机可读介质可以包括ram、rom、eeprom、cd-rom或其它光盘存储设备、磁盘存储设备或其它磁性存储设备，或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外，任何连接都可以适当地称为计算机可读介质。例如，如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(dsl)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件，则上述同轴线缆、光纤线缆、双绞线、dsl或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的，磁盘和光盘包括压缩盘(cd)、激光盘、光盘、数字多功能盘(dvd)、软盘、蓝光盘，其中磁盘通常磁性地再现数据，而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李磊
技术所有人：苏州浪潮智能科技有限公司
我是此专利的发明人

上一篇：密钥处理方法、控制平面节点、用户平面节点和用户设备与流程
上一篇：一种防静电PE袋的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。