本发明属于服务器监控技术领域,特别是涉及一种远程监控异构加速卡的方法。
背景技术:
在服务器领域,在服务器上部署了越来越多异构加速卡,而对异构加速卡的检测、维护和故障排除需要耗费大量人力物力。目前服务器bmc通过ipmi协议可以远程检测和管理服务器,比如服务器cpu的温度、电压和风扇转速等参数,但对fpga异构加速卡并没有支持。
技术实现要素:
为解决上述问题,本发明提供了一种远程监控异构加速卡的方法,能够对fpga的异构加速卡进行有效管理,减少故障的发生。
本发明提供的一种远程监控异构加速卡的方法,包括:
利用bmc模块与fpga进行通信,读取异构加速卡的运行参数;
保存所述运行参数;
将所述运行参数与预设阈值进行比较,当超出预设阈值时进行报警。
优选的,在上述远程监控异构加速卡的方法中,
所述读取异构加速卡的运行参数包括:
读取所述异构加速卡的温度参数、电压参数和电流参数。
优选的,在上述远程监控异构加速卡的方法中,
所述利用bmc模块与fpga进行通信,读取异构加速卡的运行参数之前,还包括:
利用gpio接口将所述异构加速卡连接至温度传感器、电压传感器和电流传感器。
优选的,在上述远程监控异构加速卡的方法中,
所述利用gpio接口将所述异构加速卡连接至温度传感器、电压传感器和电流传感器之后,还包括:
编写读取所述异构加速卡的运行参数的逻辑代码;
将所述逻辑代码封装并固化到与cpld连接的闪存中;
将服务器上电,进行bios初始化,通过所述cpld将所述闪存中的逻辑代码烧写到所述fpga中。
优选的,在上述远程监控异构加速卡的方法中,
所述利用bmc模块与fpga进行通信为:
利用所述bmc模块通过i2c总线与所述fpga进行通信。
优选的,在上述远程监控异构加速卡的方法中,
所述保存所述运行参数之后,还包括:
将所述运行参数显示在所述bmc的界面上。
通过上述描述可知,本发明提供的上述远程监控异构加速卡的方法,由于包括利用bmc模块与fpga进行通信,读取异构加速卡的运行参数;保存所述运行参数;将所述运行参数与预设阈值进行比较,当超出预设阈值时进行报警,因此能够对fpga的异构加速卡进行有效管理,减少故障的发生。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的第一种远程监控异构加速卡的方法的示意图。
具体实施方式
本发明的核心思想在于提供一种远程监控异构加速卡的方法,能够对fpga的异构加速卡进行有效管理,减少故障的发生。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供的第一种远程监控异构加速卡的方法如图1所示,图1为本申请实施例提供的第一种远程监控异构加速卡的方法的示意图,该方法包括如下步骤:
s1:利用bmc模块与fpga进行通信,读取异构加速卡的运行参数;
其中,bmc模块即baseboardmanagementcontroller,也就是基板管理控制器,这是现有的一个基本的管理模块,利用其与fpga进行通信,就能够读取运行参数,以此作为后续流程的依据。
s2:保存所述运行参数;
需要说明的是,可以但不限于将这些运行参数保存在sdr模块(传感器数据模块)中。
s3:将所述运行参数与预设阈值进行比较,当超出预设阈值时进行报警。
需要说明的是,这里提到的预设阈值可以根据每一个异构加速卡的情况进行对应的设置,当超过某个值时,就可能会造成异构加速卡的潜在损伤,因此需要进行报警,提醒工作人员提前处理,防患于未然,从而减少异构加速卡的故障的发生。
通过上述描述可知,本申请实施例提供的第一种远程监控异构加速卡的方法,由于包括利用bmc模块与fpga进行通信,读取异构加速卡的运行参数;保存所述运行参数;将所述运行参数与预设阈值进行比较,当超出预设阈值时进行报警,因此能够对fpga的异构加速卡进行有效管理,减少故障的发生。
本申请实施例提供的第二种远程监控异构加速卡的方法,是在上述第一种远程监控异构加速卡的方法的基础上,还包括如下技术特征:
所述读取异构加速卡的运行参数包括:
读取所述异构加速卡的温度参数、电压参数和电流参数。
需要说明的是,可以实时读取异构加速卡的这些种类的参数,了解其实时运行状态,而且可以根据具体情况选择读取的参数,例如还可以读取风扇转速参数,此处并不限制。
本申请实施例提供的第三种远程监控异构加速卡的方法,是在上述第二种远程监控异构加速卡的方法的基础上,还包括如下技术特征:
所述利用bmc模块与fpga进行通信,读取异构加速卡的运行参数之前,还包括:
利用gpio接口将所述异构加速卡连接至温度传感器、电压传感器和电流传感器。
需要说明的是,这里所述的gpio也就是generalpurposeinputoutput(通用输入/输出),这种接口有较强的适应性,适用于多种参数的采集,能够便于管理。
本申请实施例提供的第四种远程监控异构加速卡的方法,是在上述第三种远程监控异构加速卡的方法的基础上,还包括如下技术特征:
所述利用gpio接口将所述异构加速卡连接至温度传感器、电压传感器和电流传感器之后,还包括:
编写读取所述异构加速卡的运行参数的逻辑代码;
将所述逻辑代码封装并固化到与cpld连接的闪存中;
将服务器上电,进行bios初始化,通过所述cpld将所述闪存中的逻辑代码烧写到所述fpga中。
具体的,可以通过fpga编写fpga逻辑代码来读取传感器的值,封装一个i2cip,将i2cip和相关逻辑代码固化到与cpld连接的flash中,服务器上电在bios初始化的时候,通过cpld将flash中的相关逻辑代码烧写到fpga中。
本申请实施例提供的第五种远程监控异构加速卡的方法,是在上述第四种远程监控异构加速卡的方法的基础上,还包括如下技术特征:
所述利用bmc模块与fpga进行通信为:
利用所述bmc模块通过i2c总线与所述fpga进行通信。
需要说明的是,其中的i2c总线即inter-integratedcircuit,除此之外,还可以采用ipmb总线(intelligentplatformmanagementbus,智能平台管理总线)进行通信,此处并不限制。
本申请实施例提供的第六种远程监控异构加速卡的方法,是在上述第一种至第五种远程监控异构加速卡的方法中任一种的基础上,还包括如下技术特征:
所述保存所述运行参数之后,还包括:
将所述运行参数显示在所述bmc的界面上,这样就便于工作人员实时的查询异构加速卡的运行状态,当观察到异常现象时,可以及时处理,避免问题更加严重。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。