一种提高系统可靠性的方法及设备的制作方法
【专利摘要】本发明公开了一种提高系统可靠性的方法及设备,该方法包括:获取待监测芯片的结温,并判断该待监测芯片的结温是否高于告警门限上限,或低于告警门限下限;当待监测芯片的结温高于门限上限时,降低该待监测芯片的性能或/和容量规格;当待监测芯片的结温低于告警门限下限时,提高该待监测芯片的性能或/和容量规格。在本发明中,实现了保证设备能够正常工作的前提下,降低散热和制冷成本。
【专利说明】一种提高系统可靠性的方法及设备
【技术领域】
[0001]本发明涉及通信【技术领域】,尤其涉及一种提高系统可靠性的方法及设备。
【背景技术】
[0002]结温(Junction Temperature)是电子设备中半导体芯片(晶圆、裸片)的温度,它通常高于外壳温度和环境温度。最高结温通常会在半导体芯片手册的数据表中给出,如果芯片工作结温超过最高结温,芯片中的晶体管就可能会被破坏,芯片也随机失效,所以应采取各种措施降低结温或是让芯片产生的热量尽快散发至环境中。
[0003]为了提高电子设备的可靠性,半导体芯片制造商和网络设备制造商在这方面做了很多工作。对于半导体制造商,一方面尽量提高半导体芯片的最高结温,这样即使环境温度很高,或者芯片的功耗很大,也能保证芯片可靠工作;另外一方面尽量减少元器件本身的热阻和控制最大额定输出功率。对于网络设备制造商,提供良好的二次散热,如通过更改散热器的材质(铝、铜和热管等)提高散热效率,增加散热器散热面积提高散热效率、减少元器件与散热器安装界面之间的热阻(增加两物件接触面的压力,使物体交界面的突出部分变形,从而减少缝隙增大接触面;在两物体交界面处涂上有较高导热能力的胶状物体-导热脂)、风冷散热代替自动散热,结构设计上增加导风板、导风格栅和扰流件等辅助措施,并加大进出风口,提高散热效率。
[0004]伴随着移动互联网的发展,全球互联网用户数量和网站站点数量急剧增长,以及语音视频多媒体应用的急剧膨胀,带宽的需求也随机迅速增加,对网络基础设备的路由器、交换机的性能提出更高的要求。为应对这种情况,芯片制造商提供了最新工艺、更强性能和更高功耗的芯片。对于某个特定的芯片,在最大功耗、最高结温和芯片结壳热阻固定的情况下,工业界传统的做法是,使用更优质的散热器、继续增大散热器散热的面积、通过高强度的风扇制冷。然而,随着芯片功耗的进一步提升,工业界传统的做法导致散热的代价越来越高,如PCB(Printed circuit board,印刷电路板)布局紧张、机箱尺寸变大、整机噪声超标、成本急剧上升等等。实际上,工业界传统做法存在严重的过设计,原因如下:
[0005]电信各类机房环境温度要求标准:A类机房正常温度范围10-25度,可接受温度范围10-26度出类机房正常温度10-28度,可接受温度范围5-30度;(:类机房正常温度10-30度,可接受温度范围5-30度;D类机房正常温度范围5-33度;D类机房正常温度范围5_33度,可接受温度范围0-35度。可接受的温度是指短时间内(连续4小时以内),允许设备在低于或高于正常温度范围的条件下工作的温度范围。数据中心机房环境温度要求标准:通信设备在长期运行工作期间,机房温度控制在18度至25度。A级机房温度范围23±2度,B级机房温度范围20±2度。由此可见,对于高端路由器和交换机,在绝大多数的应用中,环境温度还是非常不错的。
[0006]为满足一些环境较差机房的应用,绝大多数网络基础设备厂商的高端路由器或交换机对外宣称最高长期工作温度为45度(有些甚至宣称高达55度或65度);此外,为了应对某些极端环境,网络设备实际支持的最高环境温度可能更高。由此可知,虽然绝大多数的环境温度是较低的,但为了应对一些环境较差的场景,避免半导体芯片失效,导致网络设备的散热和制冷成本较高。
[0007]以路由器为例,路由器最重要的指标就是其转发性能和吞吐能力,衡量转发性能的指标是每秒处理多少个数据包,衡量吞吐能力的指标是每秒处理多少比特数据。路由器在最高转发性能和吞吐量的情况下,其功耗是最大的,但实际上该设备在绝大多数情况下并不是以最大功耗方式工作的,原因如下:
[0008]假设路由器单板的最大吞吐能力为20Gbps,以太网报文长度为64~1518字节,以太网报文开销长度为20字节;对于64字节报文,此路由器线速转发时的包转发率=20Gbps/ (84Byte/packet*8bit/Byte) ^ 30Mpps ;对于 iMIX 混合长度(256 字节)报文,此路由器线速转发时的包转发率=20Gbps/ (276Byte/packet*8bit/Byte) ^ 9Mpps ;对于1518字节报文,此路由器线速转发时的包转发率=20Gbps/ (1538Byte/packet*8bit/Byte)~1.6Mpps。在绝大多数的网络应用中,并不是一直传输最小的64字节报文,也不是一直传输1518字节最长报文,根据统计混合报文的长度约为256字节。
[0009]由此可见,对于传统路由器单板而言,为满足20Gbps的吞吐能力需求,在绝大多数的情况下,转发性能达到9Mpps即可满足需求,但为了应对一些特殊场景,要求此路由器单板的包处理能力达到30Mpps。随着包处理能力的提升,必然导致转发引擎的最大输出功耗增加,为避免结温太高导致半导体芯片失效,网络设备的散热和制冷成本也会急剧增加,性价比较低。
[0010]此外,路由器接口种类繁多、接口速度多样化;接口种类包括E1/CE1、T1/CT1、E3/CT3、T3/CT3、P0S/CP0S、AT M、RPR、以太网接口等;ATM 接口包括 155M、622M 等;P0S/CP0S 又包括155M、622M、2.5G、10G、40G等;以太网包括千兆、万兆、40G、100G以太网等;以太网还包括电口、光口、光电Combo (联合)接口等;每个接口子卡还提供I端口、2端口、4端口、8端口、10端口、20端口等等不同的规格。因此,很多路由器采用灵活接口子卡的实现方式,即转发引擎与物理层和链路层芯片分离。这样做的好处是,一方面接口子卡可以应用到不同的路由器或者线卡板上,保护用户投资;一个路由器或线卡板也可以支持不同种类的接口,降低用户的采购成本;便于故障隔离,提高系统可靠性;另一方面,降低了设备制造商的研发和库存成本。
[0011]参见图1,以一个最大吞吐能力为20Gbps的路由器单板为例进行说明。假设该路由器单板支持2个可热插拔的子卡,每个子卡的最大带宽为IOGbps,每个子卡可以支持n*El/CEl、n*Tl/CTl、n*E3/CT3、n*T3/CT3、n*155M/622M P0S/CP0S、n*155M/622M ATM、I ~10XGE、1X10GE。当路由器插满I X IOGE子卡(或10XGE子卡)的时候,路由器单板需要满足20Gbps的吞吐能力,64字节的最高转发性能约为30Mpps,此时单板上转发引擎的功耗最高,除此之外的其他所有配置模式都无需提供如此高的报文处理能力。
[0012]由此可见,对于此路由器单板而言,为满足满插I X IOGE子卡(或10XGE子卡)的线速转发需求,要求此路由器单板的包处理能力达到30Mpps,但在实际上绝大多数的应用中,对路由器单板的报文处理能力要求较低。当前工业设计中,路由器单板的散热片以及制冷都是按照最大功耗进行设计,必将导致路由器的物料成本较高,性价比较低。
【发明内容】
[0013]本发明提供了一种提高系统可靠性的方法及设备,以实现保证设备能够正常工作的前提下,降低散热和制冷成本。
[0014]为了达到以上目的,本发明提供了一种提高系统可靠性的方法,包括:
[0015]获取待监测芯片的结温;
[0016]当所述待监测芯片的结温高于告警门限上限时,降低所述待监测芯片的性能或/和容量规格;
[0017]当所述待监测芯片的结温低于告警门限下限时,提高所述待监测芯片的性能或/和容量规格。
[0018]其中,所述获取待监测芯片的结温之前,还包括:
[0019]确定所述待监测芯片在不同性能或/和容量规格下正常工作的结温点;
[0020]设置对应所述结温点的告警门限上限和告警门限下限。
[0021]其中,所述获取待监测芯片的结温之后,还包括:
[0022]确定所述待监测芯片当前的性能或/和容量规格;
[0023]比较所述待监测芯片的结温与所述待监测芯片在当前的性能或/和容量规格下正常工作的结温点对应的告警门限上限和告警门限下限。
[0024]其中,所述降低所述待监测芯片的性能或/和容量规格之前,还包括:
[0025]判断风扇转速是否为最大值,若风扇转速为最大值,则确定执行降低所述待监测芯片的性能或/和容量规格的操作;若风扇转速不是最大值,则提高风扇转速;
[0026]或/ 和,
[0027]所述提高所述待监测芯片的性能或/和容量规格之前,还包括:
[0028]判断风扇转速是否为最小值,若风扇转速为最小值,则确定执行提高所述待监测芯片的性能或/和容量规格的操作;若风扇转速不是最小值,则降低风扇转速。
[0029]其中,所述降低所述待监测芯片的性能或/和容量规格之前,还包括:
[0030]判断所述待监测芯片的性能或/和容量规格是否为最低状态,并当所述待监测芯片的性能或/和容量规格不是最低状态时,确定执行降低所述待监测芯片的性能或/和容量规格的操作;
[0031]或/ 和,
[0032]所述提高所述待监测芯片的性能或/和容量规格之前,还包括:
[0033]判断所述待监测芯片的性能或/和容量规格是否为最高状态,并当所述待监测芯片的性能或/和容量规格不是最高状态时,确定执行提高所述待监测芯片的性能或/和容量规格的操作。
[0034]其中,该方法还包括:
[0035]当所述待监测芯片的结温高于告警门限上限,且所述待监测芯片的性能或/和容量规格为最低状态时,提闻风扇转速;
[0036]当所述待监测芯片的结温低于告警门限下限,且所述待监测芯片的性能或/和容量规格为最高状态时,降低风扇转速。
[0037]其中,当所述待监测芯片为所述路由器的多核处理器时,所述待监测芯片的性能或/和容量规格包括以下一个或多个:
[0038]所述多核处理器的核的使用数量、所述多核处理器的核的工作频率、所述多核处理器的核的工作电压、所述多核处理器处理IP报文的数量;
[0039]所述降低/提高所述待监测芯片的性能或/和容量规格,具体为:
[0040]降低/提高所述多核处理器的核的使用数量;或/和,
[0041]降低/提高所述多核处理器的核的工作频率;或/和,
[0042]降低/提高所述多核处理器的核的工作电压;或/和,
[0043]降低/提高所述多核处理器处理IP报文的数量。
[0044]其中,当所述待监测芯片为三态内容寻址存储器TCAM时,所述待监测芯片的性能或/和容量规格包括:
[0045]所述TCAM的访问次数,或/和,所述TCAM的内部工作频率;
[0046]所述降低/提高所述待监测芯片的性能或/和容量规格,具体为:
[0047]降低/提高所述TCAM的访问次数;或/和,
[0048]提高/降低所述TCAM的内部工作频率。
[0049]本发明还提供了一种提高系统可靠性的设备,包括:
[0050]获取模块,用于获取待监测芯片的结温;
[0051]判断模块,用于判断所述待监测芯片的结温是否高于告警门限上限,或,是否低于告警门限下限;
[0052]处理模块,用于当所述待监测芯片的结温高于告警门限上限时,降低所述待监测芯片的性能或/和容量规格;当所述待监测芯片的结温低于告警门限下限时,提高所述待监测芯片的性能或/和容量规格。
[0053]其中,还包括:
[0054]设置模块,用于确定所述待监测芯片在不同性能或/和容量规格下正常工作的结温点,并设置对应所述结温点的告警门限上限和告警门限下限。
[0055]其中,所述判断模块还用于,确定所述待监测芯片当前的性能或/和容量规格;t匕较所述待监测芯片的结温与所述待监测芯片在当前的性能或/和容量规格下正常工作的结温点对应的告警门限上限和告警门限下限。
[0056]其中,所述判断模块还用于,判断风扇转速是否为最大值;
[0057]所述处理模块还用于,在降低所述待监测芯片的性能或/和容量规格之前,若所述判断模块判断所述风扇转速为最大值,确定执行降低所述待监测芯片的性能或/和容量规格的操作;若所述判断模块判断所述风扇转速不是最大值,提高风扇转速;
[0058]或/ 和,
[0059]所述判断模块还用于,判断所述风扇转速是否为最小值;
[0060]所述处理模块还用于,在降低所述待监测芯片的性能或/和容量规格之前,若所述判断模块判断所述风扇转速为最小值,确定执行提高所述待监测芯片的性能或/和容量规格的操作;若所述判断模块判断所述风扇转速不是最小值,则降低风扇转速。
[0061]其中,所述判断模块还用于,判断所述待监测芯片的性能或/和容量规格是否为最低状态;
[0062]所述处理模块还用于,在降低所述待监测芯片的性能或/和容量规格之前,若所述判断模块判断所述待监测芯片的性能或/和容量规格不是最低状态,确定执行降低所述待监测芯片的性能或/和容量规格的操作;[0063]或/ 和,
[0064]所述判断模块还用于,判断所述待监测芯片的性能或/和容量规格是否为最高状态;
[0065]所述处理模块还用于,在提高所述待监测芯片的性能或/和容量规格之前,若所述判断模块判断所述述待监测芯片的性能或/和容量规格不是最高状态,确定执行提高所述待监测芯片的性能或/和容量规格的操作。
[0066]其中,所述处理模块还用于,当所述待监测芯片的结温高于告警门限上限,且所述待监测芯片的性能或/和容量规格为最低状态时,提高风扇转速;当所述待监测芯片的结温低于告警门限下限,且所述待监测芯片的性能或/和容量规格为最高状态时,降低风扇转速。
[0067]其中,当所述待监测芯片为所述路由器的多核处理器时,所述待监测芯片的性能或/和容量规格包括以下一个或多个:
[0068]所述多核处理器的核的使用数量、所述多核处理器的核的工作频率、所述多核处理器的核的工作电压、所述多核处理器处理IP报文的数量;
[0069]所述处理模块具体用于,通过以下方式实现降低/提高所述待监测芯片的性能或/和容量规格:
[0070]降低/提高所述多核处理器的核的使用数量;或/和,
[0071]降低/提高所述多核处理器的核的工作频率;或/和,
[0072]降低/提高所述多核处理器的核的工作电压;或/和,
[0073]降低/提高所述多核处理器处理IP报文的数量。
[0074]其中,当所述待监测芯片为三态内容寻址存储器TCAM时,所述待监测芯片的性能或/和容量规格包括:
[0075]所述TCAM的访问次数,或/和,所述TCAM的内部工作频率;
[0076]所述处理模块具体用于,通过以下方式实现降低/提高所述待监测芯片的性能或/和容量规格:
[0077]降低/提高所述TCAM的访问次数;或/和,
[0078]提高/降低所述TCAM的内部工作频率。
[0079]本发明上述实施例中,通过实时监测,获取待监测芯片的结温,并判断该待监测芯片的结温是否高于告警门限上限,或低于告警门限下限;当待监测芯片的结温高于门限上限时,降低该待监测芯片的性能或/和容量规格;当待监测芯片的结温低于告警门限下限时,提高该待监测芯片的性能或/和容量规格,即在本发明实施例中,当监测到待监测芯片的结温异常(高于告警门限上限或低于告警门限下限)时,通过调整(降低或提高)待监测芯片的性能或.和容量规格,使待监测芯片的结温恢复正常,进而使电子设备能够正常工作,实现了保证设备能够正常工作的前提下,降低散热和制冷成本。
【专利附图】
【附图说明】
[0080]图1为一个最大吞吐能力为20Gbps的路由器单板的示意图;
[0081]图2为本发明实施例提供的一种提高系统可靠性的方法的流程示意图;
[0082]图3为一种风扇制冷和调整待监测芯片的性能或/和容量叠加使用的场景下的提高系统可靠性方法的流程示意图;
[0083]图4为一种风扇制冷和调整待监测芯片的性能或/和容量叠加使用场景下的提高系统可靠性方法的流程示意图;
[0084]图5为一种基于多核处理器的路由器线卡板硬件架构示意图;
[0085]图6为一种动态控制核数量、核电压和和频率的方法的示意图;
[0086]图7为动态控制多核处理器性能的流程示意图;
[0087]图8为动态控制多核处理器的核数量、核频率、核电压以及风扇转速的流程示意图;
[0088]图9为动态控制TCAM访问次数的流程示意图;
[0089]图10为本发明实施例提供的一种提高系统可靠性的设备的结构示意图。
【具体实施方式】
[0090]现有技术中,为了保证系统可靠性,电子设备(包括路由器、交换机等)生产厂商在生产电子设备时,单板的散热片以及风扇制冷等均是以能够保证电子设备在最高功耗状态下(环境温度极差、电子设备(以路由器为例)一直传输64字节的报文、插满最高速率子卡且子卡满负荷工作)正常工作为前提设计的,但是,由于电子设备在绝大数情况下,不会处于最高功耗状态,因此,这样的设计造成了成本浪费,性价比较低
[0091]针对上述现有技术中出现的问题,本发明实施例提供了一种提高系统可靠性的技术方案。在该技术方案中,通过实时监测,获取待监测芯片的结温,并判断该待监测芯片的结温是否高于告警门限上限,或低于告警门限下限;当待监测芯片的结温高于门限上限时,降低该待监测芯片的性能或/和容量规格;当待监测芯片的结温低于告警门限下限时,提高该待监测芯片的性能或/和容量规格,即在本发明实施例中,当监测到待监测芯片的结温异常(高于告警门限上限或低于告警门限下限)时,通过调整(降低或提高)待监测芯片的性能或.和容量规格,使待监测芯片的结温恢复正常,进而使电子设备能够正常工作,实现了保证设备能够正常工作的前提下,降低散热和制冷成本。
[0092]其中,待监测芯片可以是电子设备的关键芯片,即电子设备工作时功耗较大、对温度较敏感(即工作效率受温度影响较大)、最高结温较低的芯片。例如,对于路由器,该关键芯片可以是处理器/多核处理器、网络处理器、TCAM (Ternary Content AddressableMemory,三态内容寻址存储器)、FPGA (Field Programmable Gate Array,现场可编程门阵列)、包转发引擎/流量管理器/交换网芯片等其它ASIC (Application SpecificIntegrated Circuit,专用集成电路)芯片。
[0093]下面将结合本发明的实施例中的附图,对本发明的实施例中的技术方案进行清楚、完整的描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明的实施例保护的范围。
[0094]如图2所示,为本发明实施例提供的一种提高系统可靠性的方法的流程示意图,可以包括以下步骤:
[0095]步骤201、获取待监测芯片的结温。
[0096]具体的,在本发明实施例中,在获取待监测芯片的结温时至少需要区分以下两种情况:
[0097]情况一、待监测芯片的结温可以直接读取
[0098]该情况下,可以实时监测并读取待监测芯片的结温。
[0099]情况二、待监测芯片的结温不可以直接读取
[0100]该情况下,要求在待监测芯片开发过程中,通过实际热测试获得芯片结温和该芯片外部温度感应器的温度对应关系,当需要获取该类待监测芯片的结温时,可以通过读取该待监测芯片外部温度感应器的温度,并根据待监测芯片外部温度感应器的温度,确定对应的待监测芯片的结温。
[0101]其中,在本发明实施例中,获取待监测芯片的结温之前,还可以包括以下处理操作:
[0102]确定待监测芯片在不同性能或/和容量规格下正常工作的结温(结温点);
[0103]设置对应该结温点的告警门限上限和告警门限下限。
[0104]假设待监测芯片的性能或/和容量规格从高到低可包括S1、S2、S3,分别确定该待监测芯片在S1、S2、S3下正常工作的结温点T1、T2、T3 ;以Tl为例,Tl对应的告警门限上限可以为Tl+tl,告警门限下限可以为Tl-t2 ;或者,Tl对应的告警门限上限可以为(1+a) Tl,告警门限下限可以为(l_b) Tl ;其中,tl、t2、a、b为正数,且tl可以等于t2,也可以不等于t2 ;8可以等于b,也可以不等于b。
[0105]同理,T2对应的告警门限上限和告警门限下限的设置方式与Tl对应的告警门限上限和告警门限下限的设置方式相似,在此不再赘述。
[0106]步骤202、判断待监测芯片的结温是否高于告警门限上限,或低于告警门限下限;若高于告警门限上限,则转至步骤203 ;若低于告警门限下限,则转至步骤204 ;否则,转至步骤201。
[0107]步骤203、降低待监测芯片的性能或/和容量规格。
[0108]步骤204、提高待监测芯片的性能或/和容量规格。
[0109]具体的,由于在绝大多数情况下,电子设备的并不需要在最高功耗状态下工作,因此,电子设备的关键芯片的性能或/和容量规格不需要始终保持在最高状态,当电子设备的关键芯片的结温由于外部环境的温度等原因而过高或过低时,可以通过降低或提高关键芯片的性能或/和容量规格来使关键芯片的结温恢复正常。
[0110]在本发明实施例中,当获取到待监测芯片的结温后,可以确定待监测芯片当前的性能或/和容量规格,并比较该待监测芯片的结温与该待监测芯片在当前的性能或/和容量规格下正常工作的结温点对应的告警门限和告警门限下限。
[0111]例如,假设获取到的待监测芯片的结温为t,该待监测芯片当前的性能或容量规格为Tl (Tl对应的告警门限上限为Tl+tl,告警门限下限为Tl-t2),则可以通过比较t与Tl+tl (或Tl-t2)确定待监测芯片的结温高于告警门限上限或低于告警门限下限。
[0112]当待监测芯片的结温高于告警门限上限时,为了降低待监测芯片的结温,可以降低待监测芯片的性能或/和容量规格;当待监测芯片的结温低于告警门限下限时,为了提高待监测芯片的结温,可以提高待监测芯片的性能或容量规格。
[0113]优选地,在降低待监测芯片的性能或/和容量规格之前,还可以先判断该待监测芯片的性能或/和容量规格是否为最低状态,并当待监测芯片的性能或/和容量规格不是最低状态时,确定执行降低待监测芯片的性能或/和容量规格。
[0114]同理地,在提高待监测芯片的性能或/和容量规格之前,也可以先判断该待监测芯片的性能或/和容量规格是否为最高状态,并当待监测芯片的性能或/和容量规格不是最闻状态时,确定执行提闻待监测芯片的性能或/和容量规格。
[0115]进一步地,若电子设备配备了风扇用于制冷降温,则当接入设备确定待监测芯片的结温异常时,还可以通过调整风扇转速来使待监测芯片的结温恢复正常。
[0116]优选地,调整风扇转速可以与调整待监测芯片的性能或/和容量两种方式叠加使用。例如,当待监测芯片的结温高于告警门限上限时,可以优先通过调整风扇转速(提高风扇转速)来降低待监测芯片的结温,若通过风扇制冷不能满足需求(风扇转速已调整到最大值,待监测芯片的结温仍然高于告警门限上限),则进一步降低待监测芯片的性能或/和容量规格;同理,也可以优先通过降低待监测芯片的性能或/和容量规格来降低待监测芯片的结温,若通过降低待监测芯片的性能或/和容量规格不能满足需求(待监测芯片的性能或/和容量规格已经调整至最低状态,待监测芯片的结温仍然高于告警门限上限),则进一步提高风扇转速来降低待监测芯片的结温。
[0117]在实际应用中,可以灵活调整策略,如对噪声敏感(即需要噪声尽量低)的场合,可以优先降低性能或/和容量规格;而对性能敏感(即需要性能尽量高)的场合,可以优先提高风扇转速。
[0118]下面分别以对性能敏感的场合下需要降低待监测芯片的结温和提高待监测芯片的结温为例对本发明实施例提供的技术方案进行描述。
[0119]如图3所示,为一种风扇制冷和调整待监测芯片的性能或/和容量叠加使用的场景下的提高系统可靠性方法的流程示意图,在该实施例中,以对性能敏感的场合下需要降低待监测芯片的结温为例,该方法可以包括以下步骤:
[0120]步骤301、获取待监测芯片的结温。
[0121]步骤302、判断待监测芯片的结温是否高于告警门限上限,若判断为是,则转至步骤303 ;否则,转至步骤301。
[0122]步骤303、判断风扇转速是否已经达到最大值;若判断为是,则转至步骤304;否贝U,提高风扇转速,并转至步骤301。
[0123]步骤304、判断待监测芯片的性能或/和容量规格是否为最低状态;若判断为是,则结束当前流程;否则,降低待监测芯片的性能或/和容量规格,并转至步骤301。
[0124]如图4所示,为一种风扇制冷和调整待监测芯片的性能或/和容量叠加使用场景下的提高系统可靠性方法的流程示意图,在该实施例中,以对性能敏感的场合下需要提高待监测芯片的结温为例,该方法可以包括以下步骤:
[0125]步骤401、获取待监测芯片的结温。
[0126]步骤402、判断待监测芯片的结温是否低于告警门限下限,若判断为是,则转至步骤403 ;否则,转至步骤401。
[0127]步骤403、判断待监测芯片的性能或/和容量规格是否为最高状态;若判断为是,则转至步骤404 ;否则,提高待监测芯片的性能或/和容量规格,并转至步骤401。
[0128]步骤404、判断风扇转速是否为最小值,若判断为是,则结束当前流程;否则,降低风扇转速,并转至步骤401。[0129]需要注意的是,在本发明实施例中,可以通过步进的方式提高(或降低)待监测芯片的性能或/和容量规格(或风扇转速),其具体实现在此不再赘述。
[0130]为了更好地理解本发明实施例提供的技术方案,下面结合具体的应用场景对本发明实施例提供的技术方案进行更加详细地描述。
[0131]以图5所示的基于多核处理器的路由器线卡板硬件架构为例,其中,以多核处理器作为待监测芯片。
[0132]相应地,待监测芯片的性能或/和容量规格可以包括以下一个或多个:
[0133]多核处理器的核(core)的使用数量、多核处理器的核的工作频率、多核处理器的核的工作电压、多核处理器处理IP报文的数量。
[0134]在该实施例中,路由器软件动态管理多核处理器的核的使用数量,当多核处理器的结温高于告警门限上限时,系统软件将关闭一个多核处理器的核,以降低输出功率;反之,当多核处理器的结温低于告警门限下限时,系统软件将使能一个多核处理器的核,以提高输出功率。多核处理器的核的使用数量与路由器的转发性能密切相关,呈线性增长趋势;多核处理器的核的使用数量与多核处理器芯片的功耗也密切相关,关闭的核的数量越多,多核处理器的功耗越小。
[0135]路由器软件动态调整多核处理器的核的工作频率,当多核处理器的结温高于告警门限上限时,系统软件将降低处理器的核的工作频率,以降低输出功率;反之,当多核处理器的结温低于告警门限下限时,系统软件将提高处理器的核的工作频率,以提高输出功率。多核处理器的核的工作频率与路由器的转发性能密切相关,呈线性增长趋势;多核处理器的核的工作频率与多核处理器芯片的功耗也密切相关,工作频率越低,多核处理器的功耗越小。
[0136]路由器软件动态调整多核处理器的核的工作电压,当多核处理器的结温高于告警门限上限时,系统软件将降低处理器的核的工作电压,以降低输出功率;反之,当多核处理器的结温低于告警门限的下限时,系统软件将提高处理器的核的工作电压,以提高输出功率。多核处理器的核的工作电压与路由器的转发性能密切相关,呈线性增长趋势;多核处理器的核的工作电压与多核处理器芯片的功耗也密切相关,工作电压越低,多核处理器的功耗越小。
[0137]路由器软件动态调整多核处理器处理IP报文的数量,当多核处理器的结温高于告警门限上限时,系统软件将降低多核处理器处理IP报文的数量,以降低输出功率;反之,当多核处理器的结温低于告警门限的下限时,系统软件将提高多核处理器处理IP报文的数量,以提高输出功率。
[0138]参见图6,通过降低处理器的核的使用数量(以下简称核数量)、核的工作频率(以下简称核频率)和核的工作电压(以下简称核电压),以降低路由器的性能或/和容量,实现了多核处理器输出功耗的降低。
[0139]具体的,主控板的处理器通过管理总线访问线卡板多核处理器的结温传感器,进而确定多核处理器的结温,并判断其与告警门限的上限和下限的关系。其中,管理总线通常可以使用I2C总线。
[0140]主控板的处理器将调节多核处理器的核数量的命令、核频率的命令、核电压的命令通过控制总线传递到线卡板多核处理器的管理Core,控制总线通常为以太网总线。[0141]线卡板多核处理器的管理Core读写“使能/管理控制寄存器”可以关闭一些转发和业务处理的Core,使其停止工作;线卡板多核处理器的管理Core读写“频率控制寄存器”可以调节芯片内部锁相环电路,使核(转发和业务处理的Core)工作在较低的频率;线卡板多核处理器的管理Core读写“电源控制寄存器”可以调节芯片外部Core电压电源模块,使核工作在较低的电压。前面所述的步进方式降低芯片的性能和容量,体现在这里就是步进方式关闭转发和业务处理Core的数量,步进方式降低多核处理器的核频率,步进方式降低多核处理器的核电压,即在极端恶劣的环境下(较高的环境温度、路由器子卡满插、路由器插入最高速率接口子卡、路由器转发的数据报文都是最小字节的报文)降低了多核处理器的性能或/和容量规格,也降低了多核处理器的功耗,从而降低了多核处理器的结温,以相对低成本方式提高系统的可靠性。
[0142]参见图7,该实施例中动态控制多核处理器性能的流程可以包括:
[0143]首先,定义不同环境温度条件下多核处理器的转发性能和吞吐能力;其中,各类机房正常环境温度的性能为多核处理器的最高转发性能和吞吐能力,高温及极端高温环境下,定义较低的转发性能和吞吐能力;
[0144]其次,获取多核处理器在不同的核数量、不同的核频率和不同的核电压情况下的转发性能和吞吐能力;
[0145]第三,通过调节散热器,获取不同环境温度下,多核处理器的结温点;
[0146]第四,确定多核处理器的结温点与多核处理器核数量、核频率和核电压的对应关系,并设置各结温点对应的告警门限上限和告警门限下限;
[0147]第五,在多核处理器工作过程中,根据获取到的多核处理器的结温,动态的调整多核处理器的核数量、核电压和核频率。
[0148]进一步地,当路由器配备了风扇制冷降温时,该实施例中可以通过将调整多核处理器的核数量、核频率、核电压,以及调整风扇转速叠加使用,更好地保证系统可靠性,其中,动态控制多核处理器的核数量、核频率、核电压以及风扇转速的流程可以参见图8,其具体流程可以包括:
[0149]首先,定义不同环境温度条件下多核处理器的转发性能和吞吐能力;其中,各类机房正常环境温度的性能为多核处理器的最高转发性能和吞吐能力,高温及极端高温环境下,定义较低的转发性能和吞吐能力;
[0150]其次,获取多核处理器在不同的核数量、不同的核频率和不同的核电压情况下的转发性能和吞吐能力;
[0151]第三,通过调节散热器、风扇转速,获取不同环境温度下,多核处理器的结温点;
[0152]第四,确定多核处理器的结温点与多核处理器核数量、核频率和核电压的对应关系,并设置各结温点对应的告警门限上限和告警门限下限;
[0153]第五,在多核处理器工作过程中,根据获取到的多核处理器的结温,动态的调整多核处理器的核数量、核电压、核频率、以及风扇转速。
[0154]需要注意的是,在本发明实施例提供的技术方案中,待监测芯片并不限于多核处理器,也可以是其他芯片。
[0155]下面再以待监测芯片为TCAM为例,对本发明实施例提供的技术方案进行描述。
[0156]仍以图5所示的基于多核处理器的路由器线卡板硬件架构为例,其中,待监测芯片为TCAM。
[0157]当多核处理器应用TCAM来进行快速的路由查找时,由于TCAM的访问方式与常规的随机存取存储器(Random Access Memory,简称RAM)通过输入地址来返回该地址处所对应的数据信息不同,只需输入关键字的内容,TCAM就会将此关键字与TCAM中所有的表项同时进行匹配比较,最后返回匹配表项在CAM中所对应的地址。
[0158]TCAM的功耗是由于在TCAM中执行搜索的搜索线和在搜索中确定匹配的匹配线所需的充电电流和放电电流造成的。TCAM工作是采用的是并行搜索,功耗一般都很大,功耗的计算也比较复杂,与接口的时钟频率、搜索字的长度、搜索字的屏蔽位、搜索的速度、数据库的容量都有直接的关系,TCAM在工作时和省电模式下的功率差别比较大,耗电波动比较大。
[0159]在本发明实施例中,可以通过动态控制TCAM访问次数,即动态控制最大可处理IP报文的数量,实现TCAM功耗的控制,进而控制TACM的结温。
[0160]参见图9,该实施例中动态控制TCAM访问次数的流程可以包括:
[0161]首先,定义不同环境温度条件下TCAM的查表性能;其中,各类机房正常环境温度的性能为TCAM的最高查表性能,高温及极端高温环境下,定义较低的查表性能;
[0162]其次,获取TCAM在不同访问次数情况下的查表性能;
[0163]第三,通过调节散热器,获取不同环境温度下,TCAM的结温点;
[0164]第四,确定TCAM结温点与TCAM的访问次数的对应关系,并设置各结温点对应的告警门限上限和告警门限下限;
[0165]第五,在TCAM工作过程中,根据获取到的TCAM的结温,动态调整TCAM的访问次数。
[0166]其中,在本发明实施例中,通过控制最大可处理IP报文的数量,实现对TCAM访问次数的控制。
[0167]实际应用中,降低TCAM访问次数,即降低最大可处理IP报文的数量,可以降低多核处理器和TCAM芯片的输出功耗,多核处理器和TCAM的结温也会随之降低。实际上,流量管理芯片、交换网接入芯片和交换网等芯片的输出功率都会降低;在散热和制冷方式不变的情况下,关键芯片的结温会降低。
[0168]其中,控制最大可处理IP报文的数量的方式有很多种,如可以通过约定接入速率的方式实现,也可以通过降低并行处理资源的方式实现,也可以通过降低访问外部资源带宽的方式实现,也可以通过降低系统或总线频率的方式实现,在此不再赘述。
[0169]通过以上描述可知,在本发明实施例提供的技术方案中,通过实时监测,获取待监测芯片的结温,并判断该待监测芯片的结温是否高于告警门限上限,或低于告警门限下限;当待监测芯片的结温高于门限上限时,降低该待监测芯片的性能或/和容量规格;当待监测芯片的结温低于告警门限下限时,提高该待监测芯片的性能或/和容量规格,即在本发明实施例中,当监测到待监测芯片的结温异常(高于告警门限上限或低于告警门限下限)时,通过调整(降低或提高)待监测芯片的性能或.和容量规格,使待监测芯片的结温恢复正常,进而使电子设备能够正常工作,实现了保证设备能够正常工作的前提下,降低散热和制冷成本。
[0170]基于相同的技术构思,本发明实施例还提供了一种提高系统可靠性的设备,可以应用于上述方法实施例。[0171]如图10所示,为本发明实施例提供的一种提高系统可靠性的设备的结构示意图,可以包括:
[0172]获取模块11,用于获取待监测芯片的结温;
[0173]判断模块12,用于判断所述待监测芯片的结温是否高于告警门限上限,或,是否低于告警门限下限;
[0174]处理模块13,用于当所述待监测芯片的结温高于告警门限上限时,降低所述待监测芯片的性能或/和容量规格;当所述待监测芯片的结温低于告警门限下限时,提高所述待监测芯片的性能或/和容量规格。
[0175]其中,本发明实施例提供的提高系统可靠性的设备还可包括:
[0176]设置模块14,用于确定所述待监测芯片在不同性能或/和容量规格下正常工作的结温点,并设置对应所述结温点的告警门限上限和告警门限下限。
[0177]其中,所述判断模块12还用于,确定所述待监测芯片当前的性能或/和容量规格;比较所述待监测芯片的结温与所述待监测芯片在当前的性能或/和容量规格下正常工作的结温点对应的告警门限上限和告警门限下限。
[0178]其中,所述判断模块12还用于,判断风扇转速是否为最大值;
[0179]所述处理模块13还用于,在降低所述待监测芯片的性能或/和容量规格之前,若所述判断模块12判断所述风扇转速为最大值,确定执行降低所述待监测芯片的性能或/和容量规格的操作;若所述判断模块12判断所述风扇转速不是最大值,提高风扇转速;
[0180]或/ 和,
[0181]所述判断模块12还用于,判断所述风扇转速是否为最小值;
[0182]所述处理模块13还用于,在降低所述待监测芯片的性能或/和容量规格之前,若所述判断模块12判断所述风扇转速为最小值,确定执行提高所述待监测芯片的性能或/和容量规格的操作;若所述判断模块12判断所述风扇转速不是最小值,则降低风扇转速。
[0183]其中,所述判断模块12还用于,判断所述待监测芯片的性能或/和容量规格是否为最低状态;
[0184]所述处理模块13还用于,在降低所述待监测芯片的性能或/和容量规格之前,若所述判断模块12判断所述待监测芯片的性能或/和容量规格不是最低状态,确定执行降低所述待监测芯片的性能或/和容量规格的操作;
[0185]或/ 和,
[0186]所述判断模块12还用于,判断所述待监测芯片的性能或/和容量规格是否为最高状态;
[0187]所述处理模块13还用于,在提高所述待监测芯片的性能或/和容量规格之前,若所述判断模块12判断所述述待监测芯片的性能或/和容量规格不是最高状态,确定执行提高所述待监测芯片的性能或/和容量规格的操作。
[0188]其中,所述处理模块13还用于,当所述待监测芯片的结温高于告警门限上限,且所述待监测芯片的性能或/和容量规格为最低状态时,提高风扇转速;当所述待监测芯片的结温低于告警门限下限,且所述待监测芯片的性能或/和容量规格为最高状态时,降低风扇转速。
[0189]其中,当所述待监测芯片为所述路由器的多核处理器时,所述待监测芯片的性能或/和容量规格包括以下一个或多个:
[0190]所述多核处理器的核的使用数量、所述多核处理器的核的工作频率、所述多核处理器的核的工作电压、所述多核处理器处理IP报文的数量;
[0191]所述处理模块13具体用于,通过以下方式实现降低/提高所述待监测芯片的性能或/和容量规格:
[0192]降低/提高所述多核处理器的核的使用数量;或/和,
[0193]降低/提高所述多核处理器的核的工作频率;或/和,
[0194]降低/提高所述多核处理器的核的工作电压;或/和,
[0195]降低/提高所述多核处理器处理IP报文的数量。
[0196]其中,当所述待监测芯片为三态内容寻址存储器TCAM时,所述待监测芯片的性能或/和容量规格包括:
[0197]所述TCAM的访问次数,或/和,所述TCAM的内部工作频率;
[0198]所述处理模块13具体用于,通过以下方式实现降低/提高所述待监测芯片的性能或/和容量规格:
[0199]降低/提高所述TCAM的访问次数;或/和,
[0200]提高/降低所述TCAM的内部工作频率。
[0201]通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0202]以上所述仅是本发明的优选实施方式,应当指出,对于本【技术领域】的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
【权利要求】
1.一种提高系统可靠性的方法,其特征在于,包括: 获取待监测芯片的结温; 当所述待监测芯片的结温高于告警门限上限时,降低所述待监测芯片的性能或/和容量规格; 当所述待监测芯片的结温低于告警门限下限时,提高所述待监测芯片的性能或/和容量规格。
2.如权利要求1所述的方法,其特征在于,所述获取待监测芯片的结温之前,还包括: 确定所述待监测芯片在不同性能或/和容量规格下正常工作的结温点; 设置对应所述结温点的告警门限上限和告警门限下限。
3.如权利要求2所述的方法,其特征在于,所述获取待监测芯片的结温之后,还包括: 确定所述待监测芯片当前的性能或/和容量规格; 比较所述待监测芯片的结温与所述待监测芯片在当前的性能或/和容量规格下正常工作的结温点对应的告警门限上限和告警门限下限。
4.如权利要求1所述的方法,其特征在于, 所述降低所述待 监测芯片的性能或/和容量规格之前,还包括: 判断风扇转速是否为最大值,若风扇转速为最大值,则确定执行降低所述待监测芯片的性能或/和容量规格的操作;若风扇转速不是最大值,则提高风扇转速; 或/和, 所述提高所述待监测芯片的性能或/和容量规格之前,还包括: 判断风扇转速是否为最小值,若风扇转速为最小值,则确定执行提高所述待监测芯片的性能或/和容量规格的操作;若风扇转速不是最小值,则降低风扇转速。
5.如权利要求1所述的方法,其特征在于, 所述降低所述待监测芯片的性能或/和容量规格之前,还包括: 判断所述待监测芯片的性能或/和容量规格是否为最低状态,并当所述待监测芯片的性能或/和容量规格不是最低状态时,确定执行降低所述待监测芯片的性能或/和容量规格的操作; 或/和, 所述提高所述待监测芯片的性能或/和容量规格之前,还包括: 判断所述待监测芯片的性能或/和容量规格是否为最高状态,并当所述待监测芯片的性能或/和容量规格不是最高状态时,确定执行提高所述待监测芯片的性能或/和容量规格的操作。
6.如权利要求5所述的方法,其特征在于,该方法还包括: 当所述待监测芯片的结温高于告警门限上限,且所述待监测芯片的性能或/和容量规格为最低状态时,提闻风扇转速; 当所述待监测芯片的结温低于告警门限下限,且所述待监测芯片的性能或/和容量规格为最高状态时,降低风扇转速。
7.如权利要求1所述的方法,其特征在于,当所述待监测芯片为所述路由器的多核处理器时,所述待监测芯片的性能或/和容量规格包括以下一个或多个: 所述多核处理器的核的使用数量、所述多核处理器的核的工作频率、所述多核处理器的核的工作电压、所述多核处理器处理IP报文的数量; 所述降低/提高所述待监测芯片的性能或/和容量规格,具体为: 降低/提高所述多核处理器的核的使用数量;或/和, 降低/提高所述多核处理器的核的工作频率;或/和, 降低/提高所述多核处理器的核的工作电压;或/和, 降低/提高所述多核处理器处理IP报文的数量。
8.如权利要求1所述的方法,其特征在于,当所述待监测芯片为三态内容寻址存储器TCAM时,所述待监测芯片的性能或/和容量规格包括: 所述TCAM的访问次数,或/和,所述TCAM的内部工作频率; 所述降低/提高所述待监测芯片的性能或/和容量规格,具体为: 降低/提高所述TCAM的访问次数;或/和, 提高/降低所述TCAM的内部工作频率。
9.一种提高系统可靠性的设备,其特征在于,包括: 获取模块,用于获取待监测芯片的结温; 判断模块,用于判断所述待监测芯片的结温是否高于告警门限上限,或,是否低于告警门限下限; 处理模块,用于当所述待监测芯片的结温高于告警门限上限时,降低所述待监测芯片的性能或/和容量规格;当所述待监测芯片的结温低于告警门限下限时,提高所述待监测芯片的性能或/和容量规格。
10.如权利要求9所述的设备,其特征在于,还包括: 设置模块,用于确定所述待监测芯片在不同性能或/和容量规格下正常工作的结温点,并设置对应所述结温点的告警门限上限和告警门限下限。
11.如权利要求10所述的设备,其特征在于, 所述判断模块还用于,确定所述待监测芯片当前的性能或/和容量规格;比较所述待监测芯片的结温与所述待监测芯片在当前的性能或/和容量规格下正常工作的结温点对应的告警门限上限和告警门限下限。
12.如权利要求9所述的设备,其特征在于, 所述判断模块还用于,判断风扇转速是否为最大值; 所述处理模块还用于,在降低所述待监测芯片的性能或/和容量规格之前,若所述判断模块判断所述风扇转速为最大值,确定执行降低所述待监测芯片的性能或/和容量规格的操作;若所述判断模块判断所述风扇转速不是最大值,提高风扇转速; 或/和, 所述判断模块还用于,判断所述风扇转速是否为最小值; 所述处理模块还用于,在降低所述待监测芯片的性能或/和容量规格之前,若所述判断模块判断所述风扇转速为最小值,确定执行提高所述待监测芯片的性能或/和容量规格的操作;若所述判断模块判断所述风扇转速不是最小值,则降低风扇转速。
13.如权利要求9所述的设备,其特征在于, 所述判断模块还用于,判断所述待监测芯片的性能或/和容量规格是否为最低状态; 所述处理模块还用于,在降低所述待监测芯片的性能或/和容量规格之前,若所述判断模块判断所述待监测芯片的性能或/和容量规格不是最低状态,确定执行降低所述待监测芯片的性能或/和容量规格的操作; 或/和, 所述判断模块还用于,判断所述待监测芯片的性能或/和容量规格是否为最高状态;所述处理模块还用于,在提高所述待监测芯片的性能或/和容量规格之前,若所述判断模块判断所述述待监测芯片的性能或/和容量规格不是最高状态,确定执行提高所述待监测芯片的性能或/和容量规格的操作。
14.如权利要求13所述的设备,其特征在于, 所述处理模块还用于,当所述待监测芯片的结温高于告警门限上限,且所述待监测芯片的性能或/和容量规格为最低状态时,提高风扇转速;当所述待监测芯片的结温低于告警门限下限,且所述待监测芯片的性能或/和容量规格为最高状态时,降低风扇转速。
15.如权利要求9所述的设备,其特征在于,当所述待监测芯片为所述路由器的多核处理器时,所述待监测芯片的性能或/和容量规格包括以下一个或多个: 所述多核处理器的核的使用数量、所述多核处理器的核的工作频率、所述多核处理器的核的工作电压、所述多核处理器处理IP报文的数量; 所述处理模块具体用于,通过以下方式实现降低/提高所述待监测芯片的性能或/和容量规格: 降低/提高所述多核处理器的核的使用数量;或/和, 降低/提高所述多核处理器`的核的工作频率;或/和, 降低/提高所述多核处理器的核的工作电压;或/和, 降低/提高所述多核处理器处理IP报文的数量。
16.如权利要求9所述的设备,其特征在于,当所述待监测芯片为三态内容寻址存储器TCAM时,所述待监测芯片的性能或/和容量规格包括: 所述TCAM的访问次数,或/和,所述TCAM的内部工作频率; 所述处理模块具体用于,通过以下方式实现降低/提高所述待监测芯片的性能或/和容量规格: 降低/提高所述TCAM的访问次数;或/和, 提高/降低所述TCAM的内部工作频率。
【文档编号】G06F1/32GK103631361SQ201310595079
【公开日】2014年3月12日 申请日期:2013年11月21日 优先权日:2013年11月21日
【发明者】杨武 申请人:杭州华三通信技术有限公司