服务器互联异常处理系统、方法、设备和存储介质与流程

文档序号:31670195发布日期:2022-09-28 00:46阅读:121来源:国知局
服务器互联异常处理系统、方法、设备和存储介质与流程

1.本技术涉及计算机技术领域,特别是涉及一种服务器互联异常处理系统、方法、设备和存储介质。


背景技术:

2.目前,传统机架式服务器可以减少占用空间,但同样受空间限制,很难在有限空间里同时塞下高性能cpu(central processing unit,中央处理器)和高性能gpu(graphics processing unit,图形处理器),又同时满足散热要求。使用cable(线缆)在外部把cpu服务器和gpu服务器互联,实现了传统rack(机架)服务器的功能扩展,可以满足某些特定场景和应用的需要;互联总线可使用pcie(peripheral component interconnect express,高速串行计算机扩展总线标准)。根据实际业务需要选择合适的pcie带宽,为保证pcie信号的高性能传输,在cpu服务器扩展口安装pcie repeater转接卡,实现pcie连接器或ocp连接器到minisas连接器的接口转换,同时为pcie信号的远距离传输提供中继功能;使用cable线缆在外部把cpu服务器和gpu服务器互联,这种扩展方案比较常见。
3.然而,由于外部互联cable线缆的存在,使得整机系统上架、搬迁过程都需要在机房现场安装cable线缆,由于不同操作人员对产品的熟悉程度不同,导致不同概率的接口虚接。cpu服务器和gpu服务器各自bmc管理单元检测cable连通性且相互通信,然而现有的cpu服务器和gpu服务器连接检测只检测cable的电气连通性,并不能保证检测一定可靠。另外,外部cable线缆虚接会导致下行设备连接出现故障,导致下行设备出现大量工单,一方面故障率高,另一方面只有故障描述,没有故障定位,需要运维人员逐个排查,费时费力。


技术实现要素:

4.基于此,本技术提供了一种服务器互联异常处理系统、方法、设备和存储介质,以解决现有技术中存在的问题。
5.第一方面,提供一种服务器互联异常处理系统,该系统包括:连接模块、检测模块和故障日志生成模块;
6.所述连接模块连接第一服务器和第二服务器;所述连接模块包括互连总线和互连接口;所述互连接口包括机械连接接口;
7.所述检测模块连接于所述连接模块,用于检测所述机械连接接口的连接状态,在所述机械连接接口的连接状态为断开时,生成对应的中断信号并将所述中断信号发送到所述故障日志生成模块;
8.所述故障日志生成模块连接于所述检测模块,响应于所述中断信号生成报警事件;获取与所述中断信号对应的互连接口的下行设备信息,根据所述下行设备信息生成故障日志。
9.根据本技术实施例中一种可实现的方式,所述系统还包括:报警模块;
10.所述报警模块响应于所述报警事件,基于声光报警电路进行报警。
11.根据本技术实施例中一种可实现的方式,所述检测模块进一步用于:
12.在所述机械连接接口的连接状态为断开时,获取所述断开的机械连接接口对应的异常互连接口的位置信息。
13.根据本技术实施例中一种可实现的方式,所述故障日志生成模块进一步用于:
14.获取互连总线的拓扑结构,基于所述异常互连接口的位置信息和所述互连总线的拓扑结构获取与所述异常互连接口对应的下行设备信息,基于所述下行设备信息生成故障日志。
15.第二方面,提供了一种服务器互联异常处理方法,该方法包括:
16.获取第一服务器和第二服务器之间互连接口的机械连接接口状态;
17.在所述机械连接接口的连接状态为断开时,生成对应的中断信号;
18.基于所述中断信号生成报警事件;
19.根据所述中断信号对应的互连接口的下行设备信息生成故障日志。
20.根据本技术实施例中一种可实现的方式,所述方法还包括:
21.响应于所述报警事件,基于声光报警电路进行报警。
22.根据本技术实施例中一种可实现的方式,所述在所述机械连接接口的连接状态为断开时,生成对应的中断信号,包括:
23.在所述机械连接接口的连接状态为断开时,获取所述断开的机械连接接口对应的异常互连接口的位置信息,生成与所述异常互连接口对应的中断信号。
24.根据本技术实施例中一种可实现的方式,所述根据所述中断信号对应的互连接口的下行设备信息生成故障日志,包括:
25.获取所述服务器间互连总线的拓扑结构,基于所述异常互连接口的位置信息和所述互连总线的拓扑结构获取与所述异常互连接口对应的下行设备信息,基于所述下行设备信息生成故障日志。
26.第三方面,提供了一种计算机设备,包括:
27.至少一个处理器;以及
28.与所述至少一个处理器通信连接的存储器;其中,
29.所述存储器存储有可被所述至少一个处理器执行的计算机指令,所述计算机指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面中涉及的方法。
30.第四方面,提供了一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令用于使计算机执行上述第一方面中涉及的方法。
31.根据本技术实施例所提供的技术内容,本技术通过检测服务器之间互连接口的机械连接接口的连接状态,在机械连接接口断开时,生成中断信号并获取断开的互连接口对应的下行设备信息,生成统一的故障日志。通过设置机械连接接口方便对互连接口的断开进行预判检测和处理,同时通过生成统一的故障日志避免了下行设备产生大量的故障工单,减少运维成本。
附图说明
32.图1为一个实施例中服务器互联异常处理系统的结构示意图;
33.图2为一个实施例中服务器互联异常处理系统的另一个结构示意图;
34.图3为一个实施例中服务器互联异常处理系统的检测电路结构示意图;
35.图4为一个实施例中服务器互联异常处理方法的流程示意图;
36.图5为一个实施例中计算机设备的示意性结构图。
具体实施方式
37.以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
38.图1为本技术实施例提供的一种硬盘温度测试系统的结构示意图,下面首先参照图1对本技术进行详细说明。
39.如图1所示,本技术提供一种硬盘温度测试系统100,该系统包括:连接模块110、检测模块120和故障日志生成模块130;
40.连接模块110连接第一服务器和第二服务器;连接模块110包括互连总线和互连接口;互连接口包括机械连接接口。
41.具体地,连接模块110用于连接第一服务器和第二服务器,其中第一服务器可以包括至少一个服务器,第二服务器可以包括至少一个服务器,服务器可以包括cpu服务器和gpu服务器。例如,第一服务器为cpu服务器,第二服务器为gpu服务器,连接模块110连接cpu服务器和cpu服务器。连接模块110包括互连总线和互连接口;互连接口包括机械连接接口。其中,互连总线为用于传递两个服务器之间信号的线缆,例如互连总线为pcie;互联接口用于连接线缆,互联接口一方面实现电气连接用于通信,另一方面实现机械连接用于固定。如图2所示,其中111为互连总线,112为互连接口,在cpu服务器端和gpu服务器端,均通过互联接口112连接线缆111。互联接口112包括机械连接接口,从而实现机械连接用于固定,线缆111插入连接器时先完成电气连接,再完成机械连接,机械连接晚于电气连接;线缆111拔出连接器先断开机械连接,再断开电气连接,断开机械连接早于断开电气连接。从而实现在互连接口在断开电气连接之前,先断开机械连接,从而方便对电气接口的断开进行预判检测和处理。
42.检测模块120连接于连接模块110,用于检测机械连接接口的连接状态,在机械连接接口的连接状态为断开时,生成对应的中断信号并将中断信号发送到故障日志生成模块130。
43.具体地,如图1所示,并结合图2,检测模块120连接于连接模块110,用于检测连接模块110中互联接口112的机械连接接口的连接状态,当连接模块110中互联接口112的机械连接接口断开时,互联接口112的机械连接接口产生中断,并且线缆111两端互联接口112的机械连接接口都可以产生中断。检测模块120基于机械连接接口产生的中断,生成与具体的接口位置对应的中断信号,并将该中断信号(interrupt)发送到故障日志生成模块130。
44.故障日志生成模块130连接检测模块120,响应于中断信号生成报警事件;获取与中断信号对应的互连接口的下行设备信息,根据下行设备信息生成故障日志。
45.具体地,如图1所示,故障日志生成模块130连接检测模块120,接收检测模块120发送的中断信号,并生成报警事件。例如,如图2所示,故障日志生成模块130由主板bmc和pch组成。故障日志生成模块130在接收到中断信号之后,获得与中断信号对应的产生中断的互
联接口112的位置信息,同时bmc通过pch获取系统下行设备与对应的互连接口的连接关系,基于中断信号对应的产生中断的互联接口112的位置信息得到与该产生中断的互联接口112对应的下行设备的信息,基于该下行设备的信息生成统一的故障日志,并由检测系统统一显示该故障日志。
46.值得注意的是,下行设备因为均基于对应的互联接口112的连接,所以在对应的互连接口112产生中断时,其对应的下行设备均会出现故障,产生大量的故障工单。本实施例中的故障日志生成模块130通过获取与中断信号对应的互连接口的下行设备信息,根据下行设备信息生成统一的故障日志,避免同时出现大量工单,减少运维成本。
47.根据本技术实施例所提供的技术内容,本技术通过检测服务器之间互连接口的机械连接接口的连接状态,在机械连接接口断开时,生成中断信号并获取断开的互连接口对应的下行设备信息,生成统一的故障日志。通过设置机械连接接口方便对互连接口的断开进行预判检测和处理,同时通过生成统一的故障日志避免了下行设备产生大量的故障工单,减少运维成本。
48.在本技术的一个实施例中,上述实施例提供的一种硬盘温度测试系统还包括:报警模块140;报警模块140响应于报警事件,基于声光报警电路进行报警。
49.具体地,如图1所示,并结合图2,报警模块140响应于故障日志生成模块130发送的报警事件,基于声光报警电路进行报警,例如通过led指示灯报警,或通过声音报警。例如,如图2所示,bmc基于中断信号触发报警事件,并通过i2c总线发送到报警模块140。通过现场声光报警指示,方便运维人员定位异常的互联接口的位置。
50.在本技术的一个实施例中,检测模块120进一步用于:在机械连接接口的连接状态为断开时,获取断开的机械连接接口对应的异常互连接口的位置信息。
51.具体地,当连接模块110中互联接口112的机械连接接口断开时,互联接口112产生异常中断。如图2所示,由于连接两个服务器的连接模块110包括若干线缆111和对应的互连接口112,因此,在某一个机械连接接口的连接状态为断开时,需要获取断开的机械连接接口对应的异常互连接口112的位置信息。方便运维人员定位异常的互联接口的位置,同时方便基于位置信息获取与该接口对应的下行设备的连接关系。
52.在本技术的一个实施例中,故障日志生成模块130进一步用于:获取互连总线的拓扑结构,基于异常互连接口的位置信息和互连总线的拓扑结构获取与异常互连接口对应的下行设备信息,基于下行设备信息生成故障日志。
53.具体地,故障日志生成模块130在接收中断信号之后,可以获得与中断信号对应的产生中断的异常互联接口112的位置信息。同时,故障日志生成模块130进一步获取互连总线111的拓扑结构,该拓扑结构包含了与各个互连接口112连接的所有下行设备的连接关系。基于该拓扑结构以及异常的互联接口112的位置信息,可以得到与异常的互联接口112对应的下行设备信息,基于下行设备信息生成统一的故障日志。
54.基于上述实施例,在本技术的一个具体实施例中,检测模块120包括机械连通性检测电路。如图3所示,机械连通性检测电路由tvs管,上拉电阻r,反相施密特触发器(inverse schmitt trigger)组成;tvs靠近连接器信号管脚放置,用于静电防护,上拉电阻r保证信号有个确定电平,反相施密特触发器消除信号抖动和增加驱动能力,反相施密特触发器输出端接一起,作为一个中断信号输出到主板(main board)。断开机械连接时,反相施密特触发
器输入端被电阻r上拉到vcc,输出端中断信号(interrupt)为低电平;接通机械连接时,反相施密特触发器输入端跟gnd导通,输出端中断信号(interrupt)为高电平。根据中断信号的电平可以判断此时机械连接的状态。线缆两端接口机械连接状态变化都会触发中断信号(interrupt)变化,互联接口上的管脚(pin1)上升沿表示cpu服务器端的接口机械连接从接通到断开,互联接口上的管脚(pin2)上升沿表示gpu服务器端的接口机械连接从接通到断开;中断信号(interrupt)下降沿表示线缆两端至少存在一端连接器互联接口机械连接从接通到断开。
55.根据本技术实施例所提供的技术内容,本技术通过检测服务器之间互连接口的机械连接接口的连接状态,在机械连接接口断开时,生成中断信号并获取断开的互连接口对应的下行设备信息,生成统一的故障日志。通过设置机械连接接口方便对互连接口的断开进行预判检测和处理;同时通过生成统一的故障日志避免了下行设备产生大量的故障工单,减少运维成本;通过现场声光报警指示,方便运维人员定位异常的互联接口的位置。
56.图4为本技术实施例提供的一种服务器互联异常处理方法的流程图,如图4所示,该方法可以包括以下步骤:
57.步骤101:获取第一服务器和第二服务器之间互连接口的机械连接接口状态。
58.具体地,其中,第一服务器可以包括至少一个服务器,第二服务器可以包括至少一个服务器,服务器可以包括cpu服务器和gpu服务器。例如,第一服务器为cpu服务器,第二服务器为gpu服务器,连接模块110连接cpu服务器和cpu服务器。第一服务器和第二服务器之间通过互连接口连接,互连接口包括机械连接接口。互联接口用于连接线缆,互联接口一方面实现电气连接用于通信,另一方面实现机械连接用于固定。当线缆插入连接器时先完成电气连接,再完成机械连接,机械连接晚于电气连接;线缆拔出连接器先断开机械连接,再断开电气连接,断开机械连接早于断开电气连接。从而实现在互连接口在断开电气连接之前,先断开机械连接,从而方便对电气接口的断开进行预判检测和处理。
59.步骤102:在机械连接接口的连接状态为断开时,生成对应的中断信号。
60.具体地,当中互联接口的机械连接接口断开时,例如人为暴力拔出或误拔等情况,基于机械连接接口产生的中断,生成与对应的中断信号,该中断信号中包含了异常接口的具体位置信息。
61.步骤103:基于中断信号生成报警事件。
62.具体地,基于中断信号生成报警事件,进行告警。
63.步骤104:根据中断信号对应的互连接口的下行设备信息生成故障日志。
64.具体地,在接收到中断信号之后,可以获得与中断信号对应的产生中断的互联接口的位置信息,同时获取系统下行设备与对应的互连接口的连接关系,基于中断信号对应的产生中断的互联接口的位置信息得到与该产生中断的互联接口对应的下行设备的信息,基于该下行设备的信息生成统一的故障日志,并由检测系统统一显示该故障日志。
65.根据本技术实施例所提供的技术内容,本技术通过检测服务器之间互连接口的机械连接接口的连接状态,在机械连接接口断开时,生成中断信号并获取断开的互连接口对应的下行设备信息,生成统一的故障日志。通过设置机械连接接口方便对互连接口的断开进行预判检测和处理,同时通过生成统一的故障日志避免了下行设备产生大量的故障工单,减少运维成本。
66.在本技术的一个实施例中,服务器互联异常处理方法还包括:响应于报警事件,基于声光报警电路进行报警。
67.具体地,响应于步骤103中生成的报警事件,基于声光报警电路进行报警,例如通过led指示灯报警,或通过声音报警。通过现场声光报警指示,方便运维人员定位异常的互联接口的位置。
68.在本技术的一个实施例中,在机械连接接口的连接状态为断开时,生成对应的中断信号,包括:在机械连接接口的连接状态为断开时,获取断开的机械连接接口对应的异常互连接口的位置信息,生成与异常互连接口对应的中断信号。
69.具体地,当机械连接接口断开时,互联接口产生异常中断。由于连接两个服务器的连接模块包括若干线缆和对应的互连接口,因此,在某一个机械连接接口的连接状态为断开时,需要获取断开的机械连接接口对应的异常互连接口的位置信息。方便运维人员定位异常的互联接口的位置,同时方便基于位置信息获取与该接口对应的下行设备的连接关系。
70.在本技术的一个实施例中,根据中断信号对应的互连接口的下行设备信息生成故障日志,包括:获取服务器间互连总线的拓扑结构,基于异常互连接口的位置信息和互连总线的拓扑结构获取与异常互连接口对应的下行设备信息,基于下行设备信息生成故障日志。
71.具体地,响应于步骤102生成的中断信号,在接收中断信号之后,可以获得与中断信号对应的产生中断的异常互联接口的位置信息。同时,进一步获取互连总线的拓扑结构,该拓扑结构包含了与各个互连接口连接的所有下行设备的连接关系。基于该拓扑结构以及异常的互联接口的位置信息,可以得到与异常的互联接口对应的下行设备信息,基于下行设备信息生成统一的故障日志。
72.根据本技术实施例所提供的技术内容,本技术通过检测服务器之间互连接口的机械连接接口的连接状态,在机械连接接口断开时,生成中断信号并获取断开的互连接口对应的下行设备信息,生成统一的故障日志。通过设置机械连接接口方便对互连接口的断开进行预判检测和处理;同时通过生成统一的故障日志避免了下行设备产生大量的故障工单,减少运维成本;通过现场声光报警指示,方便运维人员定位异常的互联接口的位置。
73.本技术的实施例通过检测服务器间的机械连通性,主要解决了服务器间互联接口断开导致下行设备故障,出现大量工单的问题,可使用在主板上,也可使用在riser卡、retime卡、redrive卡、节点主板等位置。连接器可以是minisas连接器,cable可以是对应的minisas cable。检测电路在靠近连接器位置必须加防护电路,相同port的pcie链路可以共用一个中断信号,节省管脚资源。声光报警电路放置在靠近对应连接器位置且对外可见,可以使用蜂鸣器报警和led指示灯报警。
74.应该理解的是,虽然图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本技术中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执
行。
75.上述各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
76.需要说明的是,本技术实施例中可能会涉及到对用户数据的使用,在实际应用中,可以在符合所在国的适用法律法规要求的情况下(例如用户明确同意,对用户切实通知,用户明确授权等),在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。
77.根据本技术的实施例,本技术还提供了一种计算机设备、一种计算机可读存储介质。本技术还提供了一种计算机设备,包括至少一个处理器,以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机指令,计算机指令被至少一个处理器执行,以使至少一个处理器能够执行上述任一实施例所述服务器互联异常处理方法。
78.如图5所示,是根据本技术实施例的计算机设备的框图。计算机设备旨在表示各种形式的数字计算机或移动装置。其中数字计算机可以包括台式计算机、便携式计算机、工作台、个人数字助理、服务器、大型计算机和其它适合的计算机。移动装置可以包括平板电脑、智能电话、可穿戴式设备等。
79.如图5所示,计算机设备500包括计算单元501、rom 502、ram 503、总线504以及输入/输出(i/o)接口505,计算单元501、rom 502以及ram 503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。
80.计算单元501可以根据存储在只读存储器(rom)502中的计算机指令或者从存储单元508加载到随机访问存储器(ram)503中的计算机指令,来执行本技术方法实施例中的各种处理。计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501可以包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。在一些实施例中,本技术实施例提供的方法可被实现为计算机软件程序,其被有形地包含于计算机可读存储介质,例如存储单元508。
81.ram 503还可存储设备500操作所需的各种程序和数据。计算机程序的部分或者全部可以经由rom 502和/或通信单元509而被载入和/或安装到设备500上。
82.计算机设备500中的输入单元506、输出单元507、存储单元508和通信单元509可以连接至i/o接口505。其中,输入单元506可以是诸如键盘、鼠标、触摸屏、麦克风等;输出单元507可以是诸如显示器、扬声器、指示灯等。设备500能够通过通信单元509与其他设备进行信息、数据等的交换。
83.需要说明的是,该设备还可以包括实现正常运行所必需的其他组件。也可以仅包含实现本技术方案所必需的组件,而不必包含图中所示的全部组件。
84.此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件和/或它们的组合中实现。
85.用于实施本技术的方法的计算机指令可以采用一个或多个编程语言的任何组合
来编写。这些计算机指令可以提供给计算单元501,使得计算机指令当由诸如处理器等计算单元501执行时使执行本技术方法实施例中涉及的各步骤。
86.本技术还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令用于使计算机执行上述任一实施例所述服务器互联异常处理方法。
87.本技术提供的计算机可读存储介质可以是有形的介质,其可以包含或存储计算机指令,用以执行本技术方法实施例中涉及的各步骤。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的等形式的存储介质。
88.上述具体实施方式,并不构成对本技术保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本技术的精神和原则之内所作的修改、等同替换和改进等,均应包含在本技术保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1