一种自动检查通信线缆连接关系的系统、方法与流程

文档序号:29927115发布日期:2022-05-07 11:31阅读:131来源:国知局
一种自动检查通信线缆连接关系的系统、方法与流程

1.本发明涉及线缆连接检测技术领域,具体涉及一种自动检查通信线缆连接关系的系统、方法。


背景技术:

2.随着ai计算、高性能运算、人工智能应用的迅速发展,推动了异构运算设备的广泛应用。为了获取强大的异构计算能力和扩展性能,通常将cpu运算和gpu运算分成服务器和gpu box两个独立的设备,使用pcie高速线缆连接通信。
3.通常服务器与gpu box之间会使用较多根高速线缆束。每个x16带宽需要使用4条高速线缆束,当系统支持4组带宽为x16的pcie通信通道时,需要使用到16根高速线缆束。
4.由于使用的线缆数量较多,工人装配时经常发生线缆顺序插错的情况。
5.同一组通信端口内的线缆位置插错、跨端口位置插错、线缆漏插和插接不到位等问题,会导致pcie通信带宽异常、无法通信、gpu系统序号与物理序号不对应等问题,经常会被误判为gpu板卡功能问题,排查澄清会耗费较多人力资源。


技术实现要素:

6.由于使用的线缆数量较多,工人装配时经常发生线缆顺序插错的情况。同一组通信端口内的线缆位置插错、跨端口位置插错、线缆漏插和插接不到位等问题,会导致pcie通信带宽异常、无法通信、gpu系统序号与物理序号不对应等问题,经常会被误判为gpu板卡功能问题,排查澄清会耗费较多人力资源的问题,本发明提供一种自动检查通信线缆连接关系的系统、方法。
7.本发明的技术方案是:
8.第一方面,本发明技术方案提供一种自动检查通信线缆连接关系的系统,包括第一设备端和第二设备端;第一设备端和第二设备端均设置有多个通道;
9.第一设备端和第二设备端之间的每个通道使用线缆束连接;每个通道连接的线缆束均包括一侦测信号线;
10.第一设备端设置有管理控制模块;
11.管理控制模块与第二设备端连接;管理控制模块还与第一设备端的通道连接;
12.管理控制模块,用于控制第二设备端通道的侦测信号线的电平状态,并实时监测第一设备端侦测信号线的电平状态,根据监测结果辨别出线缆连接关系。
13.优选地,第二设备端还设置有第二i/o扩展芯片,第二i/o扩展芯片与第二设备端的通道连接;
14.管理控制模块与第二i/o扩展芯片连接,用于通过控制第二i/o扩展芯片各引脚输出电平的状态来控制第二设备端通道的侦测信号线的电平状态。
15.优选地,第一设备端还设置有第一i/o扩展芯片,管理控制模块通过第一i/o扩展芯片与第一设备端的通道连接;
16.管理控制模块通过控制第二i/o扩展芯片各引脚输出电平的状态来控制第二设备端通道的侦测信号线的电平状态时,实时监测第一i/o扩展芯片各引脚的电平状态,根据监测结果辨别出线缆连接关系,并输出实时线缆互联表格。
17.优选地,该系统还包括告警指示装置,所述的告警指示装置与管理控制模块连接,用于对管理控制模块的监测结果进行指示。
18.优选地,第一设备端包括服务器,管理控制模块包括bmc芯片;
19.第二设备端包括图形图像处理设备;服务器与图形图像处理设备通过四组端口通信;
20.每组端口包括四个通道,每组端口通过四根通信线缆束使服务器与图形图像处理设备通信;每根通信线缆束包括一侦测信号线;
21.服务器的每组端口通过一个第一i/o扩展芯片连接到bmc芯片;
22.每个第一i/o扩展芯片通过i2c信号与bmc芯片连接。
23.优选地,第一组的线缆束中设计一i2c信号线,用于服务器与图形图像处理设备之间的管理通信,即,bmc芯片与第二i/o扩展芯片之间的通信,用于控制第二i/o扩展芯片的各引脚输出高/低电平状态。
24.优选地,第二i/o扩展芯片为型号为pca9555的i/o扩展芯片;
25.第一i/o扩展芯片为型号为tca9536的i/o扩展芯片;
26.图形图像处理设备的十六个通道,每个通道与pca9555 i/o扩展芯片的一个输出引脚连接。
27.优选地,管理控制模块,还用于将监测的第一设备端侦测信号线的电平状态转化为十六位的数据并依次存储到对应的变量中;并将变量中的数据与采样标准值进行比对,即判断出当前第二设备端的各通信通道所连接的第一设备端通信通道的序号,进而判断出线缆插接是否正确。
28.第二方面,本发明技术方案提供一种自动检查通信线缆连接关系的方法,基于第一方面所述的自动检查通信线缆连接关系的系统,所述方法包括如下步骤:
29.步骤1:管理控制模块依次控制第二设备端线缆束中的侦测信号线输出低电平;
30.步骤2:管理控制模块实时监测第一设备端侦测信号线的电平状态,并将采样值按设定规则编码组合为十六位的数据,并依次保存到对应的变量中;
31.步骤3:将存储的变量中的数据与预存储的采样标准值进行比对,检查线缆连接正确性。
32.优选地,当第一设备端包括服务器,管理控制模块包括bmc芯片;第二设备端包括图形图像处理设备;服务器与图形图像处理设备通过四组端口通信;每组端口包括四个通道,每组端口通过四根通信线缆束使服务器与图形图像处理设备通信;每根通信线缆束包括一侦测信号线;服务器的每组端口通过一个第一i/o扩展芯片连接到bmc芯片;每个第一i/o扩展芯片通过i2c信号与bmc芯片连接时,该方法包括:
33.s1:bmc芯片控制第二设备端线缆束中的侦测信号线输出低电平,即第二i/o扩展芯片的p0引脚输出低电平,p1~p15引脚输出高电平;
34.s2:bmc芯片实时监测服务器第一i/o扩展芯片引脚的电平状态,并将采样值编码组合为十六位数据,并保存到变量中;
35.s3:按上述方法,bmc芯片依次控制第二i/o扩展芯片p1~p15输出低电平,同时每次都监测服务器各第一i/o扩展芯片引脚的电平状态值并转化为十六位数据,依次存储到相应的变量中;
36.s4:将存储的变量中的数值分别与标准采样值做比对,判断出当前图形图像处理设备的十六个通信通道所连接的服务器通信通道的序号,进而判断出线缆插接是否正确。
37.从以上技术方案可以看出,本发明具有以下优点:可自动识别线缆插接位置,智能判断线缆插错位置、漏插等问题。并支持实时输出线缆互连关系表格,方便纠正插错位置的线缆。
38.此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
39.由此可见,本发明与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。
附图说明
40.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
41.图1是本发明一个实施例的系统的示意性框图。
42.图2是本发明另一个实施例的系统的示意性框图。
具体实施方式
43.在服务器与图形图像处理设备两个设备之间有多条通信线缆,在装配时,经常发生插错线缆位置、插接不到位的情况。本文提出一种自动检查线缆连接关系的系统及方法,可以自动识别插错位置的线缆并告警;同时实时生成线缆连接关系表格,用以辅助纠正插错的线缆。为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
44.如图1所示,本发明实施例提供一种自动检查通信线缆连接关系的系统,包括第一设备端和第二设备端;第一设备端和第二设备端均设置有多个通道202;
45.第一设备端和第二设备端之间的每个通道202使用线缆束201连接;每个通道202连接的线缆束201均包括一侦测信号线;
46.第一设备端设置有管理控制模块;
47.管理控制模块与第二设备端连接;管理控制模块还与第一设备端的通道连接;
48.管理控制模块,用于控制第二设备端通道的侦测信号线的电平状态,并实时监测第一设备端侦测信号线的电平状态,根据监测结果辨别出线缆连接关系。
49.第二设备端还设置有第二i/o扩展芯片,第二i/o扩展芯片与第二设备端的通道连接;
50.管理控制模块与第二i/o扩展芯片连接,用于通过控制第二i/o扩展芯片各引脚输
出电平的状态来控制第二设备端通道的侦测信号线的电平状态。
51.第一设备端还设置有第一i/o扩展芯片,管理控制模块通过第一i/o扩展芯片与第一设备端的通道连接;
52.管理控制模块通过控制第二i/o扩展芯片各引脚输出电平的状态来控制第二设备端通道的侦测信号线的电平状态时,实时监测第一i/o扩展芯片各引脚的电平状态,根据监测结果辨别出线缆连接关系,并输出实时线缆互联表格。
53.需要说明的是,管理控制模块,还用于将监测的第一设备端侦测信号线的电平状态转化为十六位的数据并依次存储到对应的变量中;并将变量中的数据与采样标准值进行比对,即判断出当前第二设备端的各通信通道所连接的第一设备端通信通道的序号,进而判断出线缆插接是否正确。
54.在有些实施例中,该系统还包括告警指示装置,所述的告警指示装置与管理控制模块连接,用于对管理控制模块的监测结果进行指示。
55.如图2所示,在有些实施例中,第一设备端包括服务器,管理控制模块包括bmc芯片;
56.第二设备端包括图形图像处理设备;服务器与图形图像处理设备通过四组端口通信;
57.每组端口包括四个通道,每组端口通过四根通信线缆束使服务器与图形图像处理设备通信;每根通信线缆束包括一侦测信号线;
58.服务器的每组端口通过一个第一i/o扩展芯片连接到bmc芯片;
59.每个第一i/o扩展芯片通过i2c信号与bmc芯片连接。
60.服务器与gpu box通过4组pcie x16总线通信。分别是port a、port b、port c和port d 4组通信端口,每个port端口使用4根通信线缆束,此16条通信线缆束的连接关系固定,且唯一,如果漏接、插错线缆位置时,服务器与gpu box无法进行正常通信。
61.第一组的线缆束中设计一i2c信号线,用于服务器与图形图像处理设备(gpu box)之间的管理通信,即,bmc芯片与第二i/o扩展芯片之间的通信,用于控制第二i/o扩展芯片的各引脚输出高/低电平状态。为了实现监测线缆插接位置关系,在服务器与gpu box之间使用到16根侦测信号线cable_detect和一组i2c通信信号线。
62.服务器bmc芯片通过i2c信号控制gpu box的侦测信号线cable_detect电平状态,并在服务器监测全部cable_detect信号线的电平状态。
63.bmc芯片通过i2c信号控制gpu box的16个通信通道的cable_detect信号线电平状态。同一时刻只有一根cable_detect信号线为低电平,其余为高电平。服务器bmc芯片实时监测16根cable_detect信号线电平状态,当gpu box的某个通信通道的cable_detect信号线变为低电平时,在服务器的一端会监测到与之连接通道cable_detect变为低电平。这样,bmc芯片通过特定规则逐个控制16根cable_detect信号线的电平状态和实时监测16根信号线电平状态,可以辨别出服务器与gpu box之间的16根线缆的连接对应关系。当bmc芯片监测到当前线缆连接与预期目标不同时,判定线缆连接错误,立即触发保护机制,避免产品因线缆插接错误而损坏。此时也会触发告警机制,自动上报错误并通知运维进行维修。
64.在有些实施例中,第二i/o扩展芯片为型号为pca9555的i/o扩展芯片;第一i/o扩展芯片为型号为tca9536的i/o扩展芯片;服务器还设置有retimer卡,tca9536 i/o扩展芯
片设置在retimer卡上。
65.服务器与gpu box之间的使用16根通信线缆束,每条线缆束中包含pcie信号线、线缆在位侦测信号线cable_detect和其他边带信号。其中porta1线缆中单独设计一组i2c信号线,用于服务器和gpu box两设备之间管理通信。
66.为了实现监测线缆插接位置关系,本发明使用到16根侦测信号线cable_detect和一组i2c通信信号线。cable_detect信号的一端连接到gpu box内部的pca9555 i/o扩展芯片引脚,另一端连接到服务器retimer卡上的tca9536 i/o扩展芯片的引脚。服务器bmc芯片的i2c6通道连接到gpu box的pca9555,用于控制pca9555的各引脚输出高/低电平状态。bmc芯片的i2c1~4通道分别连接到第一retimer卡11、第二retimer卡22、第三retimer卡33、第四retimer卡44上面的tca9536,用于检测gpu box端输出的高/低电平状态。
67.bmc芯片的gpio引脚连接到告警指示装置,所述的告警指示装置包括一颗红绿双色告警指示灯,红色代表线缆插接故障;绿色代表正常。
68.使用本发明提供的系统进行自动检查通信线缆连接关系的方法,具体包括:
69.步骤a:bmc芯片控制gpu box porta1线缆束中的cable_detect信号线输出低电平,即pca9555的p0引脚输出低电平,p1~p15引脚输出高电平。
70.步骤b:bmc芯片实时监测4片tca9536引脚p0-p3的电平状态,并将采样值按如下规格编码组合为16bits数据,并保存到变量box_port_a1_data中。
71.编码规则如下:引脚电平高状态使用二进制1代表,低电平使用二进制0代表。第一retimer卡11的p0~p3对应到bit0~bit3,第二retimer卡22的p0~p3对应到bit4~bit7,第三retimer卡33的p0~p3对应到bit8~bit11,第四retimer卡44的p0~p3对应到bit12~bit15。
72.步骤c:按此方法,bmc芯片依次控制pca9555 p1~p15输出低电平,同时每次都检测4片tca9536引脚p0~p3的电平状态值并转化为16bits数据,依次存储到变量box_port_a2_data~box_port_d4_data之中。
73.至此,可以得到gpu box的16个通信通道对应的采样值box_port_a1_data~box_port_d4_data。
74.步骤d:检查线缆连接正确性。
75.如表1所示是线缆正常插接时,服务器通信通道及其对应的tca9536采样值,是采样值标准。将box_port_a1_data~box_port_d4_data的数值分别与表1中标准采样值做比对,即可判断出当前gpu box的16个通信通道所连接的服务器通信通道的序号,进而判断出线缆插接是否正确。
76.表1:服务器通信通道与对应的tca9536采样值
[0077][0078][0079]
bmc芯片实时检测gpu box的通信通道与服务器通信通道的线缆连接关系,并整理成线缆互连表格。错误的位置使用红色字体加粗突出显示,用以指导操作人员快速改正插错位置的线缆。如表2所示的服务器与gpu box线缆互连表中,有3处连接错误,box_port_a1的线缆误接到server_port_a2,box_port_a2的线缆误接到server_port_a1,box_port_a3的线缆没有插接或没有插接到位,在对应的“连接关系”列中,智能提示了连接错误和改正建议。
[0080]
表2:服务器与gpu box线缆互连表
[0081][0082][0083]
当bmc芯片检测到外部线缆漏插、连接错误时,点亮红色告警灯并将错误信息记录到系统告警日志中,通过管理网络主动上报到后台管理系统,触发维修指令。
[0084]
随着ai计算、高性能运算、人工智能应用的迅速发展,推动了异构运算设备的广泛应用。为了获取强大的异构计算能力和扩展性能,通常将cpu运算和gpu运算分成服务器和gpu box两个独立的设备,使用pcie高速线缆连接通信。通常服务器与gpu box之间会使用较多根高速线缆束。每个x16带宽需要使用4条高速线缆束,当系统支持4组带宽为x16的pcie通信通道时,需要使用到16根高速线缆束。由于使用的线缆数量较多,工人装配时经常发生线缆顺序插错的情况。同一组通信端口内的线缆位置插错、跨端口位置插错、线缆漏插
和插接不到位等问题,会导致pcie通信带宽异常、无法通信、gpu系统序号与物理序号不对应等问题,经常会被误判为gpu板卡功能问题,排查澄清会耗费较多人力资源。本发明实施例提供一种自动检查通信线缆连接关系的方法,基于自动检查通信线缆连接关系的系统,所述系统包括第一设备端和第二设备端;第一设备端和第二设备端均设置有多个通道202;第一设备端和第二设备端之间的每个通道202使用线缆束201连接;每个通道202连接的线缆束201均包括一侦测信号线;第一设备端设置有管理控制模块;管理控制模块与第二设备端连接,用于控制第二设备端通道的侦测信号线的电平状态;管理控制模块还与第一设备端的通道连接,用于实时监测第一设备端通道的侦测信号线的电平状态;管理控制模块逐个控制第二设备端通道的侦测信号线为低电平时,实时监测第一设备端侦测信号线的电平状态,根据监测结果辨别出线缆连接关系;所述方法包括如下步骤:
[0085]
步骤1:管理控制模块依次控制第二设备端线缆束中的侦测信号线输出低电平;
[0086]
步骤2:管理控制模块实时监测第一设备端侦测信号线的电平状态,并将采样值按设定规则编码组合为十六位的数据,并依次保存到对应的变量中;
[0087]
步骤3:将存储的变量中的数据与预存储的采样标准值进行比对,检查线缆连接正确性。
[0088]
在有些实施例中,第一设备端包括服务器,管理控制模块包括bmc芯片;第二设备端包括gpu box;服务器与gpu box通过四组端口通信;每组端口包括四个通道,每组端口通过四根通信线缆束使服务器与gpu box通信;每根通信线缆束包括一侦测信号线;服务器的每组端口通过一个第一i/o扩展芯片连接到bmc芯片;每个第一i/o扩展芯片通过i2c信号与bmc芯片连接时,该方法包括:
[0089]
s1:bmc芯片控制第二设备端线缆束中的侦测信号线输出低电平,即第二i/o扩展芯片的p0引脚输出低电平,p1~p15引脚输出高电平;
[0090]
s2:bmc芯片实时监测服务器第一i/o扩展芯片引脚的电平状态,并将采样值编码组合为十六位数据,并保存到变量中;
[0091]
s3:按上述方法,bmc芯片依次控制第二i/o扩展芯片p1~p15输出低电平,同时每次都监测服务器各第一i/o扩展芯片引脚的电平状态值并转化为十六位数据,依次存储到相应的变量中;
[0092]
s4:将存储的变量中的数值分别与标准采样值做比对,判断出当前gpu box的十六个通信通道所连接的服务器通信通道的序号,进而判断出线缆插接是否正确。
[0093]
服务器与gpu box之间的每个通信通道使用1根线缆束。每条线缆束中都有1根侦测信号线cable_detect。服务器bmc芯片通过i2c信号控制gpu box的16个通道的cable_detect信号线电平状态,同一时刻只有一根cable_detect信号线为低电平,其余为高电平。服务器bmc芯片实时监测16根cable_detect信号线电平状态,当gpu box的某个通信通道的cable_detect信号线变为低电平时,在服务器一端会检测到与之连接通道cable_detect变为低电平。这样,bmc芯片通过逐个控制16根cable_detect信号线的电平状态和实时监测16根信号线电平状态,可以辨别出服务器与gpu box之间线缆连接关系。
[0094]
服务器与gpu box的物理通道连接关系是固定且唯一的,当bmc监测到实际的线缆连接关系与预期值不一致时,判定为外部线缆插接错误。
[0095]
在服务器开机前和开机后,bmc芯片每隔5s监测一次外部线缆连接关系。当检测到
线缆插错、线缆未连接时,告警并记录日志。
[0096]
在服务器开机过程的初始阶段,bmc芯片主动检测一次外部线缆连接关系,当检测到线缆插错、线缆未连接时,告警并记录日志,同时停止服务器开机动作。这种检测到线缆接错时停止系统开机的设计方法,可以避免因线缆插错导致损坏物理电路、误报通信故障等问题。
[0097]
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1