本技术涉及计算机,尤其涉及一种光模块监控方法、系统、电子设置及存储介质。
背景技术:
1、随着大数据、云计算、人工智能时代的到来,互联网业务量和数据量出现猛烈增长,计算量也随之增大。服务器的各光模块,如光模块对服务器的正常运行起着至关重要的作用,然而对于服务器各光模块的故障维修也越来越频繁。服务器的各光模块产品性能好坏会直接影响服务器设备的可靠性,当光模块出现故障时会降低服务器的可靠性,严重时会直接导致服务器系统集群瘫痪,因而对服务器的光模块故障的及时诊断是保证服务器可靠性的重要手段之一。
2、同时由于不同厂商,服务器的光模块参数会有一定的差异,同一个品牌不同规格的光模块参数也会有较大差异,由于大规模数据中心配置不同的服务器,所以光模块的品牌、规格都有不同。鉴于上述多产品形态,多故障场景,如果针对每一光模块的每一故障类型一一制定对应的故障诊断代码,势必造成软件工程上大量重复劳动,繁杂并且难于管理。
技术实现思路
1、本技术的目的是提供一种光模块监控方法及系统,用于解决现有技术中针对每一光模块的每一故障类型一一制定对应的故障诊断代码,造成软件工程上重复劳动且难于管理的缺陷,实现高效便捷地对服务器各光模块进行故障管理。
2、本技术提供一种光模块监控方法,包括:
3、从目标服务器的各光模块的存储空间中读取各所述光模块的出厂参数集,并采集当前周期各所述光模块的当前参数集;
4、根据所述当前参数集、所述出厂参数集,以及所述当前周期对应的周期特征,确定所述目标服务器中异常光模块的故障类型;
5、根据所述异常光模块的位置信息和所述故障类型,确定所述异常光模块的故障维护策略,根据所述故障维护策略,对所述异常光模块进行故障维护。
6、可选地,所述根据所述当前参数集、所述出厂参数集,以及所述当前周期对应的周期特征,确定所述目标服务器中异常光模块的故障类型,包括:
7、在根据所述周期特征确定所述当前周期为第一监测周期的情况下,获取各所述光模块在所述目标服务器中的累计运行时间;所述第一监测周期为除第一个监测周期之外的其他监测周期;
8、根据所述累计运行时间、所述当前参数集中各当前参数与所述出厂参数集中各所述当前参数对应的出厂参数之间的偏差值,确定各所述当前参数的衰减率;
9、将各所述当前参数的衰减率与各所述光模块对应的第一参考值进行比较,得到第一比较结果;
10、根据所述第一比较结果,在所述目标服务器的所有所述光模块中确定所述异常光模块,以及所述异常光模块的故障类型。
11、可选地,所述根据所述第一比较结果,在所述目标服务器的所有所述光模块中确定所述异常光模块,以及所述异常光模块的故障类型,包括:
12、根据所述第一比较结果,在所述目标服务器的所有所述光模块中,确定所述当前参数集中存在至少一个当前参数的衰减率大于所述第一参考值的第一目标光模块;
13、确定所述第一目标光模块为所述异常光模块;
14、根据所述目标服务器的所有所述光模块形成的拓扑网络,在所述目标服务器中确定第一光模块集群;所述第一光模块集群包括与所述异常光模块之间的物理距离小于预设距离的第一参考光模块;
15、将各所述第一参考光模块的各当前参数的衰减率与所述异常光模块的各当前参数的衰减率进行比较,得到第二比较结果;
16、根据所述第二比较结果,确定所述异常光模块的故障类型。
17、可选地,所述根据所述第二比较结果,确定所述异常光模块的故障类型,包括:
18、根据所述第二比较结果,在所述第一光模块集群中确定第二目标光模块;所述第二目标光模块的各当前参数的衰减率与所述异常光模块的各当前参数的衰减率在同一预设区间;
19、在确定所述第二目标光模块的光模块数量小于预设数量的情况下,确定所述异常光模块的故障类型为业务故障;
20、在确定所述光模块数量大于或等于所述预设数量的情况下,确定所述异常光模块的故障类型为操作环境故障。
21、可选地,各所述光模块对应的第一参考值是基于如下步骤确定的:
22、获取各所述光模块对应的第二光模块集群;其中,所述第二光模块集群是样本服务器中与各所述光模块具备同一规格和同一生产厂商的正常光模块;
23、对所述第二光模块集群中各所述正常光模块在各历史周期的各参数的衰减率进行融合,得到所述各所述光模块对应的所述第一参考值。
24、可选地,所述根据所述当前参数集、所述出厂参数集,以及所述当前周期对应的周期特征,确定所述目标服务器中异常光模块的故障类型,包括:
25、在根据所述周期特征确定所述当前周期为第二监测周期的情况下,计算所述当前参数集中各当前参数与所述出厂参数集中各所述当前参数对应的出厂参数之间的偏差值,得到各所述当前参数对应的偏差值;所述第二监测周期为第一个监测周期;
26、将各所述当前参数对应的偏差值与各所述光模块对应的第二参考值进行比较,得到第三比较结果;
27、根据所述第三比较结果,在所述目标服务器的所有所述光模块中确定所述异常光模块,以及所述异常光模块的故障类型。
28、可选地,所述根据所述第三比较结果,在所述目标服务器的所有所述光模块中确定所述异常光模块,以及所述异常光模块的故障类型,包括:
29、根据所述第三比较结果,在所述目标服务器的所有所述光模块中,确定所述当前参数集中存在至少一个当前参数对应的偏差值大于所述第二参考值的第三目标光模块;
30、确定所述第三目标光模块为所述异常光模块;
31、在所述目标服务器中确定第二参考光模块;所述第二参考光模块为与所述异常光模块同规格同厂商的正常光模块;
32、将所述第二参考光模块的插接端口和所述异常光模块的插接端口进行互相切换,并对切换后的所述异常光模块进行故障监测;
33、在根据故障监测结果,确定切换后的所述异常光模块处于故障状态的情况下,确定所述异常光模块的故障类型为运输故障;
34、在根据故障监测结果,确定切换后的所述异常光模块处于正常状态的情况下,确定所述异常光模块的故障类型为安装故障。
35、可选地,在所述从目标服务器的各光模块的存储空间中读取各所述光模块的出厂参数集之前,所述方法还包括:
36、接收各所述光模块的状态信号;
37、在根据所述状态信号,确定任一光模块处于工作状态的情况下,从所述任一光模块的存储空间中读取所述任一光模块的出厂参数集;
38、在根据所述状态信号,确定所述任一光模块处于掉电状态的情况下,中断从所述任一光模块的存储空间中读取所述任一光模块的出厂参数集。
39、可选地,所述根据所述异常光模块的位置信息和所述故障类型,确定所述异常光模块的故障维护策略,包括:
40、根据所述位置信息和所述故障类型,在故障维护库中,查找所述故障维护策略;
41、其中,所述故障维护库中预先存储有所述位置信息和所述故障类型,与所述故障维护策略之间的关联关系。
42、本技术还提供一种光模块监控系统,包括:管理控制器和运维服务端;所述运维服务端包括诊断单元和维护单元;
43、所述管理控制器,用于从目标服务器的各光模块的存储空间中读取各所述光模块的出厂参数集,并采集当前周期各所述光模块的当前参数集;
44、所述诊断单元,用于根据所述当前参数集、所述出厂参数集,以及所述当前周期对应的周期特征,确定所述目标服务器中异常光模块的故障类型;
45、所述维护单元,用于根据所述异常光模块的位置信息和所述故障类型,确定所述异常光模块的故障维护策略,根据所述故障维护策略,对所述异常光模块进行故障维护。
46、本技术还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如上述任一种所述光模块监控方法的步骤。
47、本技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述光模块监控方法的步骤。
48、本技术还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述光模块监控方法的步骤。
49、本技术提供的光模块监控方法及系统,通过首先读取目标服务器的各光模块的存储空间中存储的各光模块的出厂参数集,并通过采集获取当前周期各光模块的当前参数集;接着获取当前周期对应的周期特征,并根据当前参数集、出厂参数集和周期特征确定目标服务器中异常光模块的故障类型;然后根据异常光模块的位置信息和故障类型确定其故障维护策略,最后基于故障维护策略维护异常光模块存在的故障,通过从各光模块的存储空间中获取的出厂参数集和各光模块的当前参数集获取故障类型,实现高效便捷地对服务器各光模块进行故障监控和修复,提高服务器光模块监控的效率和可扩展性,便于后续维护,避免重复劳动。