
1.本发明属于监督监控技术领域,具体是一种数据中心网络故障节点诊断方法及系统。
背景技术:2.随着大数据时代的到来,云计算需求的不断增加使得数据中心网络规模不断扩大。如今,数据中心网络包含数十万台通过网络接口卡、交换机、路由器、电缆和光线连接的服务器,这些服务器大部分是分布式的并且具有高流量的特点。在大型系统中,检测和定位故障对于网络管理系统通过故障恢复机制恢复网络通信非常重要。
3.公开号为cn108933694a的发明专利公开了一种基于拨测数据的数据中心网络故障节点诊断方法及系统,依据现有的故障探测信息生成动态广度优先生成树作为节点间的探测路径;基于给定的先验概率p分析拨测数据来初步确定网络成员的故障概率;通过分析概率分配函数选择一个合理的阈值来识别故障节点,将可疑节点集分类为故障节点集和正常节点集。
4.上述方案在检测数量和诊断精度方面具有较好的性能,在不同规模的网络拓扑结构中都能在较低的探测次数下识别网络中的故障节点;但是,上述方案过程繁琐,且数据处理过程负载,鲁棒性不足;因此,上述方案仍需进一步改进。
技术实现要素:5.为了解决上述方案存在的问题,本发明提供了一种数据中心网络故障节点诊断方法及系统。
6.本发明的目的可以通过以下技术方案实现:一种数据中心网络故障节点诊断系统,包括处理器、数据采集模块、初步判定模块、分类检测模块、攻击监测模块、预警维护模块和数据存储模块;
7.所述初步判定模块用于对网络节点的故障进行初步分析,包括:
8.当初步判定模块接收到时间差值sij之后,通过公式获取故障评估系数gpxi;当故障评估系数gpxi满足gpxi=n+1时,则判定对应的待检测节点i正常,并将对应的待检测节点i标记为正常节点;当故障评估系数gpxi满足gpxi=0时,则判定对应的待检测节点i异常,将对应的待检测节点i标记为故障节点;否则,将对应的待检测节点i标记为嫌疑节点;
9.将正常节点进行整合生成正常节点集,将故障节点整合生成故障节点集,将嫌疑节点整合生成嫌疑节点集;通过处理器将正常节点集、故障节点集和嫌疑节点集发送至数据存储模块进行存储,同时,将嫌疑节点集发送至分类检测模块;
10.所述分类检测模块用于对嫌疑节点进行深度分析,包括:
11.当分类检测模块接收到嫌疑节点集时,通过数据存储模块获取分类模型;
12.获取嫌疑节点的时间矩阵;
13.将嫌疑节点的时间矩阵经过数据预处理之后输入至分类模型获取输出结果,并将输出结果标记为嫌疑标签;所述嫌疑标签为嫌疑节点对应的节点标签;
14.当嫌疑标签为1时,则判定嫌疑节点为正常节点;当嫌疑标签为0时,则判定嫌疑节点为故障节点;
15.对正常节点集和故障节点集进行更新;
16.获取故障节点集中故障节点的位置并标记为目标位置,通过第三方地图平台生成目标位置示意图;所述第三方地图平台包括百度地图、腾讯地图和高德地图;
17.通过处理器将目标位置示意图发送至预警维护模块,同时将目标位置示意图、正常节点集和故障节点集发送至数据存储模块进行存储。
18.优选的,所述分类模型的具体获取步骤包括:
19.获取正常节点的时间矩阵,获取故障节点的时间矩阵;所述时间矩阵包括时间差值sij和时间差值sij对应的待检测节点i和测试节点j之间的节点总数;
20.为正常节点和故障节点设置节点标签;其中正常节点的节点标签为1,故障节点的节点标签为0;
21.按照设定比例将正常节点的时间矩阵、故障节点的时间矩阵以及对应的节点标签划分为训练集和测试集;所述设定比例包括4:1、3:2和2:1;
22.构建融合模型;所述融合模型通过svm、lr和gbdt三种基线模型结合融合方式构建的模型,所述融合方式包括线性加权融合法、交叉融合法、瀑布融合法、特征融合法和预测融合法;
23.利用经过数据预处理之后的训练集和测试集对融合模型进行训练、验证和测试,当融合模型的精度达到目标精度要求时,则判定融合模型训练完成,将训练完成的融合模型标记为分类模型;
24.通过处理器将分类模型发送至数据存储模块进行存储。
25.优选的,所述数据采集模块用于采集网络节点之间的时间差值,包括:
26.将网络节点的待检测节点标记为i,选取n个网络节点作为测试节点,并将测试节点标记为j,j=1,2,
……
,n,其中n>5;所述测试节点根据动态生成树搜索结果获取;
27.通过测试节点j发送第一状态信号至待检测节点i,当待检测节点i接收到第一状态信号之后立即发送第二状态信号至测试节点j;所述第一状态信号选择待检测节点i与测试节点j之间通信路径中网络节点最少的路径进行发送;
28.当测试节点j接收到第二状态信号之后立即获取第二状态信号被接收时刻与第一状态信号发送时刻的时间差值,并将时间差值标记为sij;其中时间差值sij的取值为0和1,当时间差值sij=0时表示时间差值大于时间阈值,即测试节点j将待检测节点标记为故障节点;当时间差值sij=1时表示时间差值小于等于时间阈值,即测试节点j将待检测节点标记为正常节点;
29.通过处理器将待检测节点i、测试节点j和时间差值sij发送至数据存储模块进行存储,同时将时间差值sij发送至初步判定模块。
30.优选的,所述预警维护模块用于调度维护人员对目标位置对应的故障节点进行维护,包括:
31.当预警维护模块接收到目标位置示意图时,获取维护人员的位置并标记为初始位
置;
32.通过第三方地图平台规划目标位置与初始位置之间的路径,选取距离最短的路径作为目标路径;
33.通过预警维护模块将目标路径发送至维护人员的智能终端,同时在目标位置示意图中显示维护人员的实时位置;所述智能终端与预警维护模块通信连接,所述智能终端包括智能手机、平板电脑和笔记本电脑;
34.通过处理器将维护人员的调度记录发送至数据存储模块进行存储;所述调度记录包括时间、目标路径、维护人员的姓名和手机号。
35.优选的,所述攻击监测模块用于对数据中心网络节点遭受的攻击进行监测,包括:
36.通过对黑客入侵方式进行分析建立黑客入侵特征库;
37.对数据中心网络中的数据包进行分析获取分析结果;将分析结果与黑客入侵特征库中的攻击方式进行对比匹配,当二者匹配成功时,则发送黑客攻击信号至预警维护模块,且将对应的黑客攻击方式也发送至预警维护模块;
38.将黑客入侵特征库和黑客攻击信号的发送记录通过处理器发送至数据存储模块进行存储。
39.优选的,所述处理器分别与数据采集模块、初步判定模块、分类检测模块、攻击监测模块、预警维护模块和数据存储模块通信连接;所述预警维护模块分别与数据存储模块和攻击监测模块通信连接,所述初步判定模块分别与数据采集模块和分类检测模块通信连接,所述分类检测模块和攻击监测模块通信连接。
40.一种数据中心网络故障节点诊断方法,所述诊断方法的具体步骤包括:
41.步骤一:将网络节点的待检测节点标记为i,选取n个网络节点作为测试节点,并将测试节点标记为j;获取时间差值并标记为sij;将时间差值sij发送至初步判定模块;
42.步骤二:当初步判定模块接收到时间差值sij之后,获取故障评估系数gpxi;当故障评估系数gpxi满足gpxi=n+1时,则判定对应的待检测节点i正常,并将对应的待检测节点i标记为正常节点;当故障评估系数gpxi满足gpxi=0时,则判定对应的待检测节点i异常,将对应的待检测节点i标记为故障节点;否则,将对应的待检测节点i标记为嫌疑节点;生成正常节点集、故障节点集和嫌疑节点集;将嫌疑节点集发送至分类检测模块;
43.步骤三:当分类检测模块接收到嫌疑节点集时,通过数据存储模块获取分类模型;获取嫌疑节点的时间矩阵;将嫌疑节点的时间矩阵经过数据预处理之后输入至分类模型获取输出结果,并将输出结果标记为嫌疑标签,根据嫌疑标签分析嫌疑节点;对正常节点集和故障节点集进行更新;获取故障节点集中故障节点的位置并标记为目标位置,通过第三方地图平台生成目标位置示意图;通过处理器将目标位置示意图发送至预警维护模块。
44.与现有技术相比,本发明的有益效果是:
45.1、本发明设置了数据采集模块,该设置用于采集网络节点之间的时间差值;数据采集模块通过动态生成树选取测试节点,并获取测试节点与待检测节点之间的时间差值,避免选择故障节点作为测试节点,有助于提高故障节点的检测精度;
46.2、本发明设置了初步判定模块,该设置用于对网络节点的故障进行初步分析;初步判定模块根据时间差值对待检测节点进行初步分析,并生成正常节点集、故障节点集和嫌疑节点集,提高了故障节点的检测效率,为分类检测模块的分类奠定基础;
47.3、本发明设置了分类检测模块,该设置用于对嫌疑节点进行深度分析;分类检测模块根据分类模型对嫌疑节点进行分类,并对正常节点集和故障节点集进行更新,有助于提高网络节点的故障判断精度和判断效率。
附图说明
48.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
49.图1为本发明的原理示意图;
50.图2为本发明的步骤示意图。
具体实施方式
51.下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
52.请参阅图1
‑
图2,一种数据中心网络故障节点诊断系统,包括处理器、数据采集模块、初步判定模块、分类检测模块、攻击监测模块、预警维护模块和数据存储模块;
53.初步判定模块用于对网络节点的故障进行初步分析,包括:
54.当初步判定模块接收到时间差值sij之后,通过公式获取故障评估系数gpxi;当故障评估系数gpxi满足gpxi=n+1时,则判定对应的待检测节点i正常,并将对应的待检测节点i标记为正常节点;当故障评估系数gpxi满足gpxi=0时,则判定对应的待检测节点i异常,将对应的待检测节点i标记为故障节点;否则,将对应的待检测节点i标记为嫌疑节点;
55.将正常节点进行整合生成正常节点集,将故障节点整合生成故障节点集,将嫌疑节点整合生成嫌疑节点集;通过处理器将正常节点集、故障节点集和嫌疑节点集发送至数据存储模块进行存储,同时,将嫌疑节点集发送至分类检测模块;
56.分类检测模块用于对嫌疑节点进行深度分析,包括:
57.当分类检测模块接收到嫌疑节点集时,通过数据存储模块获取分类模型;
58.获取嫌疑节点的时间矩阵;
59.将嫌疑节点的时间矩阵经过数据预处理之后输入至分类模型获取输出结果,并将输出结果标记为嫌疑标签;嫌疑标签为嫌疑节点对应的节点标签;
60.当嫌疑标签为1时,则判定嫌疑节点为正常节点;当嫌疑标签为0时,则判定嫌疑节点为故障节点;
61.对正常节点集和故障节点集进行更新;
62.获取故障节点集中故障节点的位置并标记为目标位置,通过第三方地图平台生成目标位置示意图;第三方地图平台包括百度地图、腾讯地图和高德地图;
63.通过处理器将目标位置示意图发送至预警维护模块,同时将目标位置示意图、正
常节点集和故障节点集发送至数据存储模块进行存储。
64.进一步地,分类模型的具体获取步骤包括:
65.获取正常节点的时间矩阵,获取故障节点的时间矩阵;时间矩阵包括时间差值sij和时间差值sij对应的待检测节点i和测试节点j之间的节点总数;
66.为正常节点和故障节点设置节点标签;其中正常节点的节点标签为1,故障节点的节点标签为0;
67.按照设定比例将正常节点的时间矩阵、故障节点的时间矩阵以及对应的节点标签划分为训练集和测试集;设定比例包括4:1、3:2和2:1;
68.构建融合模型;融合模型通过svm、lr和gbdt三种基线模型结合融合方式构建的模型,融合方式包括线性加权融合法、交叉融合法、瀑布融合法、特征融合法和预测融合法;
69.利用经过数据预处理之后的训练集和测试集对融合模型进行训练、验证和测试,当融合模型的精度达到目标精度要求时,则判定融合模型训练完成,将训练完成的融合模型标记为分类模型;
70.通过处理器将分类模型发送至数据存储模块进行存储。
71.进一步地,数据采集模块用于采集网络节点之间的时间差值,包括:
72.将网络节点的待检测节点标记为i,选取n个网络节点作为测试节点,并将测试节点标记为j,j=1,2,
……
,n,其中n>5;测试节点根据动态生成树搜索结果获取;
73.通过测试节点j发送第一状态信号至待检测节点i,当待检测节点i接收到第一状态信号之后立即发送第二状态信号至测试节点j;第一状态信号选择待检测节点i与测试节点j之间通信路径中网络节点最少的路径进行发送;
74.当测试节点j接收到第二状态信号之后立即获取第二状态信号被接收时刻与第一状态信号发送时刻的时间差值,并将时间差值标记为sij;其中时间差值sij的取值为0和1,当时间差值sij=0时表示时间差值大于时间阈值,即测试节点j将待检测节点标记为故障节点;当时间差值sij=1时表示时间差值小于等于时间阈值,即测试节点j将待检测节点标记为正常节点;
75.通过处理器将待检测节点i、测试节点j和时间差值sij发送至数据存储模块进行存储,同时将时间差值sij发送至初步判定模块。
76.进一步地,预警维护模块用于调度维护人员对目标位置对应的故障节点进行维护,包括:
77.当预警维护模块接收到目标位置示意图时,获取维护人员的位置并标记为初始位置;
78.通过第三方地图平台规划目标位置与初始位置之间的路径,选取距离最短的路径作为目标路径;
79.通过预警维护模块将目标路径发送至维护人员的智能终端,同时在目标位置示意图中显示维护人员的实时位置;智能终端与预警维护模块通信连接,智能终端包括智能手机、平板电脑和笔记本电脑;
80.通过处理器将维护人员的调度记录发送至数据存储模块进行存储;调度记录包括时间、目标路径、维护人员的姓名和手机号。
81.进一步地,攻击监测模块用于对数据中心网络节点遭受的攻击进行监测,包括:
82.通过对黑客入侵方式进行分析建立黑客入侵特征库;
83.对数据中心网络中的数据包进行分析获取分析结果;将分析结果与黑客入侵特征库中的攻击方式进行对比匹配,当二者匹配成功时,则发送黑客攻击信号至预警维护模块,且将对应的黑客攻击方式也发送至预警维护模块;
84.将黑客入侵特征库和黑客攻击信号的发送记录通过处理器发送至数据存储模块进行存储。
85.进一步地,黑客入侵方式包括land攻击、tcp syn攻击、ping of death攻击、winnuke攻击、teardrop攻击和tcp/udp端口扫描攻击,黑客入侵方式的具体判断步骤为:
86.当数据包的源地址和目标地址相同时,判断该攻击方式为land攻击,并标记为l;
87.当单位时间内收到的syn连接超过系统设定的阈值时,判断该攻击方式为tcp syn攻击,并标记为s;
88.当数据包的大小大于65535个字节时,判断该攻击方式为ping of death攻击,并标记为d;
89.当数据包的目标端口为137、138或139,且urg位为“1”时,判断该方式为winnuke攻击,并标记为w;
90.当数据包中分片数据的片偏移量错误时,判断该攻击方式为teardrop攻击,并标记为t;
91.当数据包对非常用端口发送连接请求时,判断该攻击方式为tcp/udp端口扫描攻击,并标记为u。
92.进一步地,处理器分别与数据采集模块、初步判定模块、分类检测模块、攻击监测模块、预警维护模块和数据存储模块通信连接;预警维护模块分别与数据存储模块和攻击监测模块通信连接,初步判定模块分别与数据采集模块和分类检测模块通信连接,分类检测模块和攻击监测模块通信连接。
93.一种数据中心网络故障节点诊断方法,诊断方法的具体步骤包括:
94.步骤一:将网络节点的待检测节点标记为i,选取n个网络节点作为测试节点,并将测试节点标记为j;获取时间差值并标记为sij;将时间差值sij发送至初步判定模块;
95.步骤二:当初步判定模块接收到时间差值sij之后,获取故障评估系数gpxi;当故障评估系数gpxi满足gpxi=n+1时,则判定对应的待检测节点i正常,并将对应的待检测节点i标记为正常节点;当故障评估系数gpxi满足gpxi=0时,则判定对应的待检测节点i异常,将对应的待检测节点i标记为故障节点;否则,将对应的待检测节点i标记为嫌疑节点;生成正常节点集、故障节点集和嫌疑节点集;将嫌疑节点集发送至分类检测模块;
96.步骤三:当分类检测模块接收到嫌疑节点集时,通过数据存储模块获取分类模型;获取嫌疑节点的时间矩阵;将嫌疑节点的时间矩阵经过数据预处理之后输入至分类模型获取输出结果,并将输出结果标记为嫌疑标签,根据嫌疑标签分析嫌疑节点;对正常节点集和故障节点集进行更新;获取故障节点集中故障节点的位置并标记为目标位置,通过第三方地图平台生成目标位置示意图;通过处理器将目标位置示意图发送至预警维护模块。
97.上述公式均是去除量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式,公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者大量数据模拟获得。
98.本发明的工作原理:
99.将网络节点的待检测节点标记为i,选取n个网络节点作为测试节点,并将测试节点标记为j;通过测试节点j发送第一状态信号至待检测节点i,当待检测节点i接收到第一状态信号之后立即发送第二状态信号至测试节点j;当测试节点j接收到第二状态信号之后立即获取第二状态信号被接收时刻与第一状态信号发送时刻的时间差值,并将时间差值标记为sij;通过处理器将待检测节点i、测试节点j和时间差值sij发送至数据存储模块进行存储,同时将时间差值sij发送至初步判定模块;
100.当初步判定模块接收到时间差值sij之后,获取故障评估系数gpxi;当故障评估系数gpxi满足gpxi=n+1时,则判定对应的待检测节点i正常,并将对应的待检测节点i标记为正常节点;当故障评估系数gpxi满足gpxi=0时,则判定对应的待检测节点i异常,将对应的待检测节点i标记为故障节点;否则,将对应的待检测节点i标记为嫌疑节点;将正常节点进行整合生成正常节点集,将故障节点整合生成故障节点集,将嫌疑节点整合生成嫌疑节点集;通过处理器将正常节点集、故障节点集和嫌疑节点集发送至数据存储模块进行存储,同时,将嫌疑节点集发送至分类检测模块;
101.当分类检测模块接收到嫌疑节点集时,通过数据存储模块获取分类模型;获取嫌疑节点的时间矩阵;将嫌疑节点的时间矩阵经过数据预处理之后输入至分类模型获取输出结果,并将输出结果标记为嫌疑标签;所述嫌疑标签为嫌疑节点对应的节点标签;当嫌疑标签为1时,则判定嫌疑节点为正常节点;当嫌疑标签为0时,则判定嫌疑节点为故障节点;对正常节点集和故障节点集进行更新;获取故障节点集中故障节点的位置并标记为目标位置,通过第三方地图平台生成目标位置示意图;通过处理器将目标位置示意图发送至预警维护模块,同时将目标位置示意图、正常节点集和故障节点集发送至数据存储模块进行存储。
102.在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
103.以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。