基于SLA实现5G设备CPE故障告警实时上报的方法与流程

文档序号:27133558发布日期:2021-10-29 22:26阅读:来源:国知局

技术特征:
1.基于sla实现5g设备cpe故障告警实时上报的方法,其特征在于包括sla指标体系选择和告警实时上报监控过程,(1)sla指标体系包括:1)服务可用性服务可用性指cpe无线网络设备在面对异常时能够提供正常网络服务的能力,即服务的效果、效能和效率,体系中故障告警标识为丢包率检测值大于服务可用性丢包率阈值即服务可用性中断告警,测量对象包括cpe模式和ar模式;2)时延和丢包率时延指cpe无线网络设备在访问网络另一端的ip地址得到响应的所需要的时间,体系中故障告警标识分为各个目的方向ip上的时延大于阈值告警即时延告警;丢包率指cpe无线网络设备在访问网络另一端的ip地址得到响应时,一个或多个数据包的数据无法透过网上到达目的地的占比,体系中故障告警标识为各个目的方向ip上的丢包率大于阈值告警即丢包率告警,测量对象包括cpe模式和ar模式;3)测速速率测速速率指cpe无线网络设备在收到测速指令进行上传和下载文件时技术上所能达到的最大理论速率值,速率越高,上传和下载的越快,体系中故障告警标识按闲忙时时间段分为上行速率小于阈值告警和下行速率小于阈值告警即上行速率告警、下行速率告警,测量对象不区分cpe模式和ar模式;(2)告警实时上报监控过程包括:1)数据解析,包括cpe模式数据解析和ar模式数据解析;2)告警上报,包括cpe模式告警上报和ar模式告警上报;3)告警监控,包括周期性指标监控和告警监控。2.根据权利要求1所述的基于sla实现5g设备cpe故障告警实时上报的方法,其特征在于:服务可用性中断告警上报监控过程如下:步骤一:数据解析cpe模式:(1)cep模块接收用户表中所有属于cpe模式的用户号码所对应的用户面xdr单据探针数据,获取时间、用户号码、上行流量、下行流量这些数据信息;(2)cep模块内保存每个用户号码对应提取的数据信息,若超过5分钟cep模块再没收到这个用户的流量数据信息,此用户数据就会输出加载到pt数据库的疑似故障用户列表内;(3)seq的web模块定时间隔5分钟会扫描疑似故障用户列表,获取到所有入表的用户号码多线程并行判断检测条件;(4)对所有通过检测条件的用户号码去重后关联用户表获取对应的cpe设备号码、随机获取一个目的方向ip;(5)用每个cpe设备号码和目的方向ip向dsi发送所属的ipping检测指令请求;(6)dsi接收到请求后立即转发请求到ltm;(7)ltm识别请求的cpe设备号码,触发cpe设备提交ipping检测测试;(8)web模块30秒后会再次用cpe设备号码向dsi发送所属的ipping result检测指令请
求,通过dsi转发到ltm,ltm触发cpe设备提交ipping result检测测试;(9)cpe设备会将ipping检测测试结果反馈给ltm;(10)ltm再将反馈信息立即返回给dsi;(11)dsi接收到完成检测状态的结果信息后解析为合规格式数据复制为三份,一份输出到seq的web模块,一份输出到cep模块,一份输出到spark模块;(12)web模块接收后会记录相关日志并更新此设备对应用户的疑似故障用户列表中的检测时间,cep模块接收后进行告警上报步骤,spark模块接收后进行告警监控步骤;ar模式:(1)cep模块接收用户表中所有属于ar模式的用户号码对应的7张用户面xdr单据探针数据,获取时间、用户号码、上行流量、下行流量这些数据信息;(2)cep模块内保存每个用户号码对应提取的数据信息,若超过5分钟cep模块再没收到这个用户的流量数据信息,则进行ar模式下告警上报步骤;步骤二:告警上报cpe模式:(1)cep模块实时解析流入的合规格式数据,获取5g设备参数信息、主要包括企业名称、用户号码、cpe设备号码、丢包率检测值、服务可用性丢包率阈值、目的方向ip、服务小区电平值、服务小区质量值这些数据信息;(2)用数据中的丢包率检测值与服务可用性丢包率阈值字段作对比,若存在同一用户号码的不同目的方向ip数据,则以30秒内所有目的方向ip数据中最小丢包率检测值为准;(3)若丢包率检测值大于服务可用性丢包率阈值,则说明此cpe设备链路异常,同时记录链路异常起始时间点为time1;(4)cep模块保存此设备链路异常信息,并同时向pt数据库加载一条告警标识信息供告警监控使用;(5)cep模块此后若再一次收到同一cpe设备号码的合规格式数据,并且丢包率检测值小于等于服务可用性丢包率阈值,则说明此cpe设备链路异常已经恢复;(6)因为cep模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为time2并用用户号码关联为一条链路异常恢复信息;(7)cep模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向pt数据库加载一条告警恢复标识信息供告警监控使用;(8)此cpe设备往复继续执行上述告警上报过程;ar模式:(1)cep模块实时解析流入的用户流量数据信息,关联用户表获取5g设备参数信息、主要包括企业名称、用户号码、cpe设备号码这些数据信息;(2)同时记录链路异常起始时间点为time1;(3)cep模块保存此设备链路异常信息,并同时向pt数据库加载一条服务可用性中断告警标识信息供告警监控使用;(4)cep模块此后若再一次收到同一用户号码的流量数据信息,则说明此用户号码对应的cpe设备链路异常已经恢复;(5)因为cep模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时
间点为time2并用用户号码关联为一条链路异常恢复信息;(6)cep模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向pt数据库加载一条服务可用性中断告警恢复标识信息供告警监控使用;(7)由于流量数据信息不包含服务小区电平值、服务小区质量值,seq的web模块定时间隔3分钟扫描pt数据库中的属于服务可用性指标、ar模式的cpe设备告警信息,用这些告警信息所属的cpe设备号码请求无线数据接口获取服务小区电平值、服务小区质量值,用此更新cpe设备告警信息填入服务小区电平值、服务小区质量值;同时对有time2告警恢复时间的告警恢复数据用对应告警数据信息的服务小区电平值、服务小区质量值反填更新到告警恢复数据中;(8)此cpe设备往复继续执行上述告警上报过程;步骤三:告警监控周期性指标监控:(1)seq的web模块定时间隔3分钟重新查询pt数据库获取此cpe设备服务可用性中断的时间总和;(2)按照可选月粒度、年粒度计算出服务可用性中断占比;(3)获取最新计算后的结果数据实现实时监控;告警监控:(1)seq的web模块定时间隔3分钟重新查询pt数据库最新服务可用性中断告警数据及服务可用性中断告警恢复数据;(2)对查询到标识的服务可用性中断告警数据以红色高亮字体优先表格展示;(3)对查询到标识的服务可用性中断告警恢复数据按历史告警存储;(4)维护人员可以通过服务可用性中断告警信息或者服务可用性中断告警恢复信息的定界按钮进入到故障树系统查询具体故障根因。3.根据权利要求2所述的基于sla实现5g设备cpe故障告警实时上报的方法,其特征在于所述检测条件如下:a、先获取此用户在疑似故障用户列表中的检测时间,若检测时间为空就视为通过检测条件;若不为空继续b,其中新入表用户检测时间为空,之前检测过但非成功的用户检测时间不为空;b、从用户工作时间表里获取此用户对应星期的当天工作时间分段,若用户工作时间段不为空,那么当前时间在工作时间分段范围内就视为通过检测条件;若不在工作时间分段范围内,用当前时间减去检测时间如果大于1小时就视为通过检测条件,否则就视为没有通过检测条件;若用户工作时间表里没有此用户或者此用户对应星期的当天工作时间段为空,则用当前时间减去检测时间如果大于1小时就视为通过检测条件,否则就视为没有通过检测条件。4. 根据权利要求1所述的基于sla实现5g设备cpe故障告警实时上报的方法,其特征在于:时延和丢包率故障告警上报监控过程如下:步骤一:数据解析cpe模式:(1)seq的web模块定时间隔1小时获取用户表中所有属于cpe模式的cpe设备号码、目的
方向ip;(2)用每个cpe设备号码多线程并行向dsi发送每个cpe设备所属的ipping检测指令请求,若一个cpe设备号码配置了多个目的方向ip,则多个目的方向ipping检测指令请求依次同步执行;(3)dsi接收到请求后立即转发请求到ltm;(4)ltm识别请求的cpe设备号码,触发cpe设备提交ipping检测测试;(5)web模块30秒后会再次用cpe设备号码向dsi发送所属的ipping result检测指令请求,通过dsi转发到ltm,ltm触发cpe设备提交ipping result检测测试;(6)cpe设备会将ipping检测测试结果反馈给ltm;(7)ltm将反馈信息立即返回给dsi;(8)dsi接收到完成检测状态的结果信息后解析为合规格式数据复制为三份,一份输出到seq的web模块,一份输出到cep模块,一份输出到spark模块;(9)web模块接收后会记录相关日志,cep模块接收后进行告警上报步骤,spark模块接收后进行告警监控步骤;ar模式:(1)利用ar的nqa特性定时间隔5分钟对用户表中所有属于ar模式的cpe设备号码触发ipping检测测试;(2)cpe设备完成ipping检测测试后反馈给ar;(3)ar将ipping结果信息通过sftp协议上传到dsi;(4)dsi接收到结果信息后解析为合规格式数据复制为二份,一份输出到cep模块,一份输出到spark模块;(5)cep模块接收后进行ar模式告警上报步骤,spark模块接收后进行告警监控步骤;步骤二:告警上报cpe模式:(1)cep模块实时解析流入的合规格式数据,获取5g设备参数信息、主要包括企业名称、用户号码、cpe设备号码、时延检测值、时延阈值、丢包率检测值、丢包率阈值、目的方向ip、服务小区电平值、服务小区质量值这些数据信息;(2)用数据中的时延检测值、丢包率检测值与时延阈值、丢包率阈值字段作对比,若存在同一用户号码的不同目的方向ip数据,则以30秒内所有目的方向ip数据中最小时延检测值或最小丢包率检测值为准;(3)若时延检测值大于时延阈值或者丢包率检测值大于丢包率阈值,则说明此cpe设备链路异常,同时记录链路异常起始时间点为time1;(4)cep模块保存此设备链路异常信息,并同时向pt数据库加载一条时延或丢包率告警标识信息供告警监控使用;(5)cep模块此后若再一次收到同一用户号码的合规格式数据,并且时延检测值小于等于时延阈值或者丢包率检测值小于等于丢包率阈值,则说明此cpe设备链路异常已经恢复;(6)因为cep模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为time2并用用户号码和目的方向ip关联为一条链路异常恢复信息,包含time1告警时间,time2告警恢复时间;
(7)cep模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向pt数据库加载一条时延或丢包率告警恢复标识信息供告警监控使用;(8)此cpe设备往复继续执行上述告警上报过程;ar模式:ar模式过程与cpe模式一致;步骤三:告警监控周期性指标监控:(1)spark模块定时间隔1小时对流入的合规格式数据进行解析获取5g设备参数信息、主要包括企业名称、用户号码、cpe设备号码、时延检测值、时延阈值、丢包率检测值、丢包率阈值这些数据信息;(2)将同一用户号码的时延检测值、丢包率检测值按平均数公式计算汇聚为时延平均值、丢包率平均值;(3)将计算后的结果采集加载到iq数据库;(4)seq的web模块定时间隔3分钟重新读取iq数据库最近1小时时延或丢包率数据实现实时监控;告警监控:(1)seq的web模块定时间隔3分钟重新查询pt数据库最新时延或丢包率告警数据及时延或丢包率告警恢复数据;(2)对查询到标识的时延或丢包率告警数据以红色高亮字体表格展示;(3)对查询到标识的时延或丢包率告警恢复数据按历史告警存储;(4)维护人员可以通过时延或丢包率告警信息或者时延或丢包率告警恢复信息进入到故障树系统查询具体故障根因。5. 根据权利要求1所述的基于sla实现5g设备cpe故障告警实时上报的方法,其特征在于:速率上行和下行告警上报监控过程如下:步骤一:数据解析(1)seq的web模块定时间隔1小时按照用户工作时间表中闲时和忙时时间段获取用户表中所有待测速的cpe设备号码;(2)用每个cpe设备号码多线程并行向dsi发送每个cpe所属的upload上行速率检测指令和download下行速率检测指令请求,一个cpe设备上行和下行速率检测指令请求依次同步执行;(3)dsi接收到请求后立即转发请求到ltm;(4)ltm识别请求的cpe设备,触发cpe提交速率检测测试;(5)web模块30秒后会再次用cpe设备号码向dsi发送所属的result检测指令请求,通过dsi转发到ltm,ltm触发cpe设备提交result检测测试;(6)cpe设备会将速率检测测试结果反馈给ltm;(7)ltm将反馈信息立即返回给dsi;(8)dsi接收到完成检测状态的结果信息后解析为合规格式数据复制为三份,一份输出到seq的web模块,一份输出到cep模块,一份输出到spark模块;(9)web模块接收后会记录相关日志,cep模块接收后进行告警上报步骤,spark模块接
收后进行告警监控步骤;步骤二:告警上报(1)cep模块实时解析流入的合规格式数据,获取5g设备参数信息、主要包括企业名称、用户号码、设备号码、上行速率检测值、下行速率检测值、上行速率阈值、下行速率阈值、服务小区电平值、服务小区质量值这些数据信息;(2)用数据中的上下行速率检测值与上下行速率阈值分别作对比;(3)若上行速率检测值小于上行速率阈值,则说明此cpe设备链路上行速率异常,同时记录链路异常起始时间点为time1;若下行速率检测值小于下行速率阈值,则说明此cpe设备链路下行速率异常,同时记录链路异常起始时间点为time1;(4)cep模块保存此设备链路异常信息,并同时向pt数据库加载一条速率告警信息供告警监控使用;(5)cep模块此后若再一次收到同一cpe设备的合规格式数据,并且上行速率检测值大于等于上行速率阈值或者下行速率检测值大于等于下行速率阈值,则说明此cpe设备链路异常已经恢复;(6)因为cep模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为time2并用用户号码和上下行关联为一条链路异常恢复信息,包含time1告警时间,time2告警恢复时间;(7)cep模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向pt数据库加载一条速率告警恢复标识信息供告警监控使用;(8)此cpe设备往复继续执行上述告警上报过程;步骤三:告警监控周期性指标监控:(1)spark模块定时间隔1小时对流入的合规格式数据进行解析获取5g设备参数信息、主要包括企业名称、用户号码、设备号码、上行速率检测值、下行速率检测值、上行速率阈值、下行速率阈值这些数据信息;(2)将同一用户号码的上行速率检测值、下行速率检测值指标按平均数公式计算汇聚为上行速率检测平均值、下行速率检测平均值;(3)将计算后的结果采集加载到iq数据库;(4)seq的web模块定时间隔3分钟重新读取iq数据库最近1小时速率数据实现实时监控;告警监控:(1)seq的web模块定时间隔3分钟重新查询pt数据库最新速率告警数据及速率告警恢复数据;(2)对查询到标识的速率告警数据以红色高亮字体表格展示;(3)对查询到标识的速率告警恢复数据按历史告警存储;(4)维护人员可以通过点击速率告警信息或者速率告警恢复信息进入到故障树系统查询具体故障根因。

技术总结
本发明涉及一种基于SLA实现5G设备CPE故障告警实时上报的方法。其特征在于包括SLA指标体系选择和告警实时上报监控过程,SLA指标体系包括:1)服务可用性,2)时延和丢包率,3)测速速率;告警实时上报监控过程包括:1)数据解析,2)告警上报,3)告警监控。本发明可以灵活设置针对不同业务目的方向IP的时延,丢包率指标阈值进行监控,通过端侧测速统计,获取真实的管道最大带宽速率,实现多设备多层次实时监控;其次通过串联衔接SEQ、DSI、LTM、CPE等服务模块实现SLA指标故障告警实时上报,配合使用故障树定界主动发现故障问题根因,从而提高故障定位的及时性、准确性和系统可靠性。准确性和系统可靠性。


技术研发人员:严龙 卢斌 高铖 黄钢 吴培培 林正 董乐为 张洪斌
受保护的技术使用者:杭州东信网络技术有限公司
技术研发日:2021.08.17
技术公布日:2021/10/28
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1