交易故障定位方法、装置、电子设备、介质及产品与流程

文档序号:34607309发布日期:2023-06-29 03:53阅读:38来源:国知局
交易故障定位方法、装置、电子设备、介质及产品与流程

本公开涉及新一代信息,可应用于金融科技,特别涉及一种交易故障定位方法、装置、电子设备、介质及产品。


背景技术:

1、随着新一代信息技术在赋能银行数字化建设加速发展的同时,系统的复杂度急剧上升,导致应用运维难度和成本快速增加。要解决新技术快速发展带来的应用运维复杂问题,需要加快传统的运维方式向智能化运维转型的进度,不断推进配套的运维工具建设,夯实数字基建能力。

2、在故障发生时,如何快速定位原因以及影响范围是运维体系工具建设中重要的一个环节。目前,故障定位的常用手段为基于交易码定位,在某一个交易码出现异常时,运维人员需要确认是该交易码自身的问题还是受到其他交易码的影响,此外,运维人员一般只监控重要交易码的配置。因此,现有基于交易码定位的方式存在定位过程耗时长,无法快速确定业务影响范围,并且,需要运维人员有丰富的运维经验,导致成本高及风险高。


技术实现思路

1、有鉴于此,本公开的主要目的是提供一种交易故障定位方法、装置、电子设备、介质及产品,旨在至少部分解决现有技术中无法快速确定业务影响范围,成本高及风险高的技术问题。

2、为实现上述目的,本公开实施例第一方面提供一种交易故障定位方法,包括:获取系统发生交易码报警前预设时间段内与所述交易码对应的交易数据;根据所述交易数据确定相互之间存在相关性的异常交易码;计算每个所述异常交易码对应的第一异常影响因子;获取处理与最大值的所述第一异常影响因子对应的所述异常交易码的服务器的性能数据;根据所述性能数据定位交易故障的位置。

3、根据本公开的实施例,所述根据所述交易数据确定相互之间存在相关性的异常交易码包括:计算与所述交易数据对应的故障开始时间和故障结束时间;基于与所述交易数据对应的故障开始时间和故障结束时间,计算与所述交易数据对应异的常程度值;基于与所述交易数据对应的故障开始时间、故障结束时间和异常程度值,确定相互之间存在相关性的异常交易码;其中,所述交易数据包括交易量、响应时间、业务成功率和系统成功率。

4、根据本公开的实施例,计算与所述交易量对应的故障开始时间和故障结束时间包括:分别计算所述预设时间段的前半时间段内每一分钟的交易量的第一平均值,得到多个第一平均值;计算所述多个第一平均值的第二平均值;计算所述前半时间段内的交易量与所述第二平均值的第一方差;计算所述预设时间段后半时间段内的每一分钟的交易量与所述前半时间段内的每一分钟的交易量的第二方差;记录所述第二方差与所述第一方差之间的第一差值大于第一差值阈值的时间点;将首次出现所述第一差值大于第一差值阈值的时间点确定为与所述交易量对应的故障开始时间;将最后出现所述第一差值大于第一差值阈值的时间点确定为与所述交易量对应的故障结束时间。

5、根据本公开的实施例,计算与所述响应时间对应的故障开始时间和故障结束时间包括:分别计算所述预设时间段的前半时间段内每一分钟的响应时间的第三平均值,得到多个第三平均值;计算所述多个第三平均值的第四平均值;计算所述前半时间段内的响应时间与所述第四平均值的第三方差;计算所述预设时间段的后半时间段内的每一分钟的响应时间与所述前半时间段内的每一分钟的响应时间的第四方差;记录所述第四方差与所述第三方差之间的第二差值大于第二差值阈值的时间点;将首次出现所述第二差值大于第二差值阈值的时间点确定为与所述响应时间对应的故障开始时间;将最后出现所述第二差值大于第二差值阈值的时间点确定为与所述响应时间对应的故障结束时间,其中,所述第二差值阈值小于所述第一差值阈值。

6、根据本公开的实施例,计算与所述业务成功率对应的故障开始时间和故障结束时间包括:分别计算所述预设时间段的前半时间段内每一分钟的业务成功率的第五平均值,得到多个第五平均值;计算所述多个第五平均值的第六平均值;计算所述前半时间段内的业务成功率与所述第六平均值的第五方差;计算所述预设时间段的后半时间段内的每一分钟的业务成功率与所述前半时间段内的每一分钟的业务成功率的第六方差;记录所述第六方差与所述第五方差之间的第三差值大于第三差值阈值的时间点;将首次出现所述第三差值大于第三差值阈值的时间点确定为与所述业务成功率对应的故障开始时间;将最后出现所述第三差值大于第三差值阈值的时间点确定为与所述业务成功率对应的故障结束时间,其中,所述第三差值阈值小于所述第二差值阈值。

7、根据本公开的实施例,计算与所述系统成功率对应的故障开始时间和故障结束时间包括:分别计算所述预设时间段的前半时间段内每一分钟的系统成功率的第七平均值,得到多个第七平均值;计算所述多个第七平均值的第八平均值;计算所述前半时间段内的系统成功率与所述第八平均值的第七方差;计算所述预设时间段的后半时间段内的每一分钟的系统成功率与所述前半时间段内的每一分钟的系统成功率率的第八方差;记录所述第八方差与所述第七方差之间的第四差值大于第四差值阈值的时间点;将首次出现所述第四差值大于第四差值阈值的时间点确定为与所述系统成功率对应的故障开始时间;将最后出现所述第四差值大于第四差值阈值的时间点确定为与所述系统成功率对应的故障结束时间,其中,所述第三差值阈值小于所述第二差值阈值。

8、根据本公开的实施例,基于与所述交易量对应的故障开始时间和故障结束时间,计算与所述交易量对应异常程度值包括:将从所述故障开始时间到所述故障结束时间的时间段内确定为故障时间段;计算在所述故障时间段之前且与所述故障时间段同时段的时间段内的交易量均值;根据所述故障时间段内每一分钟的交易量和所述交易量均值,计算所述故障时间段内每一分钟的交易量的第一波动率;在所述第一波动率大于第一阈值的情况下,将所述第一波动率确定为所述交易量的异常程度值;在所述第一波动率介于零与所述第一阈值之间的情况下,将所述第一波动率的倒数的相反数确定为所述交易量的异常程度值。

9、根据本公开的实施例,基于与所述响应时间对应的故障开始时间和故障结束时间,计算与所述响应时间对应异常程度值包括:将从所述故障开始时间到所述故障结束时间的时间段内确定为故障时间段;计算在所述故障时间段之前且与所述故障时间段同时段的时间段内的响应时间均值;根据所述故障时间段内每一分钟的响应时间和所述响应时间均值,计算所述故障时间段内每一分钟的响应时间的第二波动率;在所述第二波动率大于第二阈值的情况下,将所述第二波动率确定为所述响应时间的异常程度值。

10、根据本公开的实施例,基于与所述业务成功率对应的故障开始时间和故障结束时间,计算与所述业务成功率对应异常程度值包括:将从所述故障开始时间到所述故障结束时间的时间段内确定为故障时间段;计算在所述故障时间段之前且与所述故障时间段同时段的时间段内的业务成功率均值;根据所述故障时间段内每一分钟的业务成功率和所述业务成功率均值,计算所述故障时间段内每一分钟的业务成功率的第三波动率;在所述第三波动率小于第三阈值的情况下,将所述第三波动率的倒数确定为所述业务成功率的异常程度值。

11、根据本公开的实施例,基于与所述系统成功率对应的故障开始时间和故障结束时间,计算与所述系统成功率对应异常程度值包括:将从所述故障开始时间到所述故障结束时间的时间段内确定为故障时间段;计算在所述故障时间段之前且与所述故障时间段同时段的时间段内的系统成功率均值;根据所述故障时间段内每一分钟的系统成功率和所述系统成功率均值,计算所述故障时间段内每一分钟的系统成功率的第四波动率;在所述第四波动率小于第四阈值的情况下,将所述第四波动率的倒数确定为所述业务成功率的异常程度值。

12、根据本公开的实施例,所述基于与所述交易数据对应的故障开始时间、故障结束时间和异常程度值,确定相互之间存在相关性的异常交易码包括:将从所述故障开始时间到所述故障结束时间的时间段内确定为故障时间段;根据所述异常程度值确定所述交易数据的波动方向;在两个所述交易数据的波动方向一致的时间大于所述故障时间段一半的情况下,确定与两个所述交易数据分别对应的两个交易码为存在相关性的异常交易码。

13、根据本公开的实施例,在所述根据所述异常程度值确定所述交易数据的波动方向之前还包括:确定与所述交易量对应的故障开始时间、所述响应时间对应的故障开始时间、所述业务成功率对应的故障开始时间和系统成功率对应的故障开始时间中的最早故障开始时间;确定与所述交易量对应的故障结束时间、所述响应时间对应的故障结束时间、所述业务成功率对应的故障结束时间和系统成功率对应的故障结束时间中的最早故障结束时间;计算每一交易数据的故障开始时间与所述最早故障开始时间之间的第一时间差值,每一交易数据的故障结束时间与所述最早故障结束时间之间的第二时间差值;删除与所述第一时间差值和所述第二时间差值大于时间阈值对应的所述交易数据。

14、根据本公开的实施例,所述计算每个所述异常交易码对应的第一异常影响因子包括:计算所有异常交易码的交易量的异常程度值的绝对值、响应时间的异常程度值的绝对值、业务成功率的异常程度值的绝对值和系统成功率的异常程度值的绝对值的均值,得到异常程度均值;分别计算每个所述异常交易码的交易量的异常程度值、响应时间的异常程度值、业务成功率的异常程度值和系统成功率的异常程度值与所述异常程度均值的比值;对每个所述异常交易码的四个所述比值进行求和,得到每个所述异常交易码的第一异常影响因子。

15、根据本公开的实施例,所述服务器包括应用服务器和数据库服务器;所述根据所述性能数据定位交易故障的位置包括:将从所述故障开始时间到所述故障结束时间的时间段内确定为故障时间段;根据所述应用服务器在所述故障时间段内的性能数据和所述故障时间段内之前同时段内的性能数据,计算所述应用服务器的第二异常影响因子;根据所述数据库服务器在所述故障时间段内的性能数据和所述故障时间段内之前同时段内的性能数据,计算所述数据库服务器的第三异常影响因子;根据所述第二异常影响因子和所述第三异常影响因子,定位所述故障的位置。

16、根据本公开的实施例,所述根据所述第二异常影响因子和所述第三异常影响因子,定位所述故障的位置包括:在所述第二异常影响因子指示所述应用服务器正常和所述第三异常影响因子指示所述数据库服务器正常,确定交易故障为交易码异常;在所述第二异常影响因子指示故障的应用服务器分布于不同网段,且所述第三异常影响因子指示所述数据库服务器正常的情况下,确定交易故障为交易码异常;在所述第二异常影响因子指示故障的应用服务器分布于同一网段,且所述第三异常影响因子指示所述数据库服务器正常的情况下,确定交易故障为所述应用服务器所处网段异常;在所述第三异常影响因子指示所述数据库服务器故障的情况下,确定交易故障为数据库服务器异常。

17、根据本公开的实施例,在所述根据所述性能数据定位交易故障的位置之后,所述方法还包括执行以下操作之一:在确定交易故障为交易码异常的情况下,对异常交易码进行限流或熔断处理;在确定交易故障为所述应用服务器所处网段异常的情况下,对异常网络所在的应用服务器进行隔离处理;在确定交易故障为数据库服务器异常的情况下,对所述数据库服务器进行主从切换处理。

18、根据本公开的实施例,所述应用服务器的性能数据包括第一中央处理器数据、第一内存数据、第一磁盘数据、第一连接数和交易形式;所述数据库的性能数据包括第二中央处理器数据、第二内存数据、第二磁盘数据、第二连接数、磁盘输入输出接口、主从延迟、查询速度、文件和/或表格的开启数量。

19、本公开实施例第二方面提供一种交易故障定位装置,包括:第一获取模块,用于获取系统发生交易码报警前预设时间段内与所述交易码对应的交易数据;确定模块,用于根据所述交易数据确定相互之间存在相关性的异常交易码;计算模块,用于计算每个所述异常交易码对应的第一异常影响因子;第二获取模块,用于获取处理与最大值的所述第一异常影响因子对应的所述异常交易码的服务器的性能数据;定位模块,用于根据所述性能数据定位交易故障的位置。

20、本公开实施例第三方面提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据上述交易故障定位方法。

21、本公开实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有可执行指令,该指令被处理器执行时使处理器执行根据上述交易故障定位方法。

22、本公开实施例第五方面提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据上述交易故障定位方法。

23、根据本公开实施例提供的交易故障定位方法、装置、电子设备、介质及产品,至少具备以下有益效果:

24、基于交易码的交易数据挖掘交易码与交易码之间的相关信息,能够找到相关的交易码,在某一个交易码出现异常时,能够快速确定与该异常交易码关联的交易码,为故障定位提供有价值的信息。在此基础上,通过挖掘处理异常交易码的服务器的性能数据实现故障定位,从而提高故障定位的效率及精度,有效加快故障处理过程。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1