一种服务运行异常原因检测方法、装置、设备及存储介质与流程

文档序号:37447441发布日期:2024-03-28 18:30阅读:16来源:国知局
一种服务运行异常原因检测方法、装置、设备及存储介质与流程

本发明涉及计算机,具体而言,涉及一种服务运行异常原因检测方法、装置、设备及存储介质。


背景技术:

1、在分布式系统中,越来越多的应用服务被部署在计算机集群中的各节点中对用户提供相应的服务。为了确保应用服务的正常运行,需要定期对各节点的服务运行状况进行检测,并对出现异常的服务进行异常原因的分析和排查,以根据分析结果对计算机集群进行运维管理,确保应用服务的正常运行。

2、现有技术中,通常是由运维人员根据计算机集群的运行信息,利用其所具备的分析经验对是否发生异常以及异常原因进行主观评估。但是在研究中发现,由于运维人员所具备的经验和专业能力可能存在缺陷,在运维人员对异常原因进行分析排查时,可能会导致得到的异常原因分析结果与实际结果出现不符的情况发生,从而降低了得到的异常原因的有效性和准确性。同时,由于应用服务运行过程中会产生大量的运行数据,运维人员需要花费大量时间和精力对相关数据进行分析和评估,从而会导致人力成本的增加。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种服务运行异常原因检测方法、装置、设备及存储介质,以减少在进行服务运行异常原因检测时所需耗费的人力成本,同时提高检测得到的服务运行异常原因的有效性和准确性。

2、第一方面,本技术实施例提供了一种服务运行异常原因检测方法,所述方法包括:

3、获取目标服务运行时的多个服务运行数据,并对各服务运行数据进行异常检测得到异常服务运行数据;

4、根据每两个异常服务运行数据之间的依赖关系生成异常关系图,其中,各异常服务运行数据为所述异常关系图中的节点,每两个异常服务运行数据之间的依赖关系为所述异常关系图中的边;

5、根据所述异常关系图以及运维信息数据库,利用大模型确定出所述目标服务的目标异常原因。

6、所述服务运行数据包括指标数据、追踪数据、事件数据、自定义资源数据以及业务日志数据。

7、可选地,所述对各服务运行数据进行异常检测得到异常服务运行数据,包括:

8、对于各服务运行数据,当该服务运行数据为指标数据、追踪数据或事件数据时,对该服务运行数据进行解析,根据解析结果确定出该服务运行数据是否为异常数据;

9、当该服务运行数据为自定义资源数据时,利用训练好的第一异常数据检测模型确定出该服务运行数据是否为异常数据;

10、当该服务运行数据为业务日志数据时,通过日志解析工具和训练好的第二异常数据检测模型确定出该服务运行数据是否为异常数据;

11、将确定出的为异常数据的服务运行数据标记为所述异常服务运行数据。

12、可选地,所述通过日志解析工具和训练好的第二异常数据检测模型确定出该服务运行数据是否为异常数据,包括:

13、利用正则表达式对该服务运行数据中的关键字进行过滤得到数据模板;

14、通过所述日志解析工具判断该服务运行数据对应的数据模板是否存在于异常模板数据库中,其中,所述异常模板数据库中存储有被确定为异常数据的服务运行数据的数据模板;

15、若该服务运行数据对应的数据模板存在于所述异常模板数据库中,则确定出该服务运行数据为异常数据;

16、若该服务运行数据对应的数据模板不存在于所述异常模板数据库中,则利用所述第二异常数据检测模型确定出该服务运行数据是否为异常数据;

17、若利用所述第二异常数据检测模型确定出该服务运行数据为异常数据,则将该服务运行数据对应的数据模板存储至所述异常模板数据库中。

18、可选地,在对各服务运行数据进行异常检测得到异常服务运行数据前,所述方法还包括:

19、分别对所述第一异常数据检测模型的提示词参数和所述第二异常数据检测模型的提示词参数进行调试。

20、可选地,所述根据每两个异常服务运行数据之间的依赖关系生成异常关系图,包括:

21、获取各服务运行数据之间的依赖关系,其中,所述依赖关系包括从属关系和调用关系;

22、根据各服务运行数据之间的依赖关系生成依赖关系图,其中,具有从属关系的两个服务运行数据分别对应父节点和子节点,具体调用关系的两个服务运行数据分别对应同一个父节点的子节点;

23、提取所述依赖关系图中各异常服务运行数据对应的异常节点以及每两个异常节点之间的依赖关系得到所述异常关系图。

24、可选地,所述根据所述异常关系图以及运维信息数据库,利用大模型确定出所述目标服务的目标异常原因,包括:

25、利用训练好的向量转换模型将所述异常关系图转换为向量;

26、根据所述向量从所述运维信息数据库中确定出所述目标服务的运维信息;

27、根据所述目标服务的运维信息利用所述大模型确定出所述目标异常原因,以及所述目标异常原因的解决方式。

28、第二方面,本技术实施例提供了一种服务运行异常原因检测装置,所述装置包括:

29、异常检测模块,用于获取目标服务运行时的多个服务运行数据,并对各服务运行数据进行异常检测得到异常服务运行数据;

30、异常关系图生成模块,用于根据每两个异常服务运行数据之间的依赖关系生成异常关系图,其中,各异常服务运行数据为所述异常关系图中的节点,每两个异常服务运行数据之间的依赖关系为所述异常关系图中的边;

31、异常原因确定模块,用于根据所述异常关系图以及运维信息数据库,利用大模型确定出所述目标服务的目标异常原因。

32、可选地,所述服务运行数据包括指标数据、追踪数据、事件数据、自定义资源数据以及业务日志数据。

33、可选地,所述异常检测模块在用于对各服务运行数据进行异常检测得到异常服务运行数据时,具体用于:

34、对于各服务运行数据,当该服务运行数据为指标数据、追踪数据或事件数据时,对该服务运行数据进行解析,根据解析结果确定出该服务运行数据是否为异常数据;

35、当该服务运行数据为自定义资源数据时,利用训练好的第一异常数据检测模型确定出该服务运行数据是否为异常数据;

36、当该服务运行数据为业务日志数据时,通过日志解析工具和训练好的第二异常数据检测模型确定出该服务运行数据是否为异常数据;

37、将确定出的为异常数据的服务运行数据标记为所述异常服务运行数据。

38、可选地,所述异常检测模块在用于通过日志解析工具和训练好的第二异常数据检测模型确定出该服务运行数据是否为异常数据时,具体用于:

39、利用正则表达式对该服务运行数据中的关键字进行过滤得到数据模板;

40、通过所述日志解析工具判断该服务运行数据对应的数据模板是否存在于异常模板数据库中,其中,所述异常模板数据库中存储有被确定为异常数据的服务运行数据的数据模板;

41、若该服务运行数据对应的数据模板存在于所述异常模板数据库中,则确定出该服务运行数据为异常数据;

42、若该服务运行数据对应的数据模板不存在于所述异常模板数据库中,则利用所述第二异常数据检测模型确定出该服务运行数据是否为异常数据;

43、若利用所述第二异常数据检测模型确定出该服务运行数据为异常数据,则将该服务运行数据对应的数据模板存储至所述异常模板数据库中。

44、可选地,所述装置还包括:

45、参数调试模块,用于在对各服务运行数据进行异常检测得到异常服务运行数据前,分别对所述第一异常数据检测模型的提示词参数和所述第二异常数据检测模型的提示词参数进行调试。

46、可选地,所述异常关系图生成模块在用于根据每两个异常服务运行数据之间的依赖关系生成异常关系图时,具体用于:

47、获取各服务运行数据之间的依赖关系,其中,所述依赖关系包括从属关系和调用关系;

48、根据各服务运行数据之间的依赖关系生成依赖关系图,其中,具有从属关系的两个服务运行数据分别对应父节点和子节点,具体调用关系的两个服务运行数据分别对应同一个父节点的子节点;

49、提取所述依赖关系图中各异常服务运行数据对应的异常节点以及每两个异常节点之间的依赖关系得到所述异常关系图。

50、可选地,所述异常原因确定模块在用于根据所述异常关系图以及运维信息数据库,利用大模型确定出所述目标服务的目标异常原因时,具体用于:

51、利用训练好的向量转换模型将所述异常关系图转换为向量;

52、根据所述向量从所述运维信息数据库中确定出所述目标服务的运维信息;

53、根据所述目标服务的运维信息利用所述大模型确定出所述目标异常原因,以及所述目标异常原因的解决方式。

54、第三方面,本技术实施例提供了一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面中任一种可选地实施方式中所述的服务运行异常原因检测方法的步骤。

55、第四方面,本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面中任一种可选地实施方式中所述的服务运行异常原因检测方法的步骤。

56、本技术提供的技术方案包括但不限于以下有益效果:

57、本技术通过获取目标服务运行时的多个服务运行数据,并对各服务运行数据进行异常检测得到异常服务运行数据,能够获取到用于指示应用目标服务运行时出现异常的相关运行数据,为后续的异常原因分析提供数据来源。

58、然后,根据每两个异常服务运行数据之间的依赖关系生成异常关系图,其中,各异常服务运行数据为所述异常关系图中的节点,每两个异常服务运行数据之间的依赖关系为所述异常关系图中的边,通过上述步骤,能够将具有依赖关系的异常服务运行数据进行关联,基于不同异常服务运行数据之间的相互作用对异常原因进行分析,能够充分考虑到各数据之间可能存在的影响,避免了异常原因分析过程中的局限性。

59、最后,根据异常关系图以及运维信息数据库,利用大模型确定出目标服务的目标异常原因和目标异常原因的解决方式,能够基于各异常服务运行数据以及各异常服务运行数据之间的依赖关系,更加全面和准确地确定出应用服务的异常原因和解决方式。

60、采用上述方法,基于应用目标服务运行时所产生的用于指示异常运行状态的相关数据,以及各数据之间的依赖关系生成异常关系图,将异常关系图结合运维信息数据库中的运维信息,使用大模型确定出目标服务的服务运行异常原因,能够在不需要运维人员对相关数据进行经验分析和评估的情况下实现对异常原因的检测,从而减少了进行服务运行异常原因检测时所需耗费的人力成本。同时,由于不会收到人为经验的干扰和主观判断的影响,从而提高了检测得到的服务运行异常原因的有效性和准确性。除此之外,本技术不仅局限于对单个运行数据进行分析,同时还考虑到了各运行数据之间的相互作用和可能存在的影响,基于更加全面的分析策略对服务运行的异常原因进行检测,能够提高检测得到的服务运行异常原因的有效性和准确性。

61、为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1