1.一种云上系统全链路故障定位分析方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种云上系统全链路故障定位分析方法,其特征在于,预设时间段d和预设时间间隔e均为自定义参数。
3.根据权利要求1所述的一种云上系统全链路故障定位分析方法,其特征在于,微服务之间的请求成功率等于请求成功的数量除以请求的总数;微服务之间的平均响应时间等于所有请求的响应时间的总和除以请求的总数,其中请求的响应时间表示一个微服务发送请求的时间与该微服务接收到请求返回数据的时间之间的时间差,单位为毫秒;平均吞吐量通过每秒请求量或者每秒事务量表示;百分比响应等于请求成功响应的数量除以请求的总数;最大延时表示单次请求到响应的时间的最大值;微服务对应虚拟机的垃圾回收时间和垃圾回收次数分别表示虚拟机中的垃圾回收器释放不再被微服务占用的内存空间的时间和次数。
4.根据权利要求1所述的一种云上系统全链路故障定位分析方法,其特征在于,节点的初始向量通过将网络拓扑图信息中每分钟请求量、请求成功率、平均响应时间、平均吞吐量、百分比响应、最大延时与日志信息中微服务对应虚拟机的cpu占比、内存占用大小、垃圾回收时间、垃圾回收次数、线程数进行拼接得到组合向量表示。
5.根据权利要求1所述的一种云上系统全链路故障定位分析方法,其特征在于,当云上系统的网络拓扑图信息中的微服务之间存在直接的调用关系,则微服务对应的节点之间构建边,当云上系统的网络拓扑图信息中的微服务之间存在间接的调用关系,则微服务对应的节点之间不构建边。
6.根据权利要求1所述的一种云上系统全链路故障定位分析方法,其特征在于,全链路故障定位模型的计算公式包括:
7.根据权利要求1所述的一种云上系统全链路故障定位分析方法,其特征在于,用于训练全链路故障定位模型的训练样本通过模拟仿真平台获得,其中一个训练样本包括训练数据和训练标签,训练数据与基于云上系统的网络拓扑图信息和日志信息构建的图结构数据相同,训练标签为第二邻接矩阵,与第一邻接矩阵的表示相同,包括以下步骤:
8.根据权利要求7所述的一种云上系统全链路故障定位分析方法,其特征在于,将第一邻接矩阵的元素值与第二邻接矩阵的元素值之间的差作为全链路故障定位模型的损失函数。
9.根据权利要求1所述的一种云上系统全链路故障定位分析方法,其特征在于,当第一邻接矩阵的第x行的第y列的元素值为0时,则表示云上系统的第x个微服务与第y个微服务之间不存在调用关系,并将云上系统的网络拓扑图中对应的两个微服务之间的连接关系通过颜色标记作为故障预警标记,并根据两个微服务的ip地址或者唯一标识码生成预警信息发送给后台管理人员,其中1≤x≤n,1≤y≤n。
10.一种云上系统全链路故障定位分析系统,其特征在于,包括: