数据处理方法和装置、电子设备、计算机可读存储介质与流程

文档序号:35425138发布日期:2023-09-13 14:21阅读:35来源:国知局
数据处理方法和装置、电子设备、计算机可读存储介质与流程

本公开涉及流量回放,尤其涉及一种数据处理方法和装置、电子设备、计算机可读存储介质。


背景技术:

1、对于线上应用程序,系统通常会定期针对特定的链路进行流量回放,以实现主动的问题排查。然而对于线上出现的偶现的问题,大部分系统中仅会记录这类问题出现时链路的入参及返回数据,对于链路中的详细数据并没有进行完整记录,因此,对于该类问题,通常只能采用人工分析的方式定位问题,没有充分利用计算资源来提升排查偶现问题的效率,存在资源利用率低的问题。


技术实现思路

1、本公开提供一种数据处理方法和装置、电子设备、计算机可读存储介质,以至少解决相关技术中的如何提高排查偶现问题时的资源利用率的问题。

2、根据本公开的第一方面,提供了一种数据处理方法,所述数据处理方法包括:获取待处理链路的输入数据和输出数据作为主输入数据和主输出数据,其中,所述待处理链路包括多个按序连接的子链路;从所述待处理链路的多个子链路中确定一个参考子链路,并基于所述待处理链路处理所述主输入数据,得到模仿主输出数据,其中,所述参考子链路的输出数据通过执行所述参考子链路得到,所述待处理链路中除所述参考子链路以外的其他子链路的输出数据通过预先训练的预测模型得到,所述预测模型用于预测相应子链路的输出数据;判断是否满足结束条件,其中,所述结束条件是表示无需从所述待处理链路的多个子链路中确定新的参考子链路的条件;响应于满足所述结束条件,基于所述主输出数据,从所述待处理链路的所有所述模仿主输出数据中,确定一个近似主输出数据;将所述近似主输出数据对应的参考子链路,确定为目标子链路。

3、可选地,所述响应于满足所述结束条件,基于所述主输出数据,从所述待处理链路的所有所述模仿主输出数据中,确定一个近似主输出数据,包括:响应于满足所述结束条件,确定所述待处理链路的所有所述模仿主输出数据各自与所述主输出数据的相似程度;从所述待处理链路的所有所述模仿主输出数据中,确定相似程度最大且大于第一预设阈值的一个,作为所述近似主输出数据。

4、可选地,所述从所述待处理链路的多个子链路中确定一个参考子链路,包括:从所述待处理链路的多个子链路中确定一个只读类型的子链路,作为所述参考子链路。

5、可选地,在所述响应于满足所述结束条件,基于所述主输出数据,从所述待处理链路的所有所述模仿主输出数据中,确定一个近似主输出数据之后,所述数据处理方法还包括:响应于从所述待处理链路的所有所述模仿主输出数据中无法确定出所述近似主输出数据,将所述待处理链路中的写类型的子链路作为新的待处理链路,重复执行从获取待处理链路的输入数据和输出数据到确定所述近似主输出数据的步骤,直到确定出所述近似主输出数据或无法确定出新的待处理链路,其中,在所述待处理链路的所有所述模仿主输出数据与所述主输出数据的相似程度均小于或等于所述第一预设阈值的情况下,确认无法确定出所述近似主输出数据。

6、可选地,所述结束条件包括以下至少一个:所述待处理链路的所有只读类型的子链路对应的所述模仿主输出数据均已得到、当前得到的所述模仿主输出数据与所述主输出数据的相似程度超过第二预设阈值,其中,所述第二预设阈值大于所述第一预设阈值。

7、可选地,每个子链路均具有对应的预测模型,所述预先训练的预测模型通过以下步骤训练得到:获取待训练子链路在生产环境的多个样本数据,所述样本数据包括样本输入数据和样本输出数据;根据所述多个样本数据,确定候选预测模型;继续获取所述待训练子链路在生产环境的新的样本数据;将新获取的样本输入数据输入所述候选预测模型,得到预测输出数据;根据所述预测输出数据和相应的样本输出数据,修正所述候选预测模型;重复执行从继续获取新的样本数据至修正所述候选预测模型的步骤,直至满足训练结束条件,将最终得到的所述候选预测模型作为所述预先训练的预测模型。

8、可选地,所述重复执行从继续获取新的样本数据至修正所述候选预测模型的步骤,包括:响应于累积使用的所述样本数据的数量达到样本阈值,基于所有所述预测输出数据和对应的样本输出数据,统计所述待训练子链路的多个输出字段的差别概率,其中,每个输出字段的所述差别概率是所有所述预测输出数据中,相应输出字段的差别预测数据的占比,其中,所述差别预测数据的相应输出字段与所述差别预测数据对应的样本输出数据的相应输出字段的相似度小于相似度阈值;将所述差别概率大于或等于差别阈值的输出字段,作为差别字段;重复执行从继续获取新的样本数据至修正所述候选预测模型的步骤,并在修正所述候选预测模型时使用所述多个输出字段中除所述差别字段以外的其他字段。

9、根据本公开的第二方面,提供了一种数据处理装置,所述数据处理装置包括:获取单元,被配置为获取待处理链路的输入数据和输出数据作为主输入数据和主输出数据,其中,所述待处理链路包括多个按序连接的子链路;模仿单元,被配置为从所述待处理链路的多个子链路中确定一个参考子链路,并基于所述主输入数据,得到模仿主输出数据,其中,所述参考子链路的输出数据通过执行所述参考子链路得到,所述待处理链路中除所述参考子链路以外的其他子链路的输出数据通过预先训练的预测模型得到,所述预测模型用于预测相应子链路的输出数据;判断单元,被配置为判断是否满足结束条件,其中,所述结束条件是表示无需从所述待处理链路的多个子链路中确定新的参考子链路的条件;确定单元,被配置为响应于满足所述结束条件,基于所述主输出数据,从所述待处理链路的所有所述模仿主输出数据中,确定一个近似主输出数据;定位单元,被配置为将所述近似主输出数据对应的参考子链路,确定为目标子链路。

10、可选地,所述确定单元还被配置为:响应于满足所述结束条件,确定所述待处理链路的所有所述模仿主输出数据各自与所述主输出数据的相似程度;从所述待处理链路的所有所述模仿主输出数据中,确定相似程度最大且大于第一预设阈值的一个,作为所述近似主输出数据。

11、可选地,所述模仿单元还被配置为:从所述待处理链路的多个子链路中确定一个只读类型的子链路,作为所述参考子链路。

12、可选地,所述获取单元还被配置为:响应于所述确定单元无法确定出所述近似主输出数据,将所述待处理链路中的写类型的子链路作为新的待处理链路,重复执行获取待处理链路的输入数据和输出数据作为主输入数据和主输出数据的步骤,并再次运行所述模仿单元和所述确定单元,直到所述确定单元确定出所述近似主输出数据或所述获取单元无法确定出新的待处理链路,其中,所述确定单元还被配置为:在所述待处理链路的所有所述模仿主输出数据与所述主输出数据的相似程度均小于或等于所述第一预设阈值的情况下,确认无法确定出所述近似主输出数据。

13、可选地,所述结束条件包括以下至少一个:所述待处理链路的所有只读类型的子链路对应的所述模仿主输出数据均已得到、当前得到的所述模仿主输出数据与所述主输出数据的相似程度超过第二预设阈值,其中,所述第二预设阈值大于所述第一预设阈值。

14、可选地,每个子链路均具有对应的预测模型,所述预先训练的预测模型通过以下步骤训练得到:获取待训练子链路在生产环境的多个样本数据,所述样本数据包括样本输入数据和样本输出数据;根据所述多个样本数据,确定候选预测模型;继续获取所述待训练子链路在生产环境的新的样本数据;将新获取的样本输入数据输入所述候选预测模型,得到预测输出数据;根据所述预测输出数据和相应的样本输出数据,修正所述候选预测模型;重复执行从继续获取新的样本数据至修正所述候选预测模型的步骤,直至满足训练结束条件,将最终得到的所述候选预测模型作为所述预先训练的预测模型。

15、可选地,所述重复执行从继续获取新的样本数据至修正所述候选预测模型的步骤,包括:响应于累积使用的所述样本数据的数量达到样本阈值,基于所有所述预测输出数据和对应的样本输出数据,统计所述待训练子链路的多个输出字段的差别概率,其中,每个输出字段的所述差别概率是所有所述预测输出数据中,相应输出字段的差别预测数据的占比,其中,所述差别预测数据的相应输出字段与所述差别预测数据对应的样本输出数据的相应输出字段的相似度小于相似度阈值;将所述差别概率大于或等于差别阈值的输出字段,作为差别字段;重复执行从继续获取新的样本数据至修正所述候选预测模型的步骤,并在修正所述候选预测模型时使用所述多个输出字段中除所述差别字段以外的其他字段。

16、根据本公开的第三方面,提供了一种电子设备,所述电子设备包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行根据本公开的数据处理方法。

17、根据本公开的第四方面,提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行根据本公开的数据处理方法。

18、根据本公开的第五方面,提供了一种计算机程序产品,包括计算机指令,所述计算机指令被至少一个处理器执行时实现根据本公开的数据处理方法。

19、本公开的实施例提供的技术方案至少带来以下有益效果:

20、根据本公开的实施例的数据处理方法和数据处理装置,利用多次回放来排查待处理链路的子链路。在每次回放中,针对当前排查的参考子链路以外的其他子链路,利用预先训练的预测模型来得到输出数据,从而较为准确地复现相应子链路在生产环境中未出现问题时的输出数据,补充出完整的链路数据,同时对参考子链路进行仿真环境下的回放操作,有助于保障参考子链路的回放操作结果可靠、待处理链路的回放顺利进行,从而得到较为可靠的待处理链路的模仿主输出数据。在此基础上,通过从回放得到的所有模仿主输出数据中确定出与实际的主输出数据最相符的一个,可将相应的一次回放视为对待处理链路的有效回放,进而将对应的参考子链路确定为出现问题的目标子链路,可迅速、便捷、可靠地确定出目标子链路,无需人工介入分析,实现了偶现问题的高效数据处理。

21、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1