一种应用性能干扰的检测方法和系统与流程

文档序号:34846998发布日期:2023-07-22 12:20阅读:25来源:国知局
一种应用性能干扰的检测方法和系统与流程

本发明涉及电数字数据处理,具体涉及一种应用性能干扰的检测方法和系统。


背景技术:

1、近年来,随着云计算技术的飞速发展,业务上云是一个必然的趋势。然而随着云上业务的增加,系统的资源利用率却没有明显的提高。据报道,全球的数据中心平均资源利用率只有10%左右。将不同工作负载类型的应用通过调度、资源隔离等手段进行混合部署,实现资源互补、资源分时复用等的技术成为提高数据中心资源利用率的有效方法。应用混部场景下,数据中心被当作一台超级计算机,在线应用、批处理应用、ai应用等各种类型应用都统一运行在超级计算机上,并共用超级计算机的资源。

2、但应用混合部署后,由于多个应用共用统一资源,导致应用之间严重的资源争用,对于一些对响应时间等业务指标敏感的在线应用,资源抢占会导致这些应用性能下降,服务质量下降,造成用户体验不佳,甚至经济损失。因此,应用混合部署后感知和监测应用性能的干扰状态,再针对一些核心的业务一旦发现性能受到干扰则进行后续的调度,进而保障核心业务的服务质量显得至关重要。应用性能监测一直以来都是学术界和工业界研究的重点。

3、目前主流的方法是基于应用的请求响应时间、请求错误率等业务指标构建性能监测模型,及通过人工设置阈值或基于算法自动计算阈值,然后实时将业务指标值与阈值进行对比,一旦频繁超过阈值,则认为应用性能受到干扰。但是对于批处理、ai等类型应用,这种方法无法采集请求响应时间、请求错误率等业务指标。因此无法对这些应用进行有效的检测。


技术实现思路

1、针对现有技术中存在的上述技术问题,本发明提供一种应用性能干扰的检测方法和系统,通过对部分内核指标进行分析,预测业务指标,实现对业务指标的有效检测,避免对复杂业务指标的直接监测。

2、本发明公开了一种应用性能干扰的检测方法,包括:获得应用压力测试的测试数据集,所述测试数据集包括内核指标和业务指标的测试数据;根据业务指标与内核指标的相关性,从内核指标中筛选模型指标;基于线性回归算法,对所述模型指标的测试数据进行训练,获得干扰分析模型;获取应用的模型指标的运行数据;通过干扰分析模型对所述运行数据进行分析,获得业务指标的预测值;获取业务指标的健康阈值;根据预测值和健康阈值,获得应用性能的干扰状态。通过部分内核指标构建了干扰分析模型,对上线的应用进行分析判断,及时发现应用的干扰状态,利于及时对受干扰的应用进行处理,保障应用的正常运行,保障业务的服务质量;仅监测部分内核指标,避免了对业务指标的直接检测,避免对应用的侵入。

3、其中,获得测试数据集的方法包括:基于kubernetes搭建压力测试环境;部署应用容器及其边车容器;通过边车容器采集业务指标的测试数据;通过压力检测工具采集内核指标的测试数据。

4、其中,筛选模型指标的方法包括:以业务指标为数据标签,多个内核指标作为数据特征,基于极致梯度提升的方法对测试数据进行训练,获得内核指标与业务指标的相关性;基于所述相关性,筛选模型指标。训练后,通过调用feature_importances接口获得内核指标与业务指标的相关性。

5、所述干扰分析模型表示为:

6、

7、其中,  business_indicator 1表示为业务指标的预测值, j表示为模型指标的序号, m表示为模型指标的总数, kernel_indicator j表示为第 j个模型指标; w j表示第 j个模型指标的权重, b表示为偏置值。干扰分析模型的损失函数表示为:

8、 l(w,b) = 1/2 (business_indicator 1 -business_indicator)  2

9、其中, business_indicator表示为业务指标的实际值, l(w,b)表示为业务指标真实值和预测值的误差值。

10、可以基于四分位法计算健康阈值,健康阈值的计算公式表示为:

11、 business_threshold = q3 + 1.5 ×( q3-q1)

12、其中, business_threshold表示为业务指标的健康阈值, q3表示业务指标数据从小到大排序后第3/4处的指标值, q1表示指标数据从小到大排序后第1/4处的指标值。

13、本发明还包括告警的方法:判断是否满足以下条件:业务指标的预测值连续 n个检测周期超过健康阈值,其中 n为自然数;若满足,应用的性能处于被干扰状态,生成并发出告警;若不满足,持续检测模型指标的运行数据。

14、在一个具体实施例中,混合部署了第一应用和第二应用,告警处理的方法:获得第一应用和第二应用的优先级,其中,第一应用的优先级低于第二应用的优先级;若所述第一应用受到干扰,则生成告警;若所述第二应用受到干扰,则驱逐所述第一应用。

15、与现有技术相比,本发明的有益效果为:通过部分内核指标构建了干扰分析模型,对上线的应用进行分析判断,及时发现应用的干扰状态,利于及时对受干扰的应用进行处理,保障应用的正常运行,保障业务的服务质量;仅监测部分内核指标,避免了对业务指标的直接检测,避免对应用的侵入。



技术特征:

1.一种应用性能干扰的检测方法,其特征在于,包括:

2.根据权利要求1所述的检测方法,其特征在于,筛选模型指标的方法包括:

3.根据权利要求2所述的检测方法,其特征在于,

4.根据权利要求1所述的检测方法,其特征在于,所述干扰分析模型表示为:

5. 根据权利要求4所述的检测方法,其特征在于,干扰分析模型的损失函数表示为:

6. 根据权利要求1所述的检测方法,其特征在于,基于四分位法计算健康阈值,健康阈值的计算公式表示为:

7.根据权利要求1所述的检测方法,其特征在于,还包括告警的方法:

8.根据权利要求7所述的检测方法,其特征在于,所述应用包括混合部署的第一应用和第二应用,告警处理的方法:

9.根据权利要求1所述的检测方法,其特征在于,获得测试数据集的方法包括:

10.一种应用性能干扰的检测系统,其特征在于,用于实现如权利要求1-9任一项所述的检测方法,所述系统包括采集模块、筛选模块、训练模块和干扰分析模块,


技术总结
本发明公开了一种应用性能干扰的检测方法和系统,属于电数字数据处理技术领域,所述方法包括:获得应用压力测试的测试数据集;根据业务指标与内核指标的相关性,从内核指标中筛选模型指标;基于线性回归算法,对所述模型指标的测试数据进行训练,获得干扰分析模型;通过干扰分析模型对应用的模型指标的运行数据进行分析,获得业务指标的预测值;根据预测值和健康阈值,获得应用性能的干扰状态。通过部分内核指标构建了干扰分析模型,对上线的应用进行分析判断,及时发现应用的干扰状态,利于及时对受干扰的应用进行处理,保障应用的正常运行,保障业务的服务质量;仅监测部分内核指标,避免了对业务指标的直接检测,避免对应用的侵入。

技术研发人员:王羽中,蒋咪,陈雪儿,才振功,王翱宇
受保护的技术使用者:杭州谐云科技有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1