本发明涉及信息,尤其涉及一种基于机器学习的智能告警阈值自适应方法。
背景技术:
1、随着it数据流量的不断增长和带宽受限的问题日益凸显,现有的数据处理和管理方法已经无法满足需求,尤其是在解决it运维过程中数据流预测、告警频率和数据完整性的平衡方面,仍然存在一些问题和挑战。
2、目前多采用阈值法来对数据流量日志进行监控,阈值法相较于模型分析的方法更为直观,能够通过阈值来监控系统的告警信息和日志量。但现有的通过阈值进行告警的系统存在以下缺陷:
3、其一,只能对当前的数据流进行监控,而无法预测未来的数据流趋势,这可能导致在数据流出现突发增长时,系统无法及时响应和准备,从而可能出现流量溢出等问题。
4、其二,在数据处理过程中,可能会由于种种原因导致数据被破坏或丢失,而系统无法对此进行检测和修复。
5、其三,现有的告警系统设定固定的告警阈值,这无法适应不同业务场景和实时数据的变化。当数据流在某个时间段内激增时,固定的阈值可能无法敏感地捕捉到异常,从而错过重要的告警信息。现有的系统可能没有设立根据历史数据和实时数据的分析结果动态调整阈值的机制,这样可能会导致阈值设定不合理,从而影响告警系统的性能。
6、此外,在设置阈值时,没有充分考虑用户对告警的需求和评价,这可能导致系统无法满足用户的实际需要,影响用户的使用体验,也不能够根据业务场景变化进行阈值的调整,这可能导致错过重要信息。
7、现有的告警系统的灵敏度和特异度需要提高,如果告警系统的灵敏度不够高,可能会漏掉一些关键的信息,而如果告警系统的特异度不够高,可能会误报一些非关键的信息,这都会影响告警系统的有效性。
8、另外,现有系统的告警系统还可能出现一种情况,就是告警信息对工作人员发现问题是有帮助的,但是却存在不合规的问题,可能导致在短期看来,帮助较大,但长期却无法获取到有价值的历史信息,无法有效地检测和处理数据的合规性异常,当数据点被检测为合规异常时,系统无法智能生成对应内容补充完整性,导致数据的不完整或不准确。
9、而且,现有系统对it运维日志时长不足的问题缺乏处理能力,it运维日志时长过短时,可能影响对it运维情况的监控和分析,现有的告警系统无法智能扩充it运维日志时长,从而可能影响故障排查和问题解决的效率。
10、综上,现有技术中的基于阈值告警系统存在诸多缺陷,亟待改进。
技术实现思路
1、本发明提供了一种基于机器学习的智能告警阈值自适应方法,主要包括:
2、对带宽受限的it数据流使用长短期记忆网络进行预测,得到未来的数据流趋势;若未来数据流趋势显示高流量,使用lz77压缩算法应对即将到来的高流量;构建it运维智能告警系统,监控数据压缩过程,确保数据完整性不被破坏;对it智能告警系统设定一个动态阈值,通过历史数据和实时数据分析确定阈值,以平衡告警频率和重要信息捕捉;当告警频繁触发,自动调整阈值,减少错误的告警和告警数据的数量;当告警数量少于预设数量或不触发,提高告警灵敏度;对告警后的数据进行检测,找出违反数据合规性的数据点;当数据点被检测为完整性合规异常,it运维智能告警系统根据智能阈值生成对应内容补充完整性;对于被智能告警标记为保留时长过短的合规异常数据点,it运维智能告警系统根据智能阈值扩充it运维日志时长。
3、进一步地,所述对带宽受限的it数据流使用长短期记忆网络进行预测,得到未来的数据流趋势,包括:
4、从it系统中获取大量的历史数据包括服务器cpu使用率、内存使用情况、网络带宽占用,并对其进行预处理,包括数据清洗、去重、归一化;将数据流分割成多个数据块,每个数据块的大小需根据带宽限制进行调整;采用长短期记忆网络对预处理后的数据进行训练;在训练过程中,使用一部分数据作为训练集,另一部分数据作为验证集,以评估模型的性能;通过计算模型在验证集上的准确率,获取长短期记忆网络模型的预测能力;如果验证准确率不满足预设要求,通过梯度下降法调整模型参数;对于每个数据块,使用已训练好的模型进行预测,将每个数据块的预测结果进行整合,形成完整的未来数据流趋势;在整合后的结果中,识别出关键趋势点,即对未来数据流的走向产生重要影响的点,以及显著的模式或趋势;根据关键趋势点,针对模型的层次结构或模型的参数调整长短期记忆网络模型的参数,提高模型对未来数据流的预测准确性;使用优化后的模型,对未来的数据流行为进行再次模拟,得到更准确的预测结果;结合预测结果和实际数据流,进行结果分析,了解模型的预测能力和实际应用效果,为进一步的优化提供依据;持续监控数据流的变化,调整模型参数或结构,并定期评估模型的性能并进行优化。
5、进一步地,所述若未来数据流趋势显示高流量,使用lz77压缩算法应对即将到来的高流量,包括:
6、如果未来数据流趋势显示高流量,判断当前数据流是否超过设定的告警阈值,若超过告警阈值,则采取措施来降低数据流量的峰值;数据流超过设定的告警阈值时,使用lz77压缩数据,减少数据传输量,节省带宽;在压缩过程中,监控系统资源占用,确保压缩过程不会影响其他系统的正常运行;当压缩完成后,分析压缩后的数据质量是否符合预期;如果数据质量不符合预期,调整lz77的参数进行再次压缩;如果数据质量符合预期,保存并提供压缩数据。
7、进一步地,所述构建it运维智能告警系统,监控数据压缩过程,确保数据完整性不被破坏,包括:
8、根据数据流动方向,在数据压缩前、数据压缩后设置监控点,获取监控点的历史数据,建立一个it运维智能告警系统,检测监控点数据是否与历史数据偏移,若偏移值大于智能阈值,则发出警报;实时监控数据压缩过程中的关键指标,包括数据传输速度、压缩比率、校验和,若发现异常,立即生成告警,通知相关人员进行处理;检查数据块的校验和是否一致,验证数据的完整性,若校验和不一致,说明数据在压缩过程中发生了损坏或丢失,立即警示,并采取相应措施包括重新压缩或恢复备份数据;记录和分析历史告警数据,识别重复出现的问题、定位故障,并采取相应的纠正措施;监控和记录数据压缩过程中的性能指标,包括压缩速度、cpu、内存和磁盘利用率;通过对性能指标的分析,发现性能瓶颈,并进行相应的优化和调整,提高数据压缩过程的效率和稳定性;集成expect实现自动化处理和故障恢复,当系统检测到告警时,自动触发expect脚本模拟运维人员操作,再次执行压缩或处理故障,减少运维人员的干预和减少故障恢复时间;还包括:it运维智能告警系统发出警告后,根据故障处理流程使用expect脚本解决压缩过程中的故障。
9、所述it运维智能告警系统发出警告后,根据故障处理流程使用expect脚本解决压缩过程中的故障,具体包括:
10、it运维智能告警系统告警后,根据需求设计一个自动化处理流程,包括重新启动压缩进程、修复损坏的文件或重新安装软件。使用expect脚本语言来模拟运维人员的操作,获取运维人员的键盘输入和屏幕输出,模拟运维人员的操作,包括重启系统、重新启动压缩进程。一旦智能告警系统检测到数据完整性故障,使用python程序来调用expect脚本,实现自动化的故障处理。在expect脚本处理过程中,通过收集系统的状态信息、日志信息实时监控自动化处理的状态和结果,并将监控的结果包括故障处理的进展和遇到的问题发送给运维人员。定期审查自动化处理流程和expect脚本的效果,并对expect脚本进行调整、对处理流程进行优化。
11、进一步地,所述对it智能告警系统设定一个动态阈值,通过历史数据和实时数据分析确定阈值,以平衡告警频率和重要信息捕捉,包括:
12、从智能告警系统的数据库中提取出历史数据包括过去的告警信息、系统性能数据和实时数据包括当前的告警信息、系统状态;使用历史数据来训练bilstm模型,学习历史的告警模式和趋势;训练过程包括设定神经网络的架构、选择优化器和损失函数,以及用历史数据反复训练模型;模型训练完后,应用于分析实时数据,模型输出为当前的告警模式和趋势;设定一个动态阈值,这个阈值将根据数据的差异调整,如果实时数据与历史数据的分布有显著差异,调整阈值反映当前的告警状况;使用计算出的动态阈值对比实时数据,若实时数据超过了这个阈值,触发告警;当触发告警时,捕捉相关的告警信息,包括告警类型、发生时间、系统状态,对告警信息进行分类,将告警分为紧急、重要或次要;如果告警信息过于频繁,调整动态阈值,减少错误的告警;再次应用bilstm模型分析实时数据,若模型的预测更准确,且告警频率得到了控制,则改进就是有效的,将优化后的动态阈值更新到智能告警系统中;还包括:通过用户反馈和调整获取用户对告警的评价和需求,优化告警策略和动态阈值的设定;根据不同业务场景的需求,制定不同的告警策略,在关键业务场景中根据实时数据分析得到更为敏感的阈值。
13、所述通过用户反馈和调整获取用户对告警的评价和需求,优化告警策略和动态阈值的设定,具体包括:
14、通过在线反馈渠道获取用户对告警系统的评价和建议。分析获取到的用户反馈,得到用户对告警系统的需求并根据用户需求进行分类,部分用户关注系统的稳定性,部分正常运行或关注系统的性能和效率,根据不同的用户需求,设定不同的告警策略和动态阈值。根据用户反馈和需求分析,优化告警策略,对于告警次数高于预设告警次数且风险值低于预设重要性的告警,将其设为可选或隐藏。根据用户的反馈动态调整阈值,若用户反映系统的响应时间过长,将响应时间的阈值降低,更早发出告警,若用户反映不需要过多的性能告警,提高性能告警的阈值。根据用户的反馈构建一个智能动态值调整模型,动态阈值=γ*反馈指标+(1-γ)*原始阈值,其中,γ是权重因子,用于调整反馈指标对动态阈值的相对影响程度,通过调整γ可以平衡用户反馈和原始阈值对动态阈值的贡献程度。实施新的告警策略和动态阈值后,再次获取用户反馈,优化告警策略和动态阈值的设定。
15、所述根据不同业务场景的需求,制定不同的告警策略,在关键业务场景中根据实时数据分析得到更为敏感的阈值,具体包括:
16、分析业务场景获取每个场景下对告警系统的需求和期望,包括告警的频率、响应时间、准确性、可靠性。针对不同的业务场景,设定不同的告警策略,对于关键的业务场景,及时捕获异常并进行告警,对于非关键场景,减少错误的告警。在每个业务场景下,通过已训练的bilstm模型收集并分析实时数据,使用模型的输出提供当前的告警模式和趋势,以及与历史数据的比较。根据实时数据分析和业务场景的需求,动态调整阈值,如果实时数据与历史数据的分布有显著差异,说明存在新的告警状况,需要调整阈值。当实时数据超过设定的阈值时,触发相应的告警,发送告警信息包括告警类型、发生时间、系统状态,根据业务场景的需求对告警信息进行分类,包括分为紧急、重要或次要。对于紧急的告警,调整动态阈值,避免错过紧急告警。
17、进一步地,所述当告警频繁触发,自动调整阈值,减少错误的告警和告警数据的数量,包括:
18、从告警系统中获取一定时间内的告警触发次数数据,包括告警的类型、发生的时间、系统的状态信息;对获取到的告警数据进行分析,包括统计告警的频率、识别出告警的模式和趋势;基于告警数据的分析结果,根据告警的类型和系统的特性确定一个初始的告警阈值;根据历史告警数据,训练长短期记忆网络,获取历史告警数据的趋势,根据历史告警数据的趋势来动态地调整告警阈值;若告警的频率在一段时间内持续上升,提高阈值以减少告警的触发次数;根据自动调整后的阈值,判断实时告警数据是否达到触发告警的条件;比较自动调整阈值前后的告警数据量,计算数据量减少的程度;若自动调整阈值有效地减少了错误的告警,使用这个新的阈值;持续监控历史告警数据的变动,获取告警频率的变化趋势,及时调整阈值。
19、进一步地,所述当告警数量少于预设数量或不触发,提高告警灵敏度,包括:
20、获取系统或应用程序的运行数据,实时统计告警数量;在达到预设数量的告警后,根据告警数量和系统性能数据进行阈值评估,调整告警触发阈值;使用支持向量机对历史告警数据进行分类,根据分类结果分析各类告警的重要性和频率,重要性分为高、中和低;根据支持向量机的分类结果,如果某些告警的频率低于预设频率但重要性高,提高重要告警的灵敏度;对提高灵敏度后的告警数据进行实时监控,获取重要告警的数量;使用支持向量机对新产生的告警数据再次进行分类,验证告警的准确性和关键性;若出现支持向量机异常告警包括突然高于预设值的告警信息,分析其来源,如果是灵敏度提高导致的误报,通过支持向量机算法对告警阈值进行微调;持续使用支持向量机对告警数据进行验证和调整。
21、进一步地,所述对告警后的数据进行检测,找出违反数据合规性的数据点,包括:
22、获取告警数据,对数据进行数据清理,删除重复、错误或不完整的数据,根据数据的特征,进行特征提取和归一化处理,将整个数据集划分成训练集、验证集和测试集;将训练集输入长短期记忆网络,调整长短期记忆网络参数如学习率、迭代次数、隐藏层数量;使用验证集对长短期记忆网络进行评估,通过调整长短期记忆网络结构或参数,优化模型的准确率;根据数据点的特性以及数据合规性要求,进行风险级别的划分;如果数据点严重偏离正常范围、数据完整性低于预设完整性、存在异常模式或趋势、违反法律法规为高风险;如果数据点与大多数数据点的差异大于预设值、数据存在不完整、违反公司内部规定,为中风险;如果数据点在正常范围内,数据完整性符合预设完整性、不涉及违反法律法规或公司内部规定的内容,为低风险;根据数据风险对数据进行排序,输出违反合规性的数据点,对应风险级别和违反数据合规性的种类。
23、进一步地,所述当数据点被检测为完整性合规异常,it运维智能告警系统根据智能阈值生成对应内容补充完整性,包括:
24、对异常数据进行清洗,去除无效数据、重复数据和错误数据;将数据完整性检测指标纳入智能告警系统,基于历史数据设置相应的阈值和规则,并通过数据的变化和趋势实时调整和优化智能阈值;将清洗后的数据输入支持向量机,对异常数据根据数据完整性异常种类进行分类,输出异常数据完整性缺失的类型;类型分为,缺失数据即数据中存在空值或缺失字段,格式错误数据即数据中存在数据字段错误或超出数据合规范围,重复数据即数据集中存在重复记录或重复字段;it运维智能告警系统根据数据完整性缺失的类型使用对应的数据补充方法,对于缺失数据,使用均值、中值或众数进行填充;对于格式错误数据,使用格式化或转换操作修复数据;对于重复数据,使用基于主键的唯一性进行去重;对于无法补充完整性的异常数据,it运维智能告警系统根据异常数据和错误完整性缺失的类型生成警告并发送。
25、进一步地,所述对于被智能告警标记为保留时长过短的合规异常数据点,it运维智能告警系统根据智能阈值扩充it运维日志时长,包括:
26、获取历史异常数据点,对数据进行特征提取,得到历史异常数据点数据和运维日志保留时间;使用孤立森林算法建立模型,对异常数据进行学习和预测;使用训练数据进行训练,并使用验证数据分析这些特征,评估模型的性能;使用训练后的孤立森林模型对历史异常数据点进行分类,识别出保留时长过短的合规异常数据点;根据历史异常数据点运维日志保留时间,确定智能阈值,即合规异常日志保留时长范围;检测到保留时长过短的合规异常数据点时,自动触发日志时长的扩充操作;在完成日志时长扩充后,it运维智能告警系统生成告警通知,发送警报,并生成报告,包括异常数据点、扩充日志时长的缘由和操作记录;根据实际应用和用户反馈,定期评估系统的表现,并进行必要的迭代和优化,包括数据模型的更新、智能阈值的调整以及日志扩充操作的改进。
27、本发明实施例提供的技术方案可以包括以下有益效果:
28、本发明公开了一种利用深度学习模型对带宽受限的it数据流进行预测的方法。通过对未来数据流趋势的预测,本系统能够及时发现即将到来的高流量,并启动数据压缩算法以应对。为了确保数据的完整性不被破坏,采用it运维智能告警系统进行监控数据压缩过程。智能告警系统设定了一个动态阈值,通过历史数据和实时数据分析确定阈值,以平衡告警频率和重要信息捕捉。当告警频繁触发时,系统会自动调整阈值以减少错误的告警,从而减少数据的数量,当告警很少或不触发时,系统会提高告警灵敏度,确保不漏掉关键和重要的信息。同时,本系统还对告警后的数据进行检测,找出违反数据合规性的数据点,当数据点被检测为完整性合规异常时,it运维智能告警系统将根据智能阈值生成对应内容补充完整性,对于被智能告警标记为保留时长过短的合规异常数据点,系统还会根据智能阈值扩充it运维日志时长保存时长。本系统实现了对带宽受限的it数据流的预测和智能告警,能够提高it运维的效率和准确性,减少错误的告警和数据丢失,从而提升整体的数据处理和管理水平。