基于多维数据的业务画像及异常监测系统及监测方法与流程

文档序号:37146423发布日期:2024-02-26 16:59阅读:25来源:国知局
基于多维数据的业务画像及异常监测系统及监测方法与流程

本发明公开基于多维数据的业务画像及异常监测系统及监测方法,属于数据异常监测的。


背景技术:

1、随着网络技术的发展,网络业务日益丰富多样,网络流量数据也日趋复杂。传统的网络管理方式已经无法满足对网络业务行为特征的快速、准确识别,以及智能化管理的需求。

2、现有网络技术主要有几类:

3、(1)网络设备管理技术。通过网络流量和snmp网络管理协议,对网络设备进行管理和监控,获取网络设备的状态、性能等数据。

4、(2)网络安全分析技术。通过获取网络流量数据,对网络流量数据与病毒库或攻击库进行比对,从而获取是否为攻击行为或病毒传播行为,继而阻断。

5、(3)服务器代理软件监测技术。通过服务器安装agent获取服务器上的业务运行状态及业务流转延时等内容。或网络管理软件中通过snmp协议连接网络设备,查看网络设备端口状态及交换机连接的内部局域网链路的情况。

6、综上,现有技术存在无法解决的技术问题:

7、(1)数据维度单一:现有的技术主要关注网络流量的单一维度,例如流量大小、传输速度等,而忽略了其他维度的数据,如来源ip、目标ip、端口等,使得用户行为的全面、准确分析受限。

8、(2)数据结论精度不足:现有的技术仅分析少量的或单一的数据指标,这些指标仅能反应当前的某一时点的数据,且由于网络数据的其它因素的干扰,导致分析结果误报率较高。

9、(3)无法确定业务及业务运行指标:现有的网络管理技术、网络安全分析技术仅将少量的或单一的数据分析结果用于网络管理或安全攻击的检测,无法识别不同的信息业务和业务行为。

10、(4)无法识别业务访问全链状态:现有服务器agent技术,仅反应服务器端业务运行的情况,未能反应客户端的真实业务运行情况。针对网管软件技术,仅限于局域网的网络情况的反应,无法真实反映业务的运行情况。且现有技术无法准确反映从客户端到服务器端的业务运行全链及链上节点的情况。

11、(5)缺乏主动模拟用户访问技术:现有的技术缺乏对用户行为的主动模拟能力,无法对用户行为进行预测和模拟,使得网络管理员无法了解用户真实使用状态,无法提前发现和解决网络问题。

12、(6)无法实时监控和预警:现有的技术无法实时监控网络流量并发出预警,使得管理员无法及时发现和处理网络问题,可能导致网络故障或服务中断。

13、因此,现有技术领域对:通过多维数据得出业务画像及异常监测的业务需求不断显现,那么,怎样以业务访问流程为视角,从用户端跟踪业务访问的全流程,真实反馈用户侧对业务运行情况的感知就成为本技术领域所亟待解决的技术问题。


技术实现思路

1、针对现有技术的不足,本发明公开一种基于多维数据的业务画像及异常监测系统。本发明采用了多维数据结合的方式,以业务访问流程为视角,基于主动检测技术、被动数据分析技术对业务运行情况、网络运行情况、业务全链关键节点运行情况进行综合分析,形成业务运行感知精准、业务全链监测的业务运行监测体系。

2、本发明还公开上述一种实现上述监测系统的监测方法。

3、本发明详细的技术方案如下:

4、一种基于多维数据的业务画像及异常监测系统,其特征在于,包括:主动检测系统(检测探针)、被动数据分析系统(流量探针)和多维数据分析平台;

5、所述主动检测系统,通过在网络中部署主动检测探针,在近客户端侧采用真实模拟访问方法对业务系统进行访问,以获取业务访问的数据,即业务主动检测数据;

6、所述被动数据分析系统,通过在核心网络节点部署流量探针获取网络中的具体流量,以获取网络中存在的相关流量原始数据,即被动数据分析的数据;

7、所述多维数据分析平台,用于收集多维数据作为多维数据源,所述多维数据包括:业务主动检测数据;被动数据分析的数据;业务系统中操作系统、中间件、数据库、业务平台的日志数据;网络设备配置信息及日志;安全设备配置及日志;

8、在所述多维数据分析平台中:

9、形成单一时间切片的数据集:用户根据自行设定基础时间单位作为业务画像的时间属性,时间单位为日、周、月、年或指定区间;用户根据自行设定基础时间单位内的间隔时间作为时间切片,用于计算本时间切片中的业务画像指标数值,时间切片的单位为秒、小时、日或指定区间;根据时间切片的时间向量,将所述多维数据源的数据划归为不同时间切片数据集,将单一时间切片中的数据作为单一时间切片的数据集;

10、对所述单一时间切片的数据集的数据进行大数据分析:通过k-means聚类算法,将所述单一时间切片的数据集的数据中业务数据分为不同的簇,每个簇代表一种业务运行状态指标,将单个簇的数据中的最高值、最低值、居中值得出业务的某个时间切片的运行状态指标;将所有簇的指标汇聚为数据集作为单一时间切片的指标集;将基础时间单位中所有时间切片指标集汇聚形成业务运行的状态参数集,将所述状态参数集作为业务运行的当前时间属性的正常形态参照,亦即当前时间属性的业务画像基础态,通过采用当前时间属性向前和向后移动,以获取新的时间属性;

11、通过重复所述大数据分析过程,以动态监测不同时间属性的业务画像基础态;

12、根据不同时间属性的业务画像基础态,将设定时间内的所有基础态最高值、最低值、居中值分别求取算数平均值和增量偏离值,根据需要预测的时间区间在其上n个时间区间内的算数平均值、增量偏离值作为输入,通过支持向量机(svm)算法预测下一时间属性业务画像基础态的最终高边界值、最终低边界值和居中值,所述居中值是指最终高边界值与最终低边界值之间的中位数;

13、将所有最终高边界值根据时间连接起来形成最终高边界值运行趋势的预测,并在平台中展示;

14、将所有最终低边界值根据时间连接起来形成最终低边界值运行趋势的预测,并在平台中展示;

15、将所有居中值根据时间连接起来形成居中值运行趋势的预测,并在平台中展示;

16、对基于同比时间的业务的对应时间切片的运行状态指标进行分析:采用孤立森林(isolation forest)算法,构建决策树,对每个所述运行状态指标进行分类,并根据分类结果判断出异常值的指标:

17、当单维运行状态指标出现异常时,则多维数据分析平台将异常运行状态指标进行展示和告警;并根据异常运行状态指标的网络地址对照多维数据分析平台的信息资产数据库确定宿主资产,根据平台中业务访问链的各节点留存的数据,对照定位出异常发生于业务访问链的具体位置,并通过平台展示业务的异常告警位置。

18、一种实现上述监测系统的监测方法,其特征在于,包括:

19、(1)数据采集:通过被动数据分析系统(流量探针),收集网络流量的原始数据,将数据通过流量探针的物理网卡传入原始数仓;通过主动检测系统(检测探针)获取的主动访问的返回数据也传入原始数仓;通过多维数据分析平台日志接口获取的各种配置和日志数据,传入原始数仓;形成多维数据的原始数仓,为数据预处理做准备;

20、(2)数据预处理:在被动数据分析系统(流量探针)中,对采集到的多维数据进行清洗、去重、归一化预处理操作,以得到预处理处理;

21、(3)特征提取:在多维数据分析平台中,通过获取步骤(2)的预处理数据,得到模拟用户真实业务访问特征的数据,通过多维数据分析平台日志接口获取能反应用户访问数据和产品信息数据的各种配置和日志数据;

22、同时提取所述各种配置和日志数据的特征指标项,并作为后一步业务画像的输入;所述特征指标项包括:网络数据包类、应用系统访问特征类、应用系统流转内容类、软硬件产品信息类;

23、(4)业务画像构建方法,包括:

24、(4-1)利用聚类算法,确定业务资产:对原始数据以源地址、目的地址、协议和端口进行聚类,标记出与业务系统的网络地址重叠和同网段的数据,将源地址、目的地址、协议、端口聚类结果作为业务系统服务端,用于确定为不同的业务系统资产;

25、(4-2)设定时间切片,归集时间切片数据集:用户根据自行设定基础时间单位作为业务画像的时间属性,时间单位可以为日、周、月、年或指定区间;用户根据自行设定基础时间单位内的间隔时间作为时间切片,用于计算本时间切片中的业务画像指标数值,时间切片单位可以为秒、小时、日或指定区间;根据时间切片的时间向量,将以上多维数据源的数据划归为不同时间切片数据集,将单一时间切片中的数据作为本时间切片的数据集;

26、(4-3)聚类获取单一时间切片指标项:以聚类获取的业务系统服务端地址为访问目的,将相同业务系统服务端地址归为一个相同业务,将单一时间切片数据集的数据作为输入,通过k-means聚类算法,将业务数据分为不同的簇,每个簇代表一种业务运行状态指标;

27、(4-4)分析单一指标基线:对单一时间切片的单个簇进行业务运行状态指标分析,即基于用户设定的集中度百分比参数x和指单一时间切片的单个簇进行业务运行状态指标数据集[a, b],其中[a]、[b]分别为这个指标数据最集中的区域的初始低边界值、初始高边界值,剔除集中度百分比参数x以外的数据后作为本指标的数据最集中区域;

28、根据以往数据抖动阈值的经验,人工设定业务容错系数k,默认为1,以[a]、[b]叠加业务容错系数k,得到单一的业务运行状态指标的某一时间切片的最终高边界值和最终低边界值,公式计算如下:

29、最终低边界值 = k × (a + (b - a) × x) (i); 最终高边界值 = k × (b -(b - a) × x) (ii);

30、将单个簇的数据中的最终高边界值、最终低边界值、居中值得出业务的某个时间切片的运行状态指标,所述居中值是指最终高边界值与最终低边界值之间的中位数;

31、将所有最终高边界值根据时间连接起来形成最终高边界值运行趋势的预测,并在平台中展示;

32、将所有最终低边界值根据时间连接起来形成最终低边界值运行趋势的预测,并在平台中展示;

33、将所有居中值根据时间连接起来形成居中值运行趋势的预测,并在平台中展示;

34、(4-5)升维数据集,绘制业务画像基础态:将所有簇的务运行状态指标汇聚为指标数据集作为单一时间切片的指标集;将基础时间单位中所有时间切片指标集汇聚形成业务运行的状态参数集,将此参数集作为业务运行的当前时间属性的正常形态参照,即当前时间属性的业务画像基础态;

35、(5)设定步进时长参数,通过采用当前时间属性向前和向后步进,获取新的时间属性,重复步骤(4-3)-(4-5)分析过程,以动态监测不同时间属性的业务画像基础态,获得动态监测时间区间的业务画像。

36、根据本发明优选的,实现上述监测系统的监测方法,还包括:预测下一时间属性的数值,并形成趋势分析:

37、根据不同时间属性的业务画像基础态,把设定时间内的所有业务画像基础态最高值、最低值、居中值分别求取算数平均值和增量偏离值,根据需要预测的时间区间在其上n个时间区间内的算数平均值、增量偏离值作为输入,通过支持向量机(svm)算法预测下一时间属性业务画像基础态的最终高边界值、最终低边界值、居中值,所述居中值是指最终高边界值与最终低边界值之间的中位数;

38、将所有最终高边界值根据时间连接起来形成最终高边界值运行趋势的预测,并在平台中展示;

39、将所有最终低边界值根据时间连接起来形成最终低边界值运行趋势的预测,并在平台中展示;

40、将所有居中值根据时间连接起来形成居中值运行趋势的预测,并在平台中展示。

41、根据本发明优选的,实现上述监测系统的监测方法,还包括:异常数据分析:基于同比时间的时间切片运行状态指标进行分析,采用孤立森林(isolation forest)算法,构建决策树,对每个运行状态指标进行分类,并根据分类结果判断出异常值的指标:

42、当单维运行状态指标出现异常时,则多维数据分析平台将异常运行状态指标进行展示和告警;并根据异常运行状态指标的网络地址对照多维数据分析平台的信息资产数据库确定宿主资产,根据平台中业务访问链的各节点留存的数据,对照定位出异常发生于业务访问链的具体位置,并通过平台展示业务的异常告警位置。

43、根据本发明优选的,实现上述监测系统的监测方法,还包括:业务查询和展示,通过多维数据分析平台以定向对整体业务或特定业务的以上各项数据进行查询和大屏展示统计、分析。

44、本发明的技术优势:

45、1、本发明通过采集网络流量的多维数据,能够全面、准确地反映用户行为,提高业务画像的精度。

46、2、本发明通过主动模拟用户访问,以预测用户行为并模拟其对网络的访问行为,有助于提前发现并解决网络问题。

47、3、基于业务系统大型化和紧耦合的趋势,在业务系统上安装代理软件,将可能造成业务系统的性能影响和未知适配故障的发生,影响业务,而本发明无需安装agent等代理软件,不介入服务器业务,其是基于网络旁路部署,不影响业务运行。

48、4、本发明采用模拟用户访问真实获取用户访问业务的感知情况。不仅仅通过网络设备运行数据、服务器运行数据等旁路数据,而是通过模拟用户访问的真实业务访问数据获取业务系统的运行情况。

49、5、本发明是基于大数据技术、人工智能技术,形成自研算法,获取自动化的业务运行画像及异常趋势预测,并精准定位。

50、6、本发明中所采用算法可以广泛应用于各种网络环境中,对提高网络服务质量、自动识别业务系统、业务归类、业务合规等场景具有重要意义。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1