一种基于随机森林的用户状态画像异常监测方法与流程

文档序号:37297669发布日期:2024-03-13 20:45阅读:16来源:国知局
一种基于随机森林的用户状态画像异常监测方法与流程

本发明涉及大数据应用及用户画像,尤其涉及一种基于随机森林(rf,random forest)的用户状态画像异常监测方法。


背景技术:

1、在网络和信息技术的不断发展下,各种组织和企业越来越依赖大规模的数据存储和处理系统。这些系统存储和处理大量用户数据,用于监测、管理和优化各种业务和操作。然而,这也使得这些系统成为潜在的攻击目标,从而增加了内部威胁的风险。

2、传统的网络安全方法通常集中在外部威胁的防范,如ids(intrusion detectionsystem,入侵检测系统)和防火墙。然而,内部威胁通常更具隐蔽性,因为攻击者已经获得了系统内部的访问权限。因此,需要一种内部威胁检测方法,以便及早发现和应对潜在内部威胁。现有技术存在的缺陷:

3、(1)不足的内部威胁检测:传统的安全方法主要集中在外部威胁的防范,对内部威胁的检测相对不足,因此内部威胁通常被忽略或被较晚发现;

4、(2)复杂多样的攻击方式:内部威胁可以采用多种方式,包括信息窃取、预埋逻辑炸弹、删库破坏等,这增加了检测的难度;

5、(3)传统规则和签名方法的限制:传统的ids和防火墙通常使用规则和签名来检测威胁,这些方法很容易绕过,因为攻击者可以不断改变攻击方式;

6、(4)固定的网络安全策略:传统的网络安全策略通常是固定的,难以适应不断变化的网络环境和威胁,导致防御能力的滞后;

7、(5)缺乏综合性的内部威胁分析:目前的内部威胁检测方法通常缺乏综合性的分析,难以将多个数据源和特征结合在一起,以获得更全面的用户状态画像。

8、综上,亟需一种新的方法来提高内部威胁监测效率与准确率。


技术实现思路

1、鉴于上述的分析,本发明实施例旨在提供一种基于随机森林的用户状态画像异常监测方法,用以解决现有技术中内部威胁监测效率低与准确率低的技术问题。

2、本发明实施例提供了一种基于随机森林的用户状态画像异常监测方法,包括如下步骤:

3、采集用户历史时间段内每日的网页访问数据并进行预处理,得到每日的用户状态画像数据向量作为训练样本数据;

4、建立每个工作日的随机森林模型和不区分工作日的全周随机森林模型;根据所述训练样本数据的登录星期特征将训练样本数据分发至所述每个工作日的随机森林模型和全周随机森林模型,各随机森林模型基于各自分发到的所述训练样本数据进行训练得到各工作日的用户状态画像模板和不区分工作日的用户状态画像模板;

5、计算各工作日的用户状态画像模板和不区分工作日的用户状态画像模板的平均路径长度作为每个模板的基线;采集当前的用户网页访问数据,形成用户状态画像数据向量输入对应画像模板得到向量在对应模板中的路径长度;基于向量在对应模板中的路径长度、各模板的基线计算当前用户状态画像数据向量的对应于各模板的异常值得分,基于所述各模板的异常值得分进行用户行为异常判决。

6、进一步地,计算各工作日的用户状态画像模板和不区分工作日的用户状态画像模板的平均路径长度作为每个模板的基线,包括:

7、采用如下方式计算所述各工作日的用户画像模板中的平均路径长度l1~l7:

8、li=l(ni)=2h(ni-1)-(2(ni-1)/ni)

9、其中,i=1~7,j为(ni-1),n1~n7分别为分发至星期一至星期日随机森林模型中的训练样本数据量,h(j)是调和函数,h(j)=ln(j)+0.5772156649;

10、采用如下方式计算所述不区分工作日的用户状态画像模板的全周随机森林模型的平均路径长度l8:

11、l8=l(n)=2h(n-1)-(2(n-1)/n)

12、其中,n为训练样本总数据量,n1+n2+n3+n4+n5+n6+n7=n,j为(n-1),h(j)是调和函数,h(j)=ln(j)+0.5772156649,常数0.5772156649为欧拉常数;

13、所述平均路径长度作为用户正常行为数据在每个模板中的基线。

14、进一步地,所述计算当前用户状态画像数据向量的异常值得分,包括:

15、计算当前采集用户状态画像数据向量输入所述各工作日的用户状态画像模板中的异常值得分,如下:

16、

17、计算当前采集用户状态画像数据向量输入所述不区分工作日的用户画像模板中的异常值得分,计算如下:

18、

19、其中,i=1~7,l(x)为当前用户状态画像数据向量输入对应画像模板中得到的路径长度。

20、进一步地,所述基于所述各模板的异常值得分进行用户行为异常判决,包括:

21、当基于各工作日的模板的异常值得分中存在大于异常值阈值的得分且基于不区分工作日的模板的异常值得分大于异常值阈值,则输出红色告警值,代表当前用户行为状态异常,存在较大程度的内部威胁可能;

22、当基于各工作日的模板的异常值得分中存在大于异常值阈值的得分且基于不区分工作日的模板的异常值得分小于异常值阈值,或者当基于各工作日模板的异常值得分均小于异常值阈值且基于不区分工作日的模板的异常值得分大于异常值阈值,则输出黄色告警值,代表当前用户行为状态异常,存在一般程度的内部威胁可能;

23、当基于各工作日的模板的异常值得分均小于异常值阈值且基于不区分工作日的模板的的异常值得分小于异常值阈值,则输出绿色状态值,代表当前用户状态正常,不存在内部威胁可能。

24、进一步地,若当前用户状态画像数据向量输入所述每个工作日的用户状态画像模板中判断任一天出现用户行为状态异常,则基于所述每个工作日的用户状态画像模板的所述用户行为状态异常。

25、进一步地,所述训练样本数据均为用户正常行为数据。

26、进一步地,根据所述训练样本数据的登录星期特征进行分发至所述每个工作日的随机森林和全周随机森林模型,包括:

27、根据登录星期特征将所述用户状态画像数据向量分发给每个工作日的随机森林中星期一至星期日随机森林其中之一;

28、同时复制一份相同的所述用户状态画像数据向量分发给全周随机森林。

29、进一步地,所述采集用户历史时间段内每日网页访问数据并进行预处理,包括:

30、对需要记录用户行为痕迹的平台,采集近一段历史时期内的每日网页访问数据,作为用户状态画像数据;

31、对所述用户状态画像数据进行剔除异常值、去除重复项、处理缺失空值,进行数据格式标准化,将登录日期特征整理成星期一、星期二、星期三、星期四、星期五、星期六或星期日;然后进行工作日修正后打上正常数据标签。

32、进一步地,所述进行工作日修正,包括:

33、基于所述用户状态画像数据中的登录日特征对国家法定节假日的调休安排进行检查,确定某个登录日是否是工作日,相应修正登录星期特征中的登录星期信息;

34、如果星期一至星期五为国家法定节假日的休息日,均修正为星期日。

35、进一步地,所述用户状态画像数据向量为打上正常数据标签的用户状态画像数据中特征的依次组合。

36、进一步地,所述每个工作日的用户状态画像模板包括学习训练后的星期一随机森林、星期二随机森林、星期三随机森林、星期四随机森林、星期五随机森林、星期六随机森林、星期日随机森林模型;

37、所述不区分工作日的用户状态画像模板为训练后的全周随机森林模型。

38、与现有技术相比,本发明至少可实现如下有益效果之一:

39、1、提高内部威胁监测的效率和准确率:通过使用多个随机森林模型,本发明能够更全面地分析用户历史数据中的正常行为,建模了用户在不同天数的典型活动模型,从而提高内部威胁检测的准确性。每个模型都能针对性的分析相应工作日数据,减少用户状态漏报和误报的风险;

40、2、适用于不同工作日制度:本发明允许根据国家法定节假日的调休安排进行数据修正,以匹配实际工作日安排。该方法适用于各种工作日制度,提高灵活性;

41、4、多级告警系统:本发明提供多级告警系统,根据异常的严重程度输出不同颜色的告警值,有助于系统管理员更好地理解异常情况,采取适当措施;

42、5、综合性分析:本发明可以整合多个数据源和特征,构建用户状态画像,从而更全面地分析用户的行为和状态。有助于及早发现潜在的内部威胁;

43、6、高度灵活性:随机森林模型是一种高度灵活的机器学习方法,适用于各种类型的数据和特征。本发明能够适应不断变化的网络环境和威胁;

44、7、内部威胁应对:本发明有助于组织和企业及早发现内部威胁,从而采取措施来减轻潜在的风险。有助于提高网络安全性和数据保护;

45、8、可扩展:随机森林算法可以非常容易地进行扩展以适应不同的数据集,自适应不同的需要记录用户行为痕迹的平台。

46、总之,本发明提供了一种强大的内部威胁检测方法,提升内部威胁监测效率和准确率,可以更好地保护组织和企业的网络和数据资源,降低内部威胁的风险。

47、本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1