一种安全用户画像的构建方法与装置与流程

文档序号:26758920发布日期:2021-09-25 05:08阅读:66来源:国知局
一种安全用户画像的构建方法与装置与流程

1.本发明涉及互联网技术领域,更具体地说,本发明涉及一种安全用户画像的构建方法与装置。


背景技术:

2.随着云计算的不断发展,越来越多的企业将数据与应用部署在云端,与此同时,以内外网为划分的安全边界变得模糊。将企业应用数据置于虚拟专用网中,并通过防火墙进行保护的模式现已难以为继。采用边界为中心的安全策略所依赖的是内部网络上一切都是可以信任的,然而这种假设已经不再是安全的。2015年5月28日中午11时携程“瘫痪门”事件导致携程官网、app 同时崩溃,真实原因为携程服务器遭到来自内部高权限的员工的攻击就是一个非常典型的案例。零信任技术从重点关注企业数据资源的保护,逐渐扩展到对企业的设备、基础设施和用户等所有网络资源的保护。零信任安全模型假设攻击者可能出现在企业内部网络,企业内部网络基础设施与其它外部网络一样,面临同样的安全威胁,也容易受到攻击破坏,并不具有更高的可信度。在这种情况下,企业必须不断地分析和评估其内部网络和业务功能面临的安全风险,提升网络安全防护能力来降低风险。在零信任中,通常涉及将数据、计算和应用程序等网资源的访问权限最小化,只对那些必须用户和资产开启访问权限进行授权访问,并持续对每个访问请求者的身份和安全状态进行身份验证和授权。用户访问网络资源的行为是零信任安全架构体系的一个极为重要的监管因素,因此,针对用户访问行为构建用户画像,通过网络监控系统(sdn控制系统)可以轻易识别用户的访问行为是否异常,从而可以避免发生来自内部或者外部发起的安全攻击行为。
3.但是网络安全性不高,并且检查受到外部的网络攻击,因此需要设计一套方法来避免这些问题,以达到区分安全访问行为与异常访问的目的,可有效预防来自内部或者外部的安全攻击行为,最终提升零信任网络或系统的安全性和可靠性。


技术实现要素:

4.为了克服现有技术的上述缺陷,本发明的实施例提供一种安全用户画像的构建方法与装置,通过需要设计一套方法来避免这些问题,以达到区分安全访问行为与异常访问的目的,可有效预防来自内部或者外部的安全攻击行为,最终提升零信任网络或系统的安全性和可靠性,以解决上述背景技术中提出的问题。
5.为实现上述目的,本发明提供如下技术方案:一种安全用户画像的构建方法与装置,包括初始化模块、数据采集模块、用户画像模型、用户特征分类训练模块、决策模块和数据中心构成,其中初始化模块用于构建初始用户画像,用系统预先定义的规则,对注册信息进行特征化,标签化,获取用户的初始画像;数据采集模块,在用户成功登录后,采集用户访问网络资源的行为数据,采集的用户数据以用户的唯一识别号为索引,存储于数据中心;用户画像模型构造模块,根据用户的行为数据进行特征抽象,降低数据处理维度,对于具有不同的数据结构和类型进行预处理,获得xgboost能处理的数据类型,同时对抽象特征采用交
叉特征方法进行组合,获得更全面的训练效果以及用户模型;用户特征分类训练模块,根据用户画像模型的抽象特征数据,对用户行为特征进行训练分类,获得用户该行为的安全性分;决策模块,根据xgboost模型计算获得的安全特征分,更新所述用户的用户画像,存储至数据中心;数据中心,分别与上述五大模块相连,用于存储用户采集数据,用户画像模型,提供xgboost模型训练样本数据
6.在一个优选地实施方式中,通过采集用户的日常网络资源访问行为,根据用户画像模型进行特征提取,并进行预处理,将预处理输出的特征数据进行组合,然后输入xgboost进行深度学习分类计算,获得用户特征以及组合安全特征分,构成用户的安全特征画像,用户特征画像可以输出给sdn网络用于安全访问控制,如果其安全特征分高于系统预定义的阈值,则系统可以拒绝该访问行为,其具体处理流程如下所示:
7.步骤一,构建初始用户画像,用户注册本发明所述零信任网络系统后,提交用户注册信息,包括用户角色等,系统存储用户注册信息,并根据系统预定义规则定义用户唯一识别号,优选的,所述用户唯一识别号可用于存储用户信息的唯一索引;同时,采集用户的首次访问ip地址,注册时所采用的设备,以及通过设备授权获取的用户注册的实际地理位置等信息并进行存储;
8.用户提交注册信息后,系统根据用户的角色为其分配初始的资源访问范围,系统在人工确认后,在数据中心存储该用户确定初始用户资源访问范围与权限。为了保证系统的可用性,对未注册的用户实施最低资源访问权限,在用户注册成功后,系统根据用户提交的注册信息,用系统预先定义的规则,对注册信息进行特征化,标签化,获取用户的初始画像。
9.在一个优选地实施方式中,步骤二,采集用户资源访问数据,成功注册的用户在进行网络资源访问时,如果未登陆,则统一按未注册用户的权限进行资源访问,同时,系统分配临时用户识别码,不进行用户画像网络行为的采集,若用户登录成功,则从登录成功时刻开始,采集用户访问网络资源的行为数据,包括登录方式,账号,终端设备,时间,地点,ip地址等;用户在访问资源时,采集用户访问资源的时间,时长,资源的类型,对应资源的安全级别等信息。采集的用户数据以用户的唯一识别号为索引,存储于数据中心。
10.在一个优选地实施方式中,步骤三,利用系统用户画像模型对用户采集数据进行特征化,由于用户画像是对基于大量标签的用户行为数据进行特征提取所获得,用户模型的特征表征用户行为,可通过用户行为特征区别用户的哪些行为是异常的,从而达到实时调整资源访问授权的目的,保证系统的安全。
11.在一个优选地实施方式中,用户访问网络资源行为数据量庞大,不利于系统对全部数据行为进行处理,针对这种情况,建立用户画像模型时,根据用户的行为数据进行特征抽象,降低数据处理维度的同时,不降低系统的安全特性本质。优选的,用户的行为特征可以按下述方式进行抽象以获得抽象特征:
12.抽象特征用户行为登录方式登录方式,登录时间戳登录设备设备名称,设备类型,设备唯一编号,设备数量等ip地址访问资源时使用的ip地址物理位置具体物理位置,设备获取的gps定位地址
访问资源类型资源的名称,安全级别,类型等资源访问时长资源访问的时间长度键入信息用户输入的文字信息
13.在一个优选地实施方式中,根据采集的数据量的不同,可对抽象特征以及具体行为进行扩充或者删减,抽象的特征数据由于取值的不同,具有不同的数据结构和类型,需对其进行预处理,对于数值型的特征数据,由于具有连续分布,需对其进行大颗粒度量化,比如:访问时间,以小时为单位进行量化,最小精度可以定义为0.1小时,对于类别型的特征数据,比如:登录方式,登录设备,ip地址等,优选的,采用独热编码方式对其进行量化处理,将不同特征映射至矩阵空间,获得特征对应唯一的向量。对于文本类型的特征数据,优选的采用词袋模型进行处理,获得相应的处理结果,由于用户行为不仅仅局限于某种单一的抽象特征,在模型构建时,需考虑多个抽象特征的组合的影响,优选的,对抽象特征的组合可采用交叉特征方法进行组合,组合的特征数量可以根据系统的运算能力以及实际的需要进行确定。
14.在一个优选地实施方式中,步骤四,根据用户画像模型获得的抽象数据特征,对用户行为特征进行训练分类,获得用户该行为的安全性分,训练方法优选地采用xgboost模型算法,xgboost模型算法过程如下:
15.对于给定的具有n个样本和m个特征的训练样本 d={(x
b
,y
i
)}(|d|=n,x
i
∈r
m
,y
m
∈r),xgboost算法的最终训练结果是一个由k个 cart决策树函数相加得到的集成模型:
[0016][0017]
其中是xgboost模型的输出,f={f(x)=w
o
(x)}(q:r
m

t,w∈r
r
)是 cart决策树的集合,一个cart决策树由树结构q和t个叶结点组成,每个叶结点j都有一个连续至于它对应,称为叶节点的权重w
j
,所有权值构成该树的权重向量w∈r
t

[0018]
树结构q通过属性判别可以将任意具有m维特征的样本映射到期某一个叶节点上。每一个决策树函数f
k
对应一个特有的树结构q以及对应的叶节点权重向量w。对于一个样本,xgboost模型获取最终的预测值的过程为:在每一颗决策树上将该样本映射到对应的叶节点上。再将该样本对应的k 个叶节点权重相加,训练分类时,从步骤三获得的数据样本中提取一定比例的数据输入上述算法模型中进行参数优化训练,选取的数据比例以使xgboost 有预期的效果为准,样本数据越多,xgboost的效果越好。预留部分的数据用于验证所述模型训练分类的准确度,这部分的数据越多,验证越准确,因此选取数据时,需要根据系统需要进行权衡;
[0019]
利用提取的训练样本集,对xgboost模型进行训练,系统可以将模型的参数调整至最有状态,根据训练获得的模型最优参数,设置为模型的最优参数,使用最优参数的xgboost模型对用户画像特征数据进行计算,从而获得该用户特征行为的安全特征分数。
[0020]
在一个优选地实施方式中,步骤五:xgboost模型计算获得的安全特征分,更新所述用户的用户画像,存储至数据中心,如果该用户特征或者特征组合的安全特征分已有相应的数值,则用最新的安全分进行替代,否则,在用户画像特征中增加安全评估分。优选的,
数据中心记录用户画像安全特征分的更新时间,若更新时间超过一定的阈值范围,则舍弃该用户画像安全特征分,否则,可用于零信任系统的用户访问资源行为。
[0021]
本发明的技术效果和优点:本发明提供了一种安全用户画像的构建方法与装置,通过采集用户的日常网络资源访问行为,根据用户画像模型进行特征提取,并进行预处理,将预处理输出的特征数据进行组合,然后输入 xgboost进行深度学习分类计算,获得用户特征以及组合安全特征分,构成用户的安全特征画像,用户特征画像可以输出给sdn网络用于安全访问控制,实时监控用户的资源访问行为做出判断,对异常行为进行及时的制止,避免系统遭受重要损失,具有较高的现实意义。
附图说明
[0022]
图1为本发明的安全用户画像构建方法处理流程示意图。
[0023]
图2为本发明的整体流程示意图。
具体实施方式
[0024]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0025]
如附图1

2所示的一种安全用户画像的构建方法与装置,包括初始化模块、数据采集模块、用户画像模型、用户特征分类训练模块、决策模块和数据中心构成,其中初始化模块用于构建初始用户画像,用系统预先定义的规则,对注册信息进行特征化,标签化,获取用户的初始画像;数据采集模块,在用户成功登录后,采集用户访问网络资源的行为数据,采集的用户数据以用户的唯一识别号为索引,存储于数据中心;用户画像模型构造模块,根据用户的行为数据进行特征抽象,降低数据处理维度,对于具有不同的数据结构和类型进行预处理,获得xgboost能处理的数据类型,同时对抽象特征采用交叉特征方法进行组合,获得更全面的训练效果以及用户模型;用户特征分类训练模块,根据用户画像模型的抽象特征数据,对用户行为特征进行训练分类,获得用户该行为的安全特征分;决策模块,根据xgboost模型计算获得的安全特征分,更新所述用户的用户画像,存储至数据中心;数据中心,分别与上述五大模块相连,用于存储用户采集数据,用户画像模型,提供 xgboost模型训练样本数据。
[0026]
优选的,通过采集用户的日常网络资源访问行为,根据用户画像模型进行特征提取,并进行预处理,将预处理输出的特征数据进行组合,然后输入 xgboost进行深度学习分类计算,获得用户特征以及组合安全特征分,构成用户的安全特征画像,用户特征画像可以输出给sdn网络用于安全访问控制,如果其安全特征分高于系统预定义的阈值,则系统可以拒绝该访问行为,其具体处理流程如下所示。
[0027]
步骤一,构建初始用户画像,用户注册本发明所述零信任网络系统后,提交用户注册信息,包括用户角色等,系统存储用户注册信息,并根据系统预定义规则定义用户唯一识别号,所述用户唯一识别号可用于存储用户信息的唯一索引;同时,采集用户的首次访问ip地址,注册时所采用的设备,以及通过设备授权获取的用户注册的实际地理位置等信息并
进行存储;
[0028]
用户提交注册信息后,系统根据用户的角色为其分配初始的资源访问范围,系统在人工确认后,在数据中心存储该用户确定初始用户资源访问范围与权限,为了保证系统的可用性,对未注册的用户实施最低资源访问权限,在用户注册成功后,系统根据用户提价的注册信息,用系统预先定义的规则,对注册信息进行特征化,标签化,获取用户的初始画像。
[0029]
优选的,步骤二,采集用户资源访问数据,成功注册的用户在进行网络资源访问时,如果未登陆,则统一按未注册用户的权限进行资源访问,同时,系统分配临时用户识别码,不进行用户画像网络行为的采集,若用户登录成功,则从登录成功时刻开始,采集用户访问网络资源的行为数据,包括登录方式,账号,终端设备,时间,地点,ip地址等;用户在访问资源时,采集用户访问资源的时间,时长,资源的类型,对应资源的安全级别等信息。采集的用户数据以用户的唯一识别号为索引,存储于数据中心。
[0030]
优选的,步骤三,利用系统用户画像模型对用户采集数据进行特征化,由于用户画像是对基于大量标签的用户行为数据进行特征提取所获得,用户模型的特征表征用户行为,可通过用户行为特征区别用户的哪些行为是异常的,从而达到实时调整资源访问授权的目的,保证系统的安全。
[0031]
优选的,用户访问网络资源行为数据量庞大,不利于系统对全部数据行为进行处理,针对这种情况,建立用户画像模型时,根据用户的行为数据进行特征抽象,降低数据处理维度的同时,不降低系统的安全特性本质,用户的行为特征可以按下述方式进行抽象以获得抽象特征:
[0032][0033][0034]
优选的,根据采集的数据量的不同,可对抽象特征以及具体行为进行扩充或者删减,抽象的特征数据由于取值的不同,具有不同的数据结构和类型,需对其进行预处理,对于数值型的特征数据,由于具有连续分布,需对其进行大颗粒度量化,比如:访问时间,以小时为单位进行量化,最小精度可以定义为0.1小时,对于类别型的特征数据,比如:登录方式,登录设备,ip 地址等,优选的,采用独热编码方式对其进行量化处理,将不同特征映射至矩阵空间,获得特征对应唯一的向量,对于文本类型的特征数据,优选的采用词袋模型进
行处理,获得相应的处理结果,由于用户行为不仅仅局限于某种单一的抽象特征,在模型构建时,需考虑多个抽象特征的组合的影响,对抽象特征的组合可采用交叉特征方法进行组合,组合的特征数量可以根据系统的运算能力以及实际的需要进行确定。
[0035]
优选的,步骤四,根据用户画像模型获得的抽象数据特征,对用户行为特征进行训练分类,获得用户该行为的安全特征分,训练方法优选地采用 xgboost模型算法,xgboost模型算法过程如下:
[0036]
对于给定的具有n个样本和m个特征的训练样本 d={(x0,v
i
)}(|d|

n,x
i
∈r
m
,y
i
∈r),xgboost算法的最终训练结果是一个由k个 cart决策树函数相加得到的集成模型:
[0037][0038]
其中是xgboost模型的输出,p=(f(k)=w
o
(x)})q,r
m

t,w∈r
t
)是 cart决策树的集合,一个cart决策树由树结构q和t个叶结点组成,每个叶结点j都有一个连续至于它对应,称为叶节点的权重w
j
,所有权值构成该树的权重向量w∈r
t

[0039]
树结构q通过属性判别可以将任意具有m维特征的样本映射到期某一个叶节点上,每一个决策树函数f
k
对应一个特有的树结构q以及对应的叶节点权重向量w。对于一个样本,xgboost模型获取最终的预测值的过程为:在每一颗决策树上将该样本映射到对应的叶节点上。再将该样本对应的k 个叶节点权重相加,训练分类时,从步骤三获得的数据样本中提取一定比例的数据输入上述算法模型中进行参数优化训练,选取的数据比例以使xgboost 有预期的效果为准,样本数据越多,xgboost的效果越好,预留部分的数据用于验证所述模型训练分类的准确度,这部分的数据越多,验证越准确,因此选取数据时,需要根据系统需要进行权衡;
[0040]
优选的,步骤五:xgboost模型计算获得的安全特征分,更新所述用户的用户画像,存储至数据中心,如果该用户特征或者特征组合的安全特征分已有相应的数值,则用最新的安全特征分进行替代,否则,在用户画像特征中增加安全特征分,数据中心记录用户画像安全特征分的更新时间,若更新时间超过一定的阈值范围,则舍弃该用户画像安全特征分,否则,可用于零信任系统的用户访问资源行为。
[0041]
本发明工作原理:通过采集用户的日常网络资源访问行为,根据用户画像模型进行特征提取,并进行预处理,将预处理输出的特征数据进行组合,然后输入xgboost进行深度学习分类计算,获得用户特征以及组合安全特征分,构成用户的安全特征画像,用户特征画像可以输出给sdn网络用于安全访问控制,实时监控用户的资源访问行为做出判断,对异常行为进行及时的制止,避免系统遭受重要损失,具有较高的现实意义。
[0042]
最后应说明的几点是:首先,在本技术的描述中,需要说明的是,除非另有规定和限定,术语“安装”、“相连”、“连接”应做广义理解,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变,则相对位置关系可能发生改变;
[0043]
其次:本发明公开实施例附图中,只涉及到与本公开实施例涉及到的结构,其他结构可参考通常设计,在不冲突情况下,本发明同一实施例及不同实施例可以相互组合;
[0044]
最后:以上仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1