一种基于多源数据特征工程的用户画像构建方法与流程

文档序号:33398888发布日期:2023-03-08 15:12阅读:143来源:国知局
一种基于多源数据特征工程的用户画像构建方法与流程

1.本发明涉及一种基于多源数据特征工程的用户画像构建方法,属于网络数据分析领域。


背景技术:

2.用户画像是对用户进行理解,将用户属性转化为规则的、有利于计算机存储的可处理的数据格式。利用用户行为数据建立用户行为画像模型,是为了便于网络安全数据分析。基于行为分析的用户画像技术,是通过分析用户行为日志中的特定行为元数据,定义用户行为细粒度标签,将散乱的用户行为标签加以关联,实现用户在多个维度的画像。
3.用户画像构建的数据来源包括网络访问、数据传输和终端操作等用户行为数据和正则化的第三方安全态势数据等,但不同数据源的样本存在特征缺失、量纲不一、特征冗余和维度过大等问题,需要通过多源数据特征工程对原始数据进行特征预处理、特征选择和维度压缩,减少需要分析的数据量,为网络安全数据分析提供基础。


技术实现要素:

4.本发明提供一种基于多源数据特征工程的用户画像构建方法,通过多源数据特征工程对原始数据进行特征预处理、特征构造、特征选择和维度压缩,减少需要分析的数据量,为网络安全数据分析提供基础。
5.实现本发明的技术方案如下:
6.一种基于多源数据特征工程的用户画像构建方法,包括如下过程:
7.步骤1、特征构造:利用多数据源的特征工程技术将数据集中有用的特征全部挑选出来,组成新的子集;除直接从原始特征中进行选择,还对特征进行变换、组合;
8.步骤2、特征缩放:将特征进行标准化处理,得到落入设定区间的特征;
9.步骤3、特征降维:采用过滤式特征选择方法,排除重要性值较差的若干特征,得到新特征集;
10.步骤4、标签设定:对获得的新特征集进行标签设定,构成样本集;
11.步骤5、模型训练:利用所述样本集进行模型训练,利用训练好的模型,可以实现用户画像构建。
12.进一步地,所述标签设定包括:从用户自身基本属性、从事业务、用户行为角度定义完整的用户画像特征标签,包括行为特征标签和静态特征标签两大类。
13.进一步地,所述行为特征标签和静态特征标签包括:静态特征类标签包括用户特征标签和终端特征标签;用户特征标签包括用户的性别、年龄、所在的部门岗位在内的用户基本信息,终端特征标签描述终端的配置信息;
14.行为特征标签体系包括流量类特征标签、安全威胁类特征标签、用户访问特征标签和文件行为特征标签;在流量类特征标签构建时将流量协议特征作为第一维度,该协议流量出现的相对频率的高低作为二级维度;安全威胁类特征标签,包括病毒特征标签、攻击
特征标签及入侵特征标签;用户访问特征标签,基于用户访问数据进行统计学分析,对用户非正常的访问频次、非正常时段访问两个特殊情况进行描述;文件行为特征标签,基于用户文件行为数据进行统计学分析,对用户非正常的文件行为进行描述。
15.进一步地,所述模型训练的具体过程为:
16.(1)加载处理好的样本集,对样本集分隔,要求分隔大小为百分之二十,得到训练样本集;
17.(2)从训练样本集中抽取训练集;
18.(3)基于模型输入数据格式要求,对训练集进行格式转换;
19.(4)将训练集输入模型中,对模型进行训练。
20.进一步地,所述从训练样本集中抽取训练集,每轮从训练样本集中使用bootstraping方法有放回地抽取n个训练样本,共进行k轮抽取,得到k个训练集。
21.进一步地,所述变换、组合具体包含如下四类:
22.(1)数学变换
23.利用分位数截取、构造信息熵和拉普拉斯变换的方法对网络端口流量,主机cpu使用率,网络负载状况、主机内存使用率进行数学变换;
24.(2)组合统计
25.对用户的操作时间和用户的操作时长进行组合统计,获得业务处理时长基线;
26.(3)模型探测;
27.将从用户行为日志中提取到的数据特征带入数学函数模型中,获得主机脆弱性、攻击威胁度、漏洞利用三种特征;
28.(4)特征编码
29.对于包含有非数值字符串的连续型特征变量,采用编码的方式转转换为连续数字表示;对于包含有非数值字符串的离散型特征,采用独热编码的方式进行特征编码,将离散特征的取值扩展到欧式空间,令数据变为稀疏矩阵的形式。
30.进一步地,所述多数据源包括:网络访问、数据传输和终端操作上述用户行为数据以及正则化的第三方安全态势数据。
31.有益效果:
32.(1)本发明通过多源数据特征工程对原始数据进行特征预处理、特征缩放和特征降维,以减少需要分析的数据量,提高后续工作效率。
33.(2)本发明通过特征构造、特征缩放和特征降维三步,解决了不同数据源样本的内容复杂和属性复杂、特征缺失、冗余问题,最大限度从原始数据中提取特征,实现多个维度的用户画像。
34.(3)从用户自身基本属性、从事业务、用户行为角度定义完整的用户画像特征标签,提高了构建用户画像的准确性。
35.(4)从训练样本集中抽取训练集,每轮从训练样本集中使用bootstraping方法有放回地抽取n个训练样本,共进行k轮抽取,得到k个训练集,这种处理的结果是随机森林的偏差增加的很少,而由于弱相关树模型的平均,方差也得以降低,最终得到一个方差小,偏差也小的模型。
附图说明
36.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
37.图1为本发明的技术流程;
38.图2为bagging算法流程图。
具体实施方式
39.下面结合附图对本发明实施例进行详细描述。
40.基于多源数据特征工程的用户画像构建,首先通过提取和关联用户的网络访问、数据传输和终端操作等行为特征,通过特征工程对原始数据进行特征预处理、特征选择和维度压缩,以减少需要分析的数据量;再通过用户多维画像技术和机器学习方法,将用户行为日志数据中提取的大量行为标签进行结构化分析,对其特征进行训练,形成对用户属性维度的描述。包括以下步骤(如图1):
41.步骤1:特征构造
42.数据来源包括网络访问、数据传输和终端操作等用户行为数据和正则化的第三方安全态势数据等。由于不同数据源的样本存在特征缺失、量纲不一、特征冗余和维度过大等问题,为了最大限度从原始数据中提取特征以供算法和模型使用,需要研究如何通过特征工程对原始数据进行特征预处理、特征缩放和特征降维,以减少需要分析的数据量,并为后续的融合分析过程提供特征数据基础。特征预处理包括利用多数据源的特征工程技术将数据集中可能有用的特征全部挑选出来,组成新的子集,除了直接从原始特征中进行选择,还对特征进行变换、组合,这种思路称为特征构造。具体包含如下几类:
43.1)数学变换;
44.利用数学公式或变换公式进行特征变换,例如分位数截取、构造信息熵和拉普拉斯变换等方法,以此实现新特征的构造。本发明在处理时,主要针对以下几种特征进行数学变换:网络端口流量,主机cpu使用率,网络负载状况、主机内存使用率等,这些特征直接以数值的方式即可展现网络威胁状况。
45.2)组合统计;
46.基于统计方法,根据不同需要对不同的特征进行交叉组合,特征之间相互联系作用,从而表现出非线性的关系,此即为组合统计方法。例如从用户的操作时间和操作时长这两个相关度较高的特征,组合推测出用户业务处理时长,从而形成业务处理时长基线。
47.3)模型探测;
48.利用机器学习的模型对样本进行挖掘分析,这里的挖掘方法通常是无监督或半监督的机器学习方法,例如可以对样本进行聚类,再结合实际业务情况,得到样本的分类标签,然后将分类标签作为一个新的特征列,加入特征子集。
49.针对多源数据形成的数据特征的模型探测,通过采用数学函数,分别考察函数类型、函数参数对指标特征的影响,探测得到合适的数学函数模型;将从用户行为日志中提取到的各数据特征带入数学函数模型中,获得主机脆弱性、攻击威胁度、漏洞利用等特征。
50.4)特征编码;
51.部门名称、职称水平、性别等类别型特征都包含有非数值字符串,因此这类不适合直接输入模型参与运算,此时需要采用编码的方式将这些特征转换为学习模型适用的数值数据特征。例如,对于一些连续型的特征变量,可以采用分段编码的方式进行处理。例如以季度为划分标准,在日期数据特征列中,令0代表1-3月、1代表4-6月、2代表7-9月、3代表10-12月。此时,由于分段编码的值连续有序,符合模型的要求,因此数据可直接输入模型,参与运算。
52.但对于安全引擎命中率这类离散型特征却不能这样编码。在分类算法中,特征之间的距离计算或相似度计算非常重要,而常用的机器学习和统计算法都是基于欧氏距离的算法。如果行为引擎命中=0,威胁检测引擎命中=1,第三方威胁情报命中=2,从欧氏距离来看,行为引擎命中与威胁检测引擎命中的距离为1,行为引擎命中与第三方威胁情报命中的距离为3,那么在机器学习中会认为行为引擎命中更接近于威胁检测引擎,而非第三方威胁情报命中,这和数据集中的原始特征的本意相违背,因为分类器往往默认数据是连续有序的,然而安全引擎命中率之间不存在序列关系,不应该进行直接比较。此时,采用独热编码的方式进行特征编码,将离散特征的取值扩展到欧式空间。独热编码的占位符取决于类别的数量,例如,如果前述的安全引擎命中率特征中仅有3个值,则可令行为引擎命中=(1,0,0),安全引擎命中=(0,1,0),第三方威胁情报命中=(0,0,1)。此时,这些特征互斥,每次只有一个激活,数据会变成稀疏矩阵,且每个特征值之间的欧式距离相等,这较好的解决了分类器不能处理属性数据的问题,也在一定程度上起到了扩充特征列的作用。有n个取值的离散型特征输入模型时,实际上就是把该特征拆分为n个仅包含0和1的二值特征。
53.步骤2:特征缩放;
54.特征缩放的目的是将数据进行标准化处理,处理的结果是得到落入一个小的特定区间的特征。在连续型特征中,数值大小可能非同一量级,单位也可能不同,这就使数据在输入模型后无法得到应有的分类效果,造成特征失效,影响数据分析的效果,此时,对这些特征进行缩放处理,通过归一化函数变换将特征子集x中的数值映射到某个小区间y内,从而消除这种不良影响。
55.步骤3:特征降维;
56.特征数量过少会使有效信息缺失,过多则会造成维度灾难,拖慢计算速度,影响模型的具体表达,使模型无法收敛,因此需要进行特征降维。在进行特征提取、构造、编码和缩放后,采用过滤式特征选择方法。
57.采用机器学习中的随机森林模型,在实际分类模型开始运算之前,得到各特征的相对影响水平、特征扰动水平和扰动特征的影响,综合这三方面的因素,得到建模特征的重要性排序,根据实际情况,排除重要性值相对较差的若干特征,得到特征数量减少后的新的特征集。
58.步骤4:标签设定;
59.对步骤3处理后获得新特征集进行标签设定,构成样本集;其中标签设定的标准为:
60.从用户自身基本属性、从事业务、用户行为等角度定义完整的用户画像特征标签,包括行为特征标签和静态特征标签两大类。
61.静态特征类标签包括用户特征标签和终端特征标签。用户特征标签包括用户的性
别、年龄、所在的部门岗位等用户基本信息,终端特征描述终端的配置信息,这两类信息的部分字段为非必须字段,主要用于对用户行为标签体系的静态特征的补充。
62.行为特征标签体系包括流量类特征标签、安全威胁类特征标签、用户访问特征标签和文件行为特征标签。在流量类特征标签构建时将流量协议特征作为第一维度,该协议流量出现的相对频率的高低作为二级维度。安全威胁类特征标签,包括病毒特征标签、攻击特征标签、入侵特征标签。用户访问特征标签,基于用户访问数据进行统计学分析,对用户非正常的访问频次、非正常时段访问等特殊情况进行描述;文件行为特征标签,基于用户文件行为数据进行统计学分析,对用户非正常的文件行为进行描述。
63.步骤5:模型训练;
64.bagging集成学习模型训练的步骤(如图2):
65.(1)加载处理好的样本集,对样本集分隔,要求分隔大小为百分之二十,得到训练样本集;
66.(2)从训练样本集中抽取训练集;
67.其中,从训练样本集中抽取训练集。每轮从训练样本集中使用bootstraping(有放回)的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中)。共进行k轮抽取,得到k个训练集。(我们这里假设k个训练集之间是相互独立的,事实上不是完全独立)
68.在使用随机森林和随机树的算法随机选取训练集部分特征进行训练时,在随机森林中,每个树模型都是装袋采样训练的。另外,特征也是随机选择的,最后对于训练好的树也是随机选择的。这种处理的结果是随机森林的偏差增加的很少,而由于弱相关树模型的平均,方差也得以降低,最终得到一个方差小,偏差也小的模型。
69.(3)设置训练算法参数,对训练集进行格式转换;
70.(4)将训练集输入模型中,对模型进行训练;
71.其中,每次使用一个训练集得到一个模型,k个训练集共得到k个模型。但是是同种模型。(注:k个训练集虽然有重合不完全独立,训练出来的模型因为是同种模型也是不完全独立。这里并没有具体的分类算法或回归方法,我们可以根据具体问题采用不同的分类或回归方法,如决策树、感知器等)
72.对分类问题:将上步得到的k个模型采用投票的方式得到分类结果;对回归问题,计算上述模型的均值作为最后的结果。(所有模型的重要性相同)
73.基于上述方法所得模型,可实现基于多源数据特征工程的用户画像构建。
74.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1