一种基于掩码语言模型的用户行为特征提取方法与流程

文档序号:37729600发布日期:2024-04-23 12:14阅读:15来源:国知局
一种基于掩码语言模型的用户行为特征提取方法与流程

本发明涉及内部威胁和自然语言处理领域。


背景技术:

1、随着信息技术的迅速发展,企业和组织在网络化的运作中扮演着日益重要的角色,网络系统已经成为国家发展和个体生活中不可或缺的一部分。

2、然而,这种数字化转型也为内部威胁带来了新的挑战。内部攻击以其高危险性、隐蔽性以及多元化等特征成为现代组织所必须应对的紧迫问题,对企业和个人的信息安全造成了严重威胁。内部威胁场景研究逐渐唤起不同专家学者们的关注并提出了针对内部威胁检测的各种方法。同时,内部威胁研究重点主要针对特征构建,目前主要的两种内部威胁场景中的特征构建方法为:

3、一是采用计算时间窗口的统计特征提取方法,组织特定特征构建用户行为特征[1-3]。基于这一类特征提取方法,众多研究通过不同的检测方法取得了较高的准确率和召回率。然而,这类依赖于组织特定特征提取的方法需要领域专家花费大量的时间构建特征,不适用于通用内部威胁检测。

4、二是按时间顺序构建用户行为序列的方法,将用户行为表示为顺序数据,这类方法是常用处理手段。相较于统计特征提取,用户行为序列[4]更能够有效地表征用户行为之间的顺序关系。mikolov等人[5]提出了word2vec,该方法更有效地获取词向量,使得在大规模语料库上获取语义信息成为可能。虽然word2vec获得的表示是静态的,随后有学者提出elmo[6],通过在大规模无标记语料库上学习上下文感知的动态表示,但是通过这类方法提取到的用户行为特征会出现数据特征粗糙且无法适应长文本的输入等问题。


技术实现思路

1、内部威胁领域主要涉及内部威胁的检测,其中用户行为的表示是内部威胁检测的重要环节,用户行为特征的提取直接影响着威胁检测的性能。为了解决上述用户行为特征提取方法的不足,本发明提出了一种基于掩码语言模型的用户行为特征提取方法。引入掩码语言模型进行用户行为特征提取,实现深度双向语言表示,以提升用户行为特征的提取性能。

2、为了实验上述方案,步骤如下:

3、步骤1、根据内部人员日志,构建用户行为序列;

4、步骤2、对行为序列进行wordpiece、word embedding操作,将行为序列转化为行为向量;

5、步骤3、将行为向量输入到掩码语言模型,使模型学习表示用户行为特征;

6、步骤4、将行为向量添加特殊标记cls[8],使用训练好的掩码语言模型,获得用户行为特征。

7、有益效果:

8、本发明一种基于掩码语言模型的用户行为特征提取方法,不仅解决了统计特征提取方法需要组织特定特征的问题,还优化了用户行为序列的方法,适应了长序列的输入和词的动态特征表示;其次,发明了掩码语言模型用于构建内部威胁场景中的用户行为特征,提高用户行为特征表示能力。



技术特征:

1.一种基于掩码语言模型的用户行为特征提取方法,其特征在于,包括以下步骤

2.根据权利要求1所述的一种基于掩码语言模型的用户行为特征提取方法,其特征在于,所述步骤1根据内部人员日志,构建用户行为序列,包括以下步骤,2.1对cert数据集按照内部人员划分所有日志中的用户行为;2.2将划分好的用户行为,按照用户行为的时间排序,构成行为序列x,其中x是由n个行为组成的序列,表示为x=[act1,act2,…,actn]。

3.根据权利要求1所述的一种基于掩码语言模型的用户行为特征提取方法,其特征在于,所述步骤2对行为序列进行wordpiece、word embedding操作,将行为序列转化为行为向量,包括以下步骤,3.1对行为序列进行分词,使用tonkenizer对行为序列x划分为单词单元,这个基本单元可以是单词或者是部分单词;3.2将分词后的序列进行wordpiece操作,wordpiece使用贪心算法,从左到右将序列逐步划分为子词。wordpiece分词器的输出将包含单词本身以及单词的部分;3.3将经过wordpiece处理的序列进行word embedding操作转换为词向量。每个词都被映射为一个维度768的向量,用于表示该词。

4.根据权利要求1所述的一种基于掩码语言模型的用户行为特征提取方法,其特征在于,所述步骤3、将行为向量输入到掩码语言模型,使模型学习表示用户行为特征,包含以下步骤,4.1进行随机掩码,对步骤3.3处理表示行为的词向量进行mask操作,随机选择15%的词替换为mask,构成4.2通过语言模型重建x,对于每个被掩码的位置,模型的目标是预测原始单词的概率分布。

5.根据权利要求4所述的一种基于掩码语言模型的用户行为特征提取方法,其特征在于,掩码语言模型的目标是最大化条件概率:

6.根据权利要求1所述的一种基于掩码语言模型的用户行为特征提取方法,其特征在于,所述步骤4将行为向量添加特殊标记cls,使用训练好的掩码语言模型,获得用户行为特征,包括以下步骤,6.1在行为序列最前面添加特殊标记cls,用于获取整个行为序列的表示;6.2使用步骤3.1、3.2获得行为向量;5.3将行为向量输入训练好的掩码语言模型,获得cls对应的输出向量,用于表示用户行为特征。


技术总结
本发明在内部威胁检测场景中提供了一种基于掩码语言模型的用户行为特征提取方法,该方法包括:根据内部人员日志,构建用户行为序列;对行为序列进行WordPiece、Word Embedding操作,将行为序列转化为行为向量;将行为向量输入到掩码语言模型,使模型学习表示用户行为特征;将行为向量添加特殊标记CLS,使用训练好的掩码语言模型,获得用户行为特征。其中,掩码语言模型通过训练一个tonkenizer对行为序列进行WordPiece操作,学习一个具备表示所有行为的一个字典,然后将行为通过字典映射到行为向量,输入到掩码语言模型进行用户行为特征提取。

技术研发人员:李晓莉,郭志达,萧名谦,沈伍强,姚潮生,沈浩彬,张小陆,赵岭
受保护的技术使用者:广东电网有限责任公司信息中心
技术研发日:
技术公布日:2024/4/22
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1