基于多模型协同的非结构化文本数据安全属性挖掘方法及系统

文档序号:37915127发布日期:2024-05-10 23:54阅读:23来源:国知局
基于多模型协同的非结构化文本数据安全属性挖掘方法及系统

本发明涉及网络信息安全访问控制,特别涉及一种基于多模型协同的非结构化文本数据安全属性挖掘方法及系统。


背景技术:

1、随着网络与信息技术的飞速发展,大数据已成为国家重要战略资源。但人们在利用大数据资源所创造的巨大价值的同时,也面临着严峻的数据安全问题。作为大数据资源的重要组成部分,非结构化数据(unstructured data)具有动态性、分布式、多源异构等特点,使得数据安全共享的场景和需求变得异常复杂。与结构化数据资源相比,非结构化数据的安全属性描述更加困难,这为细粒度的访问控制实施提出了挑战。作为有效保障数据安全共享的重要手段,访问控制技术通过对用户权限的管理,防止对资源的未授权访问,使数据资源在合法范围内使用。针对开放环境下动态、海量数据资源的访问授权与管理,人们提出利用基于属性的访问控制(attribute based access control,abac),将数据资源的属性作为访问控制的判决要素,并利用实体所具有的属性集合来灵活判决是否赋予其相应的访问权限,能够实现细粒度与高效权限判决。

2、基于属性的访问控制需要获取数据资源的安全属性,除数据资源的生成时间、资源格式等固有属性外,与资源内容相关的业务属性也成为了访问控制的重要依据。但由于非结构化数据资源具有海量、动态、多源异构等特性,针对非结构化数据资源安全属性标记的属性工程成为了一项劳动密集性的任务,难以通过自顶向下方法借助安全专家所具备的知识实现针对数据资源业务属性的生成与管理。因此,如何构建兼顾准确性与效率的非结构化数据资源的安全属性挖掘方法,已经成为海量数据环境下访问控制领域的关键问题。现有的针对非结构化数据资源属性标记的属性工程研究主要存在以下两方面挑战:(1)难以通过“自上而下”的方法利用安全专家所具备的知识对海量非结构化数据资源的安全属性进行手动标记。在新型计算环境中,数据通常具有大体量、多样性、时效性等特点,作为海量数据的主体部分,针对非结构化数据资源的授权与访问对现有的访问控制属性工程提出了更高要求。在属性工程中,难以通过人力实施这种劳动密集型的属性标记与管理工作,无法适应大数据场景下的访问控制安全需求。因此,如何减小属性标记对安全专家个人专业知识的依赖,提高属性管理的效率与准确性,已经成为现阶段属性工程的主要研究方向。(2)难以实现对非结构化数据资源的准确描述。在访问控制领域中,能否对访问控制客体资源进行准确描述,严重影响到访问控制的细粒度实施。在传统的针对结构化数据资源的访问控制机制中,abac通常将数据资源自身的数据类型作为安全属性,进而描述资源客体,例如,用户a不能访问用户b的所属组id,所属组id就是一种数据类型。这样的数据类型一般被称为固有属性,对于预处理好的结构化数据而言,通过标记、管理其固有属性实施访问控制是方便可行的。而对于非结构化数据,其自身仅包含生成时间、生成者等基本属性,缺少描述资源内在特征的业务属性,从而影响细粒度访问控制的精准实施。


技术实现思路

1、为此,本发明提供一种基于多模型协同的非结构化文本数据安全属性挖掘方法及系统,解决现有大数据环境下安全属性挖掘方法大多为单模型方法、鲁棒性和容错能力不高、缺少语义层面优化、挖掘出的安全属性可解释性与可用性不强等问题,通过多模型协同实现访问控制数据资源安全属性的自动化、智能化挖掘,为实现精准访问控制提供属性基础。

2、按照本发明所提供的设计方案,一方面,提供一种基于多模型协同的非结构化文本数据安全属性挖掘方法,用于数据访问控制权限管理,包含:

3、对原始文本数据进行预处理,并提取预处理后文本数据中的候选属性;

4、将候选属性和文本数据分别对应映射到词向量空间和文本向量空间,提取多维属性特征,所述多维属性特征包括文本数据自身资源特征、候选属性自身属性特征及文本数据与候选属性之间交互特征;

5、将多维属性特征作为模型输入,利用已训练的属性挖掘模型获取文本数据资源的安全属性,其中,属性挖掘模型采用多模型投票方法协同训练;

6、将安全属性映射到词汇语义网,基于词汇语义网的相关词关联对安全属性进行约简处理,并依据约简处理结果确定文本数据资源安全属性的词语层次。

7、作为本发明基于多模型协同的非结构化文本数据安全属性挖掘方法,进一步地,对原始文本数据进行预处理,包含:

8、对原始文本数据进行预处理操作,以获取与处理后的规范化文本数据,其中,预处理操作至少包括文本清洗、文本分词、词性标注和依存分析。

9、作为本发明基于多模型协同的非结构化文本数据安全属性挖掘方法,进一步地,提取预处理后文本数据中的候选属性,包含:

10、设置用于文本数据中候选属性提取的目标算法,利用目标算法对文本数据资源进行候选属性提取,其中,目标算法包括tf-idf算法、textrank算法和k-medoids+bert算法;

11、基于粗糙集理论赋权对目标算法提取结果进行加权处理,根据加权处理结果得到文本数据中topk个候选属性。

12、作为本发明基于多模型协同的非结构化文本数据安全属性挖掘方法,进一步地,利用目标算法对文本数据资源进行候选属性提取,包含:

13、利用tf-idf算法对文本数据资源进行候选属性提取中,通过计算文本数据资源每个词语的tf-idf值,基于tf-idf值选取候选属性关键词;

14、利用textrank算法对文本数据资源进行候选属性提取中,将文本数据资源中各词语作为有向图节点,基于节点前驱节点个数及前驱节点得票设置各节点重要程度,基于重要程度选取候选属性关键词;

15、利用k-medoids+bert算法对对文本数据资源进行候选属性提取中,基于bert对文本数据资源词语进行向量嵌入并获取词向量;基于词向量间相似度并利用k-medoids算法对词语进行聚类,提取每个聚类的重要性词语作为候选属性关键词。

16、作为本发明基于多模型协同的非结构化文本数据安全属性挖掘方法,进一步地,基于粗糙集理论赋权对目标算法提取结果进行加权处理,包含:

17、将各目标算法对文本数据资源中单个词语是否为候选属性的判断结果作为条件值,将单个词语最终判断为候选属性的结果作为决策值;针对文本数据资源中单个词语,将目标算法判断结果和最终判断结果构成消息,基于每个词语的消息构成作为提取候选属性知识表达系统的论域;

18、针对论域,根据删除单个目标算法候选属性判断结果对最终候选属性判断结果的影响程度确定该单个目标算法指标权重,基于各指标权重对提取的候选属性进行赋权处理。

19、作为本发明基于多模型协同的非结构化文本数据安全属性挖掘方法,进一步地,将候选属性和文本数据分别对应映射到词向量空间和文本向量空间,提取多维属性特征,包含:

20、基于文本数据自身特征、候选属性自身特征、文本与候选属性的交互特征、候选属性之间关联关系特征、及候选属性与其他文本的交互特征来提取多维属性特征,其中,文本数据自身特征包括当前文本候选关键词个数、当前文本句子数量、当前文本聚类特征及当前文本标题与正文长度之和,候选属性自身特征包括候选属性词性、候选属性词长、候选属性是否包含数字、候选属性是否包含缩写、候选属性是否为历史作品词典中的单词;文本与候选属性的交互特征包括候选属性在文本中的统计特征、位置特征和相似度特征;候选属性之间关联关系特征包括同一文本中候选属性与其他词语相似度特征;候选属性与其他文本的交互特征包括:候选属性在整个数据集中的统计特性。

21、作为本发明基于多模型协同的非结构化文本数据安全属性挖掘方法,进一步地,利用已训练的属性挖掘模型获取文本数据资源的安全属性,包含:

22、首先,将给定的带有安全属性标签的候选属性特征样本集划分为训练集和测试集,基于训练集并分别使用不同的梯度提升方法对安全属性挖掘模型进行模型训练,得到对应的基模型;基于训练集对基模型进行测试,并依据测试结果宏平均f值设置各基模型权重,其中,不同的梯度提升方法至少包括梯度提升树gbdt、xgboost、lightgbm和catboost;

23、然后,利用基模型对候选属性的多维属性特征进行安全属性标签预测,并基于各基模型权重对预测结果进行加权平均,以根据加权平均结果获取文本数据资源的安全属性。

24、作为本发明基于多模型协同的非结构化文本数据安全属性挖掘方法,进一步地,基于各基模型权重对预测结果进行加权平均的过程表示为:其中,表示加权平均结果,i∈{1,2,…,m},i表示基模型序号,wi表示对应基模型权重,表示对应基模型对候选属性是否为安全属性的标签预测结果。

25、作为本发明基于多模型协同的非结构化文本数据安全属性挖掘方法,进一步地,基于词汇语义网的相关词关联对安全属性进行约简处理,包含:

26、将安全属性输入词汇语义网hownet,通过匹配词汇语义网获取与安全属性具有上、下位关系或组成关系的词语,根据不同粒度访问控制需求切换文本数据资源安全属性词语层次。

27、再一方面,本发明还提供一种基于多模型协同的非结构化文本数据安全属性挖掘系统,包含:数据处理模块、特征提取模块、属性挖掘模块和属性约简模块,其中,

28、数据处理模块,用于对原始文本数据进行预处理,并提取预处理后文本数据中的候选属性;

29、特征提取模块,用于将候选属性和文本数据分别对应映射到词向量空间和文本向量空间,提取多维属性特征,所述多维属性特征包括文本数据自身资源特征、候选属性自身属性特征及文本数据与候选属性之间交互特征;

30、属性挖掘模块,用于将多维属性特征作为模型输入,利用已训练的属性挖掘模型获取文本数据资源的安全属性,其中,属性挖掘模型采用多模型投票方法协同训练;

31、属性约简模块,用于将安全属性映射到词汇语义网,基于词汇语义网的相关词关联对安全属性进行约简处理,并依据约简处理结果确定文本数据资源安全属性的词语层次。

32、本发明的有益效果:

33、本发明借助tf-idf、textrank等算法对文本进行关键词抽取,实现非结构化文本数据中候选安全属性的提取;并选取文本资源自身、候选属性自身、文本资源与候选属性的交互等多个维度属性类别特征,从不同角度充分描述候选属性,为属性挖掘模型训练基础和预测提供依据,多模型协同训练属性挖掘模型,借助hownet语义关系网进行安全属性约简,提高文本资源属性的可解释性与可用性,为实现不同粒度的访问控制提供属性基础。通过实验结果表明,本案方案在安全属性挖掘方面能够达到92.36%的精确率与74.56%的召回率,较于其他方法具有更强的鲁棒性,能够有效实现海量非结构化文本数据资源的安全属性标记,为访问控制的实施提供安全属性支撑,具有较好的应用前景。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1