用于元数据的分级方法和系统与流程

文档序号:38316462发布日期:2024-06-14 10:52阅读:19来源:国知局
用于元数据的分级方法和系统与流程

本公开涉及用于元数据的分级方法和系统,并且具体地,涉及可以对元数据的安全级别进行自动化推荐的分级方法、系统、装置存储介质和程序产品。


背景技术:

1、《数据安全法》第二十二条规定,各地区、各部门应当按照数据分类分级保护制度,确定本地区、本部门以及相关行业、领域的重要数据具体目录,对列入目录的重要数据进行重点保护。特别地,对于航空领域,航空公司业务种类繁多,数据呈现多样性、复杂性的特点。采用数据分类、分级打标工具,对个人数据分类分级进行自动化推荐,有助于公司厘清数据资产、确定数据的重要性和敏感度,可针对性地采取适当的、合理的管理措施和安全防护措施,在保障数据安全的基础上促进数据开放共享。

2、行业普遍对数据分类分级的做法是靠人工进行梳理,缺点是效率低、工作量大、人工识别的准确率不高。


技术实现思路

1、本技术提出了一种用于元数据的分级方法、系统、装置、存储介质和程序产品。

2、根据本公开的实施例的第一方面,提供了一种用于元数据的分级方法,包括:基于导入的分级规则生成关键信息与安全级别的二元数据组;从数据库中载入元数据的字段信息,将所述字段信息依次与关键信息进行匹配以计算元数据与每个关键信息的相似度;当存在相似度满足阈值条件的关键信息时,基于与元数据的相似度最高的关键信息所对应的安全级别对元数据进行初步标记,并且当所有相似度均不满足阈值条件时,将元数据初步标记为普通级别;以及对经过初步标记的元数据进行复核以确定元数据的安全级别。在这样的实施例中,通过对导入的分级规则进行预处理来获取用于元数据分级和/或分类的二元数据组,也即得到用于指示元数据的字段信息或多个元数据的关系的关键信息与安全级别的对应关系,从而对元数据分级结果进行自动化推荐,并且通过人工和/或数据验证等方式对分级结果进行复核,提高了数据识别的效率和精度。

3、在一些实施例中,关键信息包括基于实体识别模型提取的实体信息和基于关系抽取模型提取的关系信息,其中关系信息用于指示多个实体信息之间的关系对安全级别的影响。在一些实施例中,二元数据组包括实体信息与对应于实体信息的单一安全级别的数据对,以及关系信息与对应于关系信息所指示的多个实体信息的组合安全级别的数据对。分级规则对于数据安全的相关定义包括诸如指示单一实体信息所对应的安全级别,也可能包括指示实体信息的组合中多个实体信息之间的关系或满足特定条件的情况下对应的组合安全级别,可以从多个维度制定基于关键信息的分级标准。

4、在一些实施例中,基于导入的分级规则生成关键信息与安全级别的二元数据组包括:对规则文件进行预处理以获取规则文件中与安全级别相关联的目标语句;识别所述目标语句以提取安全级别所对应的关键信息,从而获得关键信息与安全级别的数据对;以及整理关键信息与安全级别的数据对以生成关键信息与安全级别的二元数据组。应当理解的是,导入的分级规则可以是已经过信息提取的、具有二元结构的数据安全分级标准,也可以是有关于数据安全分级的规则文件。

5、在一些实施例中,整理关键信息与安全级别的数据对包括:对安全级别相同并且关键信息满足语义近似条件的数据对进行去重、对关键信息相同并且安全级别不同的数据对进行瑕疵排除,以及以安全级别为基准将二元数据组中的数据对进行排序。在一些实施例中,将所述字段信息依次与关键信息进行匹配包括模糊匹配和正则匹配。由于规则文件一般采用自然语言叙述,对规则文件进行诸如信息提取等预处理所得到的结果不一定是具有表结构的数据形式,因此还需要对涉及关键信息及其安全级别的目标语句进行语义分割、分词/分字处理等,以获得与元数据的结构或形式相似或相关的关键信息。

6、在一些实施例中,对元数据的初步标记包括:基于元数据所属数据表对元数据进行分组以生成元数据集合,并且选取包括多个元数据的第一集合;以及响应于判断元数据集合中包含第一集合,将第一集合中的多个元数据对应的安全级别进行调整。应当理解的是,当数据表同时包含特定的多个元数据时,可能比数据表仅包含该多个元数据中的单个元数据时更需要提高数据安全级别,诸如对于两个单独包含在数据表中、安全级别为一般的元数据而言,如果同时包含于数据表,则其对应关系体现的数据价值使得两者的安全级别被提升为敏感。

7、在一些实施例中,对经过初步标记的元数据进行复核包括:针对被初步标记为普通级别的第一元数据,从数据库中提取第一元数据对应的至少一个数据记录;根据数据识别模型分析所述至少一个数据记录的数据类型和数据结构,并且基于所述数据类型和数据结构确定所述至少一个数据记录对应的标准元数据;以及将第一元数据的安全级别核准为标准元数据在二元数据组中对应的安全级别。在一些实施例中,响应于判断标准元数据与第一元数据不满足语义近似条件,发布分级错误警报,并且基于所述分级错误警报确认是否校正第一元数据的字段信息。由于元数据的质量取决于载入元数据的数据库以及数据库所使用的元数据识别模型等,会导致一些元数据由于表述习惯或者数据导入错误等无法在初步标记中被匹配到合理的关键信息,因此还需要对经初步标记的元数据进行复核以避免上述问题。复核环节可以采用人工复核,也可以使用数据验证的方式自动化地执行复核操作,根据复核结果执行发布警报等反馈处理,从而提高数据分级的精度。

8、在一些实施例中,响应于分级规则的新增或变更,生成新二元数据组,并且发布新二元数据组的差异提示;基于差异提示确定新二元数据组对应的分级新规则,筛选出分级新规则所影响的差异元数据;以及使用分级新规则对差异元数据对应的安全级别进行更新。应当理解的是,作为数据分级标准的二元数据组会随着分级规则的种类或时效发生变化,利用该变化对应的分级新规则对部分相关联的元数据进行数据更新,可以有针对性地减少运算量,提高数据分级效率。

9、根据本公开的实施例的第二方面,提供了一种用于元数据的分级系统,包括:规则处理单元,被配置为基于导入的分级规则生成关键信息与安全级别的二元数据组;相似度计算单元,被配置为从数据库中载入元数据的字段信息,将所述字段信息依次与关键信息进行匹配以计算元数据与每个关键信息的相似度;初步标记单元,被配置为当存在相似度满足阈值条件的关键信息时,基于与元数据的相似度最高的关键信息所对应的安全级别对元数据进行初步标记,并且当所有相似度均不满足阈值条件时,将元数据初步标记为普通级别;以及复核单元,被配置为对经过初步标记的元数据进行复核以确定元数据的安全级别。

10、根据本公开的实施例的第三方面,提供了一种用于元数据的分级装置,包括:处理器;以及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令在被执行时实现根据本公开的实施例的第一方面所述的用于元数据的分级方法。

11、根据本公开的实施例的第四方面,提供了一种其上存储有程序指令的计算机可读存储介质,该程序指令在执行时使计算机实现根据本公开的实施例的第一方面所述的用于元数据的分级方法。

12、根据本公开的实施例的第五方面,提供了一种计算机程序产品,包括计算机程序指令,该计算机程序指令被处理器执行时实现根据本公开的实施例的第一方面所述的用于元数据的分级方法。

13、根据本公开的实施例的优点在于对元数据的安全级别进行自动化推荐,包括对分级规则的自动化处理和对数据库中元数据的匹配运算,从而基于匹配结果分析出各元数据的安全级别,极大地提高了对数据进行分级标记的效率,从而提高了推荐识别的精度。

14、根据本公开的实施例的另一优点在于基于自动化推荐的初步标记结果进行复核,根据数据记录的类型和结构核验所对应的元数据的字段信息,以确保具有敏感性的元数据不会发生所标记的安全级别低于实际级别的分级错误,从而有利于数据的安全管理。

15、应当认识到,上述优点不需全部集中在一个或一些特定实施例中实现,而是可以部分分散在根据本公开的不同实施例中。根据本公开的实施例可以具有上述优点中的一个或一些,也可以替代地或者附加地具有其它的优点。

16、通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得更为清楚。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1