数据分类方法、装置、设备及存储介质与流程

文档序号:37541648发布日期:2024-04-08 13:41阅读:11来源:国知局
数据分类方法、装置、设备及存储介质与流程

本申请涉及数据处理,尤其涉及一种数据分类方法、装置、设备及存储介质。


背景技术:

1、随着数字化和信息化技术的快速发展,产生和积累了大规模的数据。这些数据涵盖了各种类型和领域,需要进行有效的组织、管理和保护。通过分类分级系统可以将庞大的数据集划分为可管理的部分,使其更易于处理和保护。当前可以人工从数据中制定数据规则,以通过制定的数据规则对数据进行分类、分级。

2、然而,在上述方法中,在大规模和多样化的数据环境中,人工从数据中制定数据规则时,需要投入大量的人力、时间,并且,实施和维护数据规则也需要投入大量人力、时间和金钱。从而,导致对数据进行分类、分级的效率较低、成本较高。


技术实现思路

1、本申请提供一种数据分类方法、装置、设备及存储介质,用于解决人工从数据中制定数据规则时,需要投入大量的人力、时间,并且,实施和维护数据规则也需要投入大量人力、时间和金钱的技术问题,从而提高对数据进行分类的效率、降低成本。

2、为达到上述目的,本申请采用如下技术方案:

3、第一方面,提供了一种数据分类方法,方法包括:获取多个结构化数据中的每个结构化数据对应的一组名称标识;基于预设算法将多个结构化数据对应的多组名称标识划分为多个数据组,预设算法用于确定名称标识之间的相似度,一个数据组包括多组名称标识,一个数据组中的任意两组名称标识之间的相似度大于预设相似度;针对多个数据组中的任一个数据组,基于任一个数据组包括的多组名称标识,确定任一个数据组对应的正则表达式和数据类别,一个数据组对应的正则表达式和数据类别之间具有关联关系;基于多个数据组中的每个数据组对应的正则表达式,确定待识别数据的数据类别。

4、在一种可能的实现方式中,一组名称标识包括一个结构化数据的第一标识和第二标识;基于预设算法将多个结构化数据对应的多组名称标识划分为多个数据组,包括:基于预设算法确定第一组名称标识中的第一标识与第二组名称标识中的第一标识之间的第一相似度,以及第一组名称标识中的第二标识与第二组名称标识中的第二标识之间的第二相似度,第一组名称标识和第二组名称标识为多组名称标识中的任意两组名称标识;基于第一标识之间的第一相似度和第二标识之间的第二相似度,将多组名称标识划分为多个数据组,一个数据组中包括的任意两组名称标识内的第一标识之间的第一相似度和第二标识之间的第二相似度均大于预设相似度。

5、在一种可能的实现方式中,方法还包括:确定任一个数据组包括的多组名称标识中的每组名称标识的关键词;基于任一个数据组包括的每组名称标识的关键词,确定任一个数据组对应的数据类别。

6、在一种可能的实现方式中,方法还包括:根据预设的数据重要程度分级规则,基于任一个数据组对应的数据类别,确定任一个数据组对应的数据级别;基于多个数据组中的每个数据组对应的正则表达式,确定待识别数据的数据级别。

7、第二方面,提供了一种数据分类装置,数据分类装置包括:获取单元、处理单元和确定单元;获取单元,用于获取多个结构化数据中的每个结构化数据对应的一组名称标识;处理单元,用于基于预设算法将多个结构化数据对应的多组名称标识划分为多个数据组,预设算法用于确定名称标识之间的相似度,一个数据组包括多组名称标识,一个数据组中的任意两组名称标识之间的相似度大于预设相似度;确定单元,用于针对多个数据组中的任一个数据组,基于任一个数据组包括的多组名称标识,确定任一个数据组对应的正则表达式和数据类别,一个数据组对应的正则表达式和数据类别之间具有关联关系;确定单元,还用于基于多个数据组中的每个数据组对应的正则表达式,确定待识别数据的数据类别。

8、在一种可能的实现方式中,一组名称标识包括一个结构化数据的第一标识和第二标识;确定单元,还用于基于预设算法确定第一组名称标识中的第一标识与第二组名称标识中的第一标识之间的第一相似度,以及第一组名称标识中的第二标识与第二组名称标识中的第二标识之间的第二相似度,第一组名称标识和第二组名称标识为多组名称标识中的任意两组名称标识;处理单元,还用于基于第一标识之间的第一相似度和第二标识之间的第二相似度,将多组名称标识划分为多个数据组,一个数据组中包括的任意两组名称标识内的第一标识之间的第一相似度和第二标识之间的第二相似度均大于预设相似度。

9、在一种可能的实现方式中,确定单元,还用于确定任一个数据组包括的多组名称标识中的每组名称标识的关键词;确定单元,还用于基于任一个数据组包括的每组名称标识的关键词,确定任一个数据组对应的数据类别。

10、在一种可能的实现方式中,确定单元,还用于根据预设的数据重要程度分级规则,基于任一个数据组对应的数据类别,确定任一个数据组对应的数据级别;确定单元,还用于基于多个数据组中的每个数据组对应的正则表达式,确定待识别数据的数据级别。

11、第三方面,一种电子设备,包括:处理器以及存储器;其中,存储器用于存储一个或多个程序,一个或多个程序包括计算机执行指令,当电子设备运行时,处理器执行存储器存储的计算机执行指令,以使电子设备执行如第一方面的一种数据分类方法。

12、第四方面,提供了一种存储一个或多个程序的计算机可读存储介质,该一个或多个程序包括指令,上述指令当被计算机执行时使计算机执行如第一方面的一种数据分类方法。

13、本申请提供了一种数据分类方法、装置、设备及存储介质,应用于数据分类的场景中。在对数据进行分类时,可以将获取到的多个结构化数据的多组名称标识划分为多个数据组,进一步的,基于每个数据组包括的名称标识,确定每个数据组对应的正则表达式和数据类别,以基于每个数据组对应的正则表达式,确定待识别数据的数据类别。即可以根据每个结构化数据的名称标识之间的相似度,将同一类数据归为同一个数据组,并确定每个数据组对应的正则表达式和数据类别,以将待识别数据输入正则表达式,得到该数据的数据类别。通过上述方法,可以对多个结构化数据的多组名称标识划分得到多个数据组,以基于每个数据组对应的正则表达式,确定待识别数据的数据类别。从而,解决了现有技术中人工从数据中制定数据规则时,需要投入大量的人力、时间,并且,实施和维护数据规则也需要投入大量人力、时间和金钱的问题,提高了对数据进行分类的效率、降低了成本。



技术特征:

1.一种数据分类方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,一组名称标识包括一个结构化数据的第一标识和第二标识;

3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:

5.一种数据分类装置,其特征在于,所述数据分类装置包括:获取单元、处理单元和确定单元;

6.根据权利要求5所述的数据分类装置,其特征在于,一组名称标识包括一个结构化数据的第一标识和第二标识;

7.根据权利要求5或6所述的数据分类装置,其特征在于,所述确定单元,还用于确定所述任一个数据组包括的多组名称标识中的每组名称标识的关键词;

8.根据权利要求5或6所述的数据分类装置,其特征在于,所述确定单元,还用于根据预设的数据重要程度分级规则,基于所述任一个数据组对应的数据类别,确定所述任一个数据组对应的数据级别;

9.一种电子设备,其特征在于,包括:处理器以及存储器;其中,所述存储器用于存储一个或多个程序,所述一个或多个程序包括计算机执行指令,当所述电子设备运行时,处理器执行所述存储器存储的所述计算机执行指令,以使所述电子设备执行权利要求1-4中任一项所述的一种数据分类方法。

10.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当被计算机执行时使所述计算机执行如权利要求1-4中任一项所述的一种数据分类方法。


技术总结
本申请公开了一种数据分类方法、装置、设备及存储介质,涉及通信技术领域,用于提高进行数据分类的效率、降低成本。上述方法包括:获取多个结构化数据中的每个结构化数据对应的一组名称标识;基于预设算法将多个结构化数据对应的多组名称标识划分为多个数据组,预设算法用于确定名称标识之间的相似度,一个数据组包括多组名称标识,一个数据组中的任意两组名称标识之间的相似度大于预设相似度;针对多个数据组中的任一个数据组,基于任一个数据组包括的多组名称标识,确定任一个数据组对应的正则表达式和数据类别;基于多个数据组中的每个数据组对应的正则表达式,确定待识别数据的数据类别。

技术研发人员:秦宏伟,贾玉武,王笑晨,林海,张国汉,王强,张洪飞,苗成
受保护的技术使用者:中国联合网络通信集团有限公司
技术研发日:
技术公布日:2024/4/7
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1