大数据平台垃圾任务采集系统、方法及计算机系统与流程

文档序号:20699955发布日期:2020-05-12 15:32阅读:来源:国知局

技术特征:

1.一种大数据平台垃圾任务采集系统,其特征在于,包括:

审计日志加载模块,用于加载所述大数据平台在数据处理过程中生成的审计日志;

数据处理模块,连接所述审计日志加载模块,用于对所述审计日志进行数据处理,得到经数据处理后的所述审计日志;

临时表注册模块,连接所述数据处理模块,用于将经数据处理后的所述审计日志注册为对应的临时表并存储;

数据分组聚合模块,连接所述临时表注册模块,用于对所述临时表中的数据进行分组聚合,得到一分组聚合结果;

数据存储模块,连接所述数据分组聚合模块,用于存储所述分组聚合结果。

2.如权利要求1所述的大数据平台垃圾任务采集系统,其特征在于,所述审计日志加载模块具体包括:

审计日志加载单元,用于加载所述大数据平台在数据处理过程中生成的hdfs审计日志;

审计日志转换单元,连接所述审计日志加载单元,用于将所述hdfs审计日志转换为弹性分布式数据集rdd;

审计日志数据过滤单元,连接所述审计日志转换单元,用于对所述弹性分布式数据集rdd进行数据过滤,得到经数据过滤后的所述弹性分布式数据集rdd并输出。

3.如权利要求2所述的大数据平台垃圾任务采集系统,其特征在于,所述数据处理模块具体包括:

目录类型识别单元,用于对经数据过滤后的所述弹性分布式数据集rdd进行目录类型识别,得到存在于所述弹性分布式数据集rdd中的源表目录和目标目录表并标识;

操作类型识别单元,连接所述目录类型识别单元,用于识别所述大数据平台对所述源表目录以及对所述目标目录表所作的操作类型并标识;

目录表格式化单元,连接所述目录类型识别单元,用于对识别得到的所述源表目录和所述目标目录表进行格式化处理,得到保留表名称的所述源表目录和所述目标目录表;

日期格式化单元,连接所述目录表格式化单元,用于对经目录表格式化处理后的所述源表目录和所述目标目录表进行操作日期格式化处理,以将所述大数据平台对所述源表目录和所述目标目录表的操作时间进行统一标识。

4.如权利要求3所述的大数据平台垃圾任务采集系统,其特征在于,所述临时表注册模块具体包括:

临时表架构构建单元,用于根据经数据处理后的所述弹性分布式数据集rdd的数据架构构建临时表数据架构;

临时表生成单元,连接临时表架构构建单元,用于根据所构建的所述临时表数据架构,将经数据处理后的所述弹性分布式数据集rdd注册为临时表。

5.如权利要求4所述的大数据平台垃圾任务采集系统,其特征在于,所述数据分组聚合模块具体包括:

第一数据分组单元,用于将所述临时表中的标识的所述源表目录归类为对应的第一数据组;

第二数据分组单元,用于将所述临时表中的标识的所述目标目录表归类为对应的第二数据组;

操作类型分组单元,用于根据所述大数据平台对所述源表目录、所述目标目录表标识的操作类型,将所述临时表中的同一操作类型下的所述源表目录、和/或所述目标目录表归类为对应的第三数据组;

操作时间获取单元,用于获取所标识的所述大数据平台在不同的所述操作类型下对所述源表目录、和/或所述目标目录表的所述操作时间并存储;

操作次数计算单元,连接所述操作时间获取单元,用于根据所获取的所述操作时间,计算所述大数据平台在不同的所述操作类型下对所述源表目录、和/或所述目标目录表的操作次数并存储;

数据聚合单元,分别连接所述第一数据分组单元、所述第二数据分组单元、所述操作类型分组单元、所述操作时间获取单元和所述操作次数计算单元,用于根据数据分组结果、操作时间获取结果和操作次数计算结果对所述大数据平台对所述hdfs审计日志的访问情况进行数据聚合,形成对应的所述分组聚合结果并存储;

聚合结果展示单元,连接所述数据聚合单元,用于将所述分组聚合结果展示给用户。

6.一种大数据平台垃圾任务采集方法,通过应用如权1-5任意一项的所述大数据平台垃圾任务采集系统实现,其特征在于,所述方法包括如下步骤:

步骤s1,加载所述大数据平台在数据处理过程中生成的审计日志;

步骤s2,对所述审计日志进行数据处理,得到经数据处理后的所述审计日志;

步骤s3,将经数据处理后的所述审计日志注册为对应的临时表并存储;

步骤s4,对所述临时表中的数据进行分组聚合,得到一分组聚合结果并存储。

7.如权利要求6所述的大数据平台垃圾任务采集方法,其特征在于,所述步骤s1中还包括一数据过滤过程,所述步骤s1包括:

步骤s11,加载所述大数据平台在数据处理过程中生成的所述hdfs审计日志;

步骤s12,将所述hdfs审计日志转换为弹性分布式数据集rdd;

步骤s13,对所述弹性分布式数据集rdd进行数据过滤,得到经数据过滤后的所述弹性分布式数据集rdd并输出;

所述步骤s2包括:

步骤s21,对经数据过滤后的所述弹性分布式数据集rdd进行目录类型识别,识别得到存在于所述弹性分布式数据集rdd中的源表目录和目标目录表并标识;

步骤s22,识别所述大数据平台对所述源表目录以及对所述目标目录表所作的操作类型并标识;

步骤s23,对识别得到的所述源表目录和所述目标目录表进行格式化处理,得到保留表名称的所述源表目录和所述目标目录表;

步骤s24,对经目录表格式化处理后的所述源表目录和所述目标目录表进行操作日期格式化处理,以将所述大数据平台对所述源表目录和所述目标目录表的操作时间进行统一标识。

8.如权利要求7所述的大数据平台垃圾任务采集方法,其特征在于,所述步骤s3包括:

步骤s31,根据经数据处理后的所述弹性分布式数据集rdd的数据架构构建临时表数据架构;

步骤s32,根据所构造的所述临时表数据架构,将经数据处理后的所述弹性分布式数据集rdd注册为临时表。

9.如权利要求8所述的大数据平台垃圾任务采集方法,其特征在于,所述步骤s4包括:

步骤s41,根据表类型将所述临时表中的所述源表目录和所述目标目录表分为对应的数据组,并将所述临时表中的同一所述操作类型下的所述源表目标和/或所述目标目录表分为对应的数据组;

步骤s42,获取所述大数据平台在不同的所述操作类型下对所述源表目录、和/或所述目标目录表的操作时间并存储;

步骤s43,根据所获取的所述操作时间,计算所述大数据平台在不同的所述操作类型下对所述源表目录、和/或所述目标目录表的操作次数并存储;

步骤s44,根据所述步骤s41得到的数据分组结果、所述步骤s42得到的操作时间获取结果和所述步骤s43得到的操作次数计算结果,对所述大数据平台对所述hdfs审计日志的访问情况进行数据聚合,形成对应的所述分组聚合结果并存储。

10.一种计算机系统,其特征在于,包括:

一个或多个处理器;以及

与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如权利要求6-9任意一项所述的方法。


技术总结
本发明公开了一种大数据平台垃圾任务采集系统、方法及计算机系统,采集系统包括:审计日志加载模块,用于加载所述大数据平台在数据处理过程中生成的审计日志;数据处理模块,连接所述审计日志加载模块,用于对所述审计日志进行数据处理;临时表注册模块,连接所述数据处理模块,用于将经数据处理后的所述审计日志注册为对应的临时表并存储;数据分组聚合模块,连接所述临时表注册模块,用于对所述临时表中的数据进行分组聚合,得到一分组聚合结果;数据存储模块,连接所述数据分组聚合模块,用于存储所述数据分组聚合结果,本发明能够自动识别大数据平台执行的垃圾任务,释放了存储资源,降低了计算成本。

技术研发人员:郭小龙;郑尧峰;桑强;赵云
受保护的技术使用者:苏宁云计算有限公司
技术研发日:2019.11.25
技术公布日:2020.05.12
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1