一种数据处理方法及装置与流程

文档序号:32169023发布日期:2022-11-12 06:06阅读:来源:国知局

技术特征:
1.一种数据处理方法,其特征在于,所述方法包括:获取数据湖中的待处理的多表关联数据;将所述多表关联数据发送给大规模并行分析数据仓库;在所述大规模并行分析数据仓库的内存中对多表关联数据进行计算,得到计算结果;将所述计算结果发送至数据湖中,以便所述数据湖存储所述计算结果。2.根据权利要求1所述的方法,其特征在于,所述大规模并行分析数据仓库的内存包括:技术缓冲层、整合模型层、共性加工层、应用计算层、应用接口层,所述技术缓冲层用于存储所述多表关联数据,所述整合模型层、所述共性加工层、所述应用计算层和所述应用接口层用于对所述多表关联数据进行计算。3.根据权利要求2所述的方法,其特征在于,所述在所述大规模并行分析数据仓库的内存中对多表关联数据进行计算,得到计算结果包括:在所述数据仓库中的技术缓冲层中对多表关联数据进行计算,得到第一计算结果;将所述第一计算结果发送给所述整合模型层,在所述整合模型层中对第一计算结果进行计算,得到第二计算结果;将所述第二计算结果发送给所述共性加工层,在所述共性加工层中对第二计算结果进行计算,得到第三计算结果;将所述第三计算结果发送给所述应用计算层,在所述应用计算层中对第三计算结果进行计算,得到第四计算结果;将所述第四计算结果发送给所述应用接口层,在所述应用接口层中对第四计算结果进行计算,得到第五计算结果。4.根据权利要求3所述的方法,其特征在于,所述将所述计算结果发送至数据湖中,以便所述数据湖存储所述计算结果包括:将所述第二计算结果发送至所述数据湖中分布式文件系统的第一目录中;从所述第一目录中,获取所述第二计算结果;将所述第二计算结果写入所述数据湖的数据表中;将所述第三计算结果发送至所述数据湖中分布式文件系统的第二目录中;从所述第二目录中,获取所述第三计算结果;将所述第三计算结果写入所述数据湖的数据表中;将所述第四计算结果发送至所述数据湖中分布式文件系统的第三目录中;从所述第三目录中,获取所述第四计算结果;将所述第四计算结果写入所述数据湖的数据表中;将所述第五计算结果发送至所述数据湖中分布式文件系统的第四目录中;从所述第四目录中,获取所述第五计算结果;将所述第五计算结果写入所述数据湖的数据表中。5.一种数据处理装置,其特征在于,所述装置包括:第一获取模块,用于获取数据湖中的待处理的多表关联数据;第一发送模块,用于将所述多表关联数据发送给大规模并行分析数据仓库;计算模块,用于在所述大规模并行分析数据仓库的内存中对多表关联数据进行计算,得到计算结果;
第二发送模块,用于将所述计算结果发送至数据湖中,以便所述数据湖存储所述计算结果。6.根据权利要求5所述的装置,其特征在于,所述大规模并行分析数据仓库的内存包括:技术缓冲层、整合模型层、共性加工层、应用计算层、应用接口层,所述技术缓冲层用于存储所述多表关联数据,所述整合模型层、所述共性加工层、所述应用计算层和所述应用接口层用于对所述多表关联数据进行计算。7.根据权利要求6所述的装置,其特征在于,所述计算模块包括:第一计算子模块、第二计算子模块、第三计算子模块、第四计算子模块和第五计算子模块;所述第一计算子模块,用于在所述数据仓库中的技术缓冲层中对多表关联数据进行计算,得到第一计算结果;所述第二计算子模块,将所述第一计算结果发送给所述整合模型层,在所述整合模型层中对第一计算结果进行计算,得到第二计算结果;所述第三计算子模块,将所述第二计算结果发送给所述共性加工层,在所述共性加工层中对第二计算结果进行计算,得到第三计算结果;所述第四计算子模块,将所述第三计算结果发送给所述应用计算层,在所述应用计算层中对第三计算结果进行计算,得到第四计算结果;所述第五计算子模块,将所述第四计算结果发送给所述应用接口层,在所述应用接口层中对第四计算结果进行计算,得到第五计算结果。8.根据权利要求7所述的装置,其特征在于,所述第二发送模块包括:第一发送子模块、第一获取子模块、第一写入子模块、第二发送子模块、第二获取子模块、第二写入子模块、第三发送子模块、第三获取子模块、第三写入子模块、第四发送子模块、第四获取子模块和第四写入子模块;所述第一发送子模块,用于将所述第二计算结果发送至所述数据湖中分布式文件系统的第一目录中;所述第一获取子模块,用于从所述第一目录中,获取所述第二计算结果;所述第一写入子模块,用于将所述第二计算结果写入所述数据湖的数据表中;所述第二发送子模块,用于将所述第三计算结果发送至所述数据湖中分布式文件系统的第二目录中;所述第二获取子模块,用于从所述第二目录中,获取所述第三计算结果;所述第二写入子模块,用于将所述第三计算结果写入所述数据湖的数据表中;所述第三发送子模块,用于将所述第四计算结果发送至所述数据湖中分布式文件系统的第三目录中;所述第三获取子模块,用于从所述第三目录中,获取所述第四计算结果;所述第三写入子模块,用于将所述第四计算结果写入所述数据湖的数据表中;所述第四发送子模块,用于将所述第五计算结果发送至所述数据湖中分布式文件系统的第四目录中;所述第四获取子模块,用于从所述第四目录中,获取所述第五计算结果;所述第四写入子模块,用于将所述第五计算结果写入所述数据湖的数据表中。9.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;处理器;当所述一个或多个程序被所述处理器执行时,实现如权利要求1至4中任一项所述的方法。10.一种存储介质,其特征在于,所述存储介质上存储有程序,所述程序被处理器执行时实现权利要求1至4中任一项所述方法。

技术总结
本申请公开了一种数据处理方法及装置可应用于数据处理技术领域或金融领域。在执行该方法时,先获取数据湖中的待处理的多表关联数据,后将多表关联数据发送给大规模并行分析数据仓库,然后在大规模并行分析数据仓库的内存中对多表关联数据进行计算,得到计算结果,最后将计算结果发送至数据湖中,以便数据湖存储所述计算结果。这样,通过在大规模并行分析数据仓库的内存中对多表关联数据进行处理,将中间结果存储在内存中,没有中间结果落地到磁盘中,使得磁盘I/O开销低,降低损坏磁盘的风险。降低损坏磁盘的风险。降低损坏磁盘的风险。


技术研发人员:秦胜勇
受保护的技术使用者:中国银行股份有限公司
技术研发日:2022.08.17
技术公布日:2022/11/11
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1