数据同步方法、装置、电子设备及存储介质与流程

文档序号:34106229发布日期:2023-05-10 20:10阅读:34来源:国知局
数据同步方法、装置、电子设备及存储介质与流程

本申请涉及大数据技术,尤其涉及一种数据同步方法、装置、电子设备及存储介质。


背景技术:

1、报表开发是大数据开发的一类常见的需求,可以实现对数据合理化和科学化的管理。应用数据仓库管理系统进行报表开发时,需要将文件传输协议服务器上的文件同步到数据仓库管理服务系统。

2、实际应用中,文件传输协议服务器上的文件实时更新,需要周期性的将文件传输协议服务器上的文件同步到数据仓库管理服务系统。上述相关技术中,存在目标文件的重复写入,资源利用率和数据同步效率较低。


技术实现思路

1、本申请提供一种数据同步方法、装置、电子设备及存储介质,用以解决资源利用率和数据同步效率较低的问题。

2、第一方面,本申请提供一种数据同步方法,包括:从文件传输协议服务器获得待同步的目标文件;检测当前远程字典服务器中是否存在所述目标文件的标识,所述远程字典服务器用于记录已同步文件的标识;若不存在,则将所述目标文件写入该目标文件需同步至的源数据表所对应的分布式文件系统中,并将分布式文件系统中写入的所述目标文件映射至所述源数据表中,以完成数据同步;若存在,则不执行所述目标文件的数据同步;其中,所述源数据表为数据仓库管理系统下的数据表。

3、可选的,所述若不存在,则将所述目标文件写入该目标文件需同步至的源数据表所对应的分布式文件系统中之后,还包括:若写入成功,则将所述目标文件的标识写入所述远程字典服务器;若写入失败,则不将所述目标文件的标识写入所述远程字典服务器,并清除当前已写入至所述分布式文件系统的所述目标文件的内容。

4、可选的,所述目标文件的标识包括所述目标文件的文件传输协议服务器全路径。

5、可选的,所述源数据表包括不同属性对应的分区;所述将分布式文件系统中写入的所述目标文件映射至所述源数据表中,包括:获取所述目标文件的属性;将所述目标文件映射至所述源数据表中与所述目标文件的属性对应的分区。

6、可选的,所述方法还包括:针对所述源数据表的每个分区中的目标文件,解析所述目标文件获得所述目标文件在各数据字段下的数据;针对每个统计需求所需的数据字段,从所述分区的目标文件中提取相应数据字段下的第一数据;将每个统计需求对应的第一数据导入至该统计需求对应的目的表。

7、可选的,所述目标文件的数量为多个;所述从文件传输协议服务器获得待同步的目标文件,包括:将所述文件传输协议服务器中的文件划分为多个文件组;为每个文件组配置对应的扫描线程,并基于每个文件组对应的扫描线程,通过扫描该文件组中所有文件的文件传输协议服务器全路径,获得所述目标文件。

8、第二方面,本申请提供一种数据同步装置,包括:获取模块,用于从文件传输协议服务器获得待同步的目标文件;检测模块,用于检测当前远程字典服务器中是否存在所述目标文件的标识,所述远程字典服务器用于记录已同步文件的标识;第一处理模块,用于若不存在,则将所述目标文件写入该目标文件需同步至的源数据表所对应的分布式文件系统中,并将分布式文件系统中写入的所述目标文件映射至所述源数据表中,以完成数据同步;若存在,则不执行所述目标文件的数据同步;其中,所述源数据表为数据仓库管理系统下的数据表。

9、可选的,所述装置还包括:第二处理模块;所述第二处理模块用于:若写入成功,则将所述目标文件的标识写入所述远程字典服务器;若写入失败,则不将所述目标文件的标识写入所述远程字典服务器,并清除当前已写入至所述分布式文件系统的所述目标文件的内容。

10、可选的,所述目标文件的标识包括所述目标文件的文件传输协议服务器全路径。

11、可选的,所述源数据表包括不同属性对应的分区;所述第一处理模块用于将分布式文件系统中写入的所述目标文件映射至所述源数据表中时,具体用于:获取所述目标文件的属性;将所述目标文件映射至所述源数据表中与所述目标文件的属性对应的分区。

12、可选的,所述装置还包括:解析模块,用于针对所述源数据表的每个分区中的目标文件,解析所述目标文件获得所述目标文件在各数据字段下的数据;提取模块,用于针对每个统计需求所需的数据字段,从所述分区的目标文件中提取相应数据字段下的第一数据;导入模块,用于将每个统计需求对应的第一数据导入至该统计需求对应的目的表。

13、可选的,所述目标文件的数量为多个;所述获取模块,具体用于:将所述文件传输协议服务器中的文件划分为多个文件组;为每个文件组配置对应的扫描线程,并基于每个文件组对应的扫描线程,通过扫描该文件组中所有文件的文件传输协议服务器全路径,获得所述目标文件。

14、第三方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现如前所述的方法。

15、第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如前所述的方法。

16、本申请提供的数据同步方法、装置、电子设备及存储介质中,从文件传输协议服务器获得待同步的目标文件;检测当前远程字典服务器中是否存在目标文件的标识,远程字典服务器用于记录已同步文件的标识;若不存在,则将目标文件写入该目标文件需同步至的源数据表所对应的分布式文件系统中,并将分布式文件系统中写入的目标文件映射至源数据表中,以完成数据同步;若存在,则不执行目标文件的数据同步。本申请的方案,远程字典服务器中记录了已同步数据的标识,从文件传输协议服务器获得待同步的目标文件之后,通过检测当前远程字典服务器中是否存在目标文件的标识,可以确定待同步的目标文件是否已完成数据同步,若不存在再将待同步的目标文件写入,能够有效避免文件的重复写入,提高了资源利用率和数据同步的效率。



技术特征:

1.一种数据同步方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述若不存在,则将所述目标文件写入该目标文件需同步至的源数据表所对应的分布式文件系统中之后,还包括:

3.根据权利要求1所述的方法,其特征在于,所述目标文件的标识包括所述目标文件的文件传输协议服务器全路径。

4.根据权利要求1所述的方法,其特征在于,所述源数据表包括不同属性对应的分区;所述将分布式文件系统中写入的所述目标文件映射至所述源数据表中,包括:

5.根据权利要求4所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1-5中任一项所述的方法,其特征在于,所述目标文件的数量为多个;所述从文件传输协议服务器获得待同步的目标文件,包括:

7.一种数据同步装置,其特征在于,包括:

8.根据权利要求7所述的装置,其特征在于,所述装置还包括:第二处理模块;所述第二处理模块用于:

9.根据权利要求7所述的装置,其特征在于,所述目标文件的标识包括所述目标文件的文件传输协议服务器全路径。

10.根据权利要求7所述的装置,其特征在于,所述源数据表包括不同属性对应的分区;所述第一处理模块用于将分布式文件系统中写入的所述目标文件映射至所述源数据表中时,具体用于:

11.根据权利要求10所述的装置,其特征在于,所述装置还包括:

12.根据权利要求7-11中任一项所述的装置,其特征在于,所述目标文件的数量为多个;所述获取模块,具体用于:

13.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;

14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-6中任一项所述的方法。


技术总结
本申请提供一种数据同步方法、装置、电子设备及存储介质。方法包括:从文件传输协议服务器获得待同步的目标文件;检测当前远程字典服务器中是否存在所述目标文件的标识,所述远程字典服务器用于记录已同步文件的标识;若不存在,则将所述目标文件写入该目标文件需同步至的源数据表所对应的分布式文件系统中,并将分布式文件系统中写入的所述目标文件映射至所述源数据表中,以完成数据同步;若存在,则不执行所述目标文件的数据同步。本申请的方案,能够有效避免文件的重复写入,提高了资源利用率和数据同步的效率。

技术研发人员:孙娟,杨明,张溯,孙钰,吴国防,贾传文
受保护的技术使用者:中国联合网络通信集团有限公司
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1