本发明涉及数据同步,具体的说是一种基于分页与数据持久化的结构化数据同步方法及系统。
背景技术:
1、在大数据时代,数据来源广泛,包括社交媒体、物联网设备、企业应用等。为了充分利用数据价值,需要将数据集中汇聚到一起进行分析。在数据汇聚过程中,如果数据量过大,一次性同步数据可能会遇到异常情况,如网络故障、磁盘空间不足等。传统的解决方案是清除掉数据重新运行,但这种方式会浪费大量资源和时间。
2、因此,如何在数据同步发生异常时,快速的处理异常、并且实现断点续传成为关键技术。
技术实现思路
1、本发明针对目前技术发展的需求和不足之处,提供一种基于分页与数据持久化的结构化数据同步方法及系统,适用于在相对有限的资源条件下进行的数据同步,且在数据同步任务发生了异常之后,能够快速恢复、并实现断点续传,提高数据同步的性能与稳定性。
2、第一方面,本发明提供一种基于分页与数据持久化的结构化数据同步方法,解决上述技术问题采用的技术方案如下:
3、一种基于分页与数据持久化的结构化数据同步方法,其包括如下步骤:
4、s1、构建基于时间字段的分页方法和基于数据库分页的分页方法;
5、s2、获取待同步数据,选择分页方法,设置分页参数,以执行相应的查询语句,获取待同步的分页数据;
6、s3、缓存待同步的分页数据,对待同步的分页数据执行相应的查询语句并缓存;
7、s4、在系统重启或发生故障后,基于缓存的查询结果,继续执行上次未完成的待同步分页数据,实现断点续传。
8、可选的,所涉及步骤s1具体包括:
9、当待同步数据包含一个递增的时间戳或日期字段时,构建基于时间字段的分页方法,基于时间字段的分页方法包括时间范围、每页数据量、时间段分割和查询语句四个分页参数;
10、当待同步数据中没有增量字段时,构建基于数据库分页的分页方法,基于数据库分页的分页方法包括总数据量、每页数据量、当前页码、偏移量和查询语句五个分页参数。
11、可选的,所涉及步骤s3具体包括:
12、将待同步的分页数据进行持久化存储;
13、逐条读取待同步的分页数据,并执行相应的查询语句:
14、若查询成功,则对查询结果进行持久化存储,并将信息路由到下一个节点,随后,删除当前已处理的待同步分页数据;
15、若查询失败,则不输出查询结果,且不删除当前待同步的分页数据;
16、循环执行读取和查询语句,直至所有待同步的分页数据都处理完成。
17、优选的,将待同步的分页数据持久化到文件系统、数据库系统或消息队列中;
18、逐条读取待同步的分页数据,并成功执行相应的查询语句后,将查询结果对应持久化到文件系统、数据库系统或消息队列中。
19、第二方面,本发明提供一种基于分页与数据持久化的结构化数据同步系统,解决上述技术问题采用的技术方案如下:
20、一种基于分页与数据持久化的结构化数据同步系统,其包括:
21、方法构建模块,用于构建基于时间字段的分页方法和基于数据库分页的分页方法;
22、分页处理模块,用于获取待同步数据,选择分页方法,设置分页参数,以执行相应的查询语句,获取待同步的分页数据;
23、缓存执行模块,用于缓存待同步的分页数据,对待同步的分页数据执行相应的查询语句并缓存;
24、断点续传模块,用于在系统重启或发生故障后,基于缓存的查询结果,继续执行上次未完成的待同步分页数据,实现断点续传。
25、可选的,当待同步数据包含一个递增的时间戳或日期字段时,所述方法构建模块构建基于时间字段的分页方法,所述基于时间字段的分页方法包括时间范围、每页数据量、时间段分割和查询语句四个分页参数;
26、当待同步数据中没有增量字段时,所述方法构建模块构建基于数据库分页的分页方法,所述基于数据库分页的分页方法包括总数据量、每页数据量、当前页码、偏移量和查询语句五个分页参数。
27、可选的,所涉及缓存执行模块具体包括:
28、分页缓存单元,用于将待同步的分页数据进行持久化存储;
29、读取执行单元,用于逐条读取待同步的分页数据,并执行相应的查询语句:
30、判断处理单元,用于判断查询操作是否成功,并在查询成功时将查询结果持久化到分页缓存单元,在查询失败时不输出查询结果,且不删除当前待同步的分页数据;
31、传递删除单元,用于在查询成功时将信息路由到下一个节点,并删除当前已处理的待同步分页数据;
32、循环执行单元,用于判断分页缓存单元是否存在待同步的分页数据,若是,则调用读取执行单元,若否,则结束执行。
33、优选的,所涉及分页缓存单元为文件系统、数据库系统或消息队列。
34、本发明的一种基于分页与数据持久化的结构化数据同步方法及系统,与现有技术相比具有的有益效果是:
35、1、本发明可以利用有限的资源进行数据的同步,且在数据同步过程发生了异常之后,能够快速恢复、并实现断点续传,从而提高数据同步的性能与稳定性,提高系统的稳定性和自动化效率;
36、2、本发明通过将待同步的分页数据进行持久化存储,能够将数据保存到文件系统或其他存储介质中,以便在需要时进行访问和处理,有助于提高数据的可靠性和可访问性;
37、3、本发明提供了两种分页方法,即基于时间字段的分页方法和基于数据库分页的方法,根据不同的数据特点和需求,可以选择适合的分页方法来优化数据处理过程,提高同步效率;
38、4、本发明可以根据实际需求灵活地选择分页方法和设置分页参数,适应不同规模和复杂度的数据同步任务;
39、5、本发明当系统发生重启或故障时,能够基于缓存的查询结果继续执行上次未完成的待同步分页数据,实现断点续传,确保数据的完整性和一致性,避免因系统故障而导致的数据丢失。
1.一种基于分页与数据持久化的结构化数据同步方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于分页与数据持久化的结构化数据同步方法,其特征在于,所述步骤s1具体包括:
3.根据权利要求1所述的基于分页与数据持久化的结构化数据同步方法,其特征在于,所述步骤s3具体包括:
4.根据权利要求3所述的基于分页与数据持久化的结构化数据同步方法,其特征在于,将待同步的分页数据持久化到文件系统、数据库系统或消息队列中;
5.一种基于分页与数据持久化的结构化数据同步系统,其特征在于,其包括:
6.根据权利要求5所述的基于分页与数据持久化的结构化数据同步系统,其特征在于,当待同步数据包含一个递增的时间戳或日期字段时,所述方法构建模块构建基于时间字段的分页方法,所述基于时间字段的分页方法包括时间范围、每页数据量、时间段分割和查询语句四个分页参数;
7.根据权利要求5所述的基于分页与数据持久化的结构化数据同步系统,其特征在于,所述缓存执行模块具体包括:
8.根据权利要求7所述的基于分页与数据持久化的结构化数据同步系统,其特征在于,所述分页缓存单元为文件系统、数据库系统或消息队列。