1.本发明涉及数据管理
技术领域:
:,具体涉及一种异构大数据管理平台任务迁移方法。
背景技术:
::2.当前数据平台多套环境之间的调度、任务以及任务相关的表迁移的处理方法,一种是人为地在多个环境之间去手动修改,先是在开发环境中将任务测试通过之后,然后手动将任务移植到生产环境去使用,但是手动操作不能保证任务的一致性。另外一种是通过将开发环境的数据完全迁移至生产环境,这样会导致生产环境已经处理过的问题在开发环境没有处理过的时候,将开发环境的问题重新覆盖至生产环境,最终导致任务反复。技术实现要素:3.针对现有技术的不足,本发明旨在提供一种异构大数据管理平台任务迁移方法。4.为了实现上述目的,本发明采用如下技术方案:5.一种异构大数据管理平台任务迁移方法,具体过程为:6.将开发环境的元数据信息导出并导入至生产环境中,并在数据开始导入时,对数据进行校验,然后根据校验结果执行相应的操作;其中:7.对于数据库数据,使用hivedatabasemerger去检验数据,检验生产环境中hive库是否存在,不存在的时候,需要提示用户去集群申请创建数据库;8.对于hive表的数据,使用hivetablemerger检验数据,检验生产环境中该hive表是否存在,如果不存在,则插入该hive表;如果该hive表存在,则进一步检验要导入的该hive表相对于原有的hive表是否有修改,如果没有修改,不操作,保持数据原状,如果有修改,进一步检验该hive表是否有分区或分桶,如果有,则校验分区或者分桶信息是否有变更,如果有变更,提示用户修改,否则修改mysql保存信息;9.对于hive表字段的数据,使用hivecolumnmerger检验数据,首先检验生产环境中该hive表字段是否存在,如果该hive表字段不存在,则插入该hive表字段,如果存在,则进一步检验该字段是否有变化,如果有变化,则变更相应的字段,否则不操作,保持数据原状;10.对于调度任务,使用schedulermerger检验数据,查看生产环境中该调度任务是否存在,如果不存在,插入该调度任务,如果存在,则检验该调度任务的信息是否有变动,如果有变动,覆盖并修改该调度任务的状态,如果没有变动,则不操作,保持数据的原状;11.进一步地,对于任务信息使用jobbasemerger检验是否有修改,如果有修改则覆盖生产环境中原有的任务信息,没有修改则保持数据原状。12.进一步地,对于主表使用maintablemerger进行检验是否有修改,如果有修改则覆盖生产环境中原有的主表,没有修改则保持数据原状;对于与主表的唯一key具有关联关系的关联表使用relatedmerger进行检验数据是否有修改,如果有修改则覆盖生产环境中原有的关联表,没有修改则保持数据原状。13.本发明的有益效果在于:本发明方法将开发环境的元数据信息导出,通过配置的算法将开发环境的数据导入到生产环境中,然后处理生产环境哪些数据需要覆盖,哪些数据保持不变,实现在自动进行任务迁移的同时,不会出现任务反复的问题。附图说明14.图1为本发明实施例中的方法流程图。具体实施方式15.以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。16.本实施例提供一种异构大数据管理平台任务迁移方法,如图1所示,具体过程为:17.将开发环境的元数据信息导出并导入至生产环境中,并在数据开始导入时,对数据进行校验,然后根据校验结果执行相应的操作;其中:18.对于数据库数据,使用hivedatabasemerger去检验数据,检验生产环境中hive库是否存在,不存在的时候,需要提示用户去集群申请创建数据库;如果存在,则不操作;19.对于hive表的数据,使用hivetablemerger检验数据,检验生产环境中该hive表是否存在,如果不存在,则插入该hive表;如果该hive表存在,则进一步检验要导入的该hive表相对于原有的hive表是否有修改,如果没有修改,不操作,保持数据原状,如果有修改,进一步检验该hive表是否有分区或分桶,如果有,则校验分区或者分桶信息是否有变更,如果有变更,提示用户修改,否则修改mysql保存信息;20.对于hive表字段的数据,使用hivecolumnmerger检验数据,首先检验生产环境中该hive表字段是否存在,如果该hive表字段不存在,则插入该hive表字段,如果存在,则进一步检验该字段是否有变化,如果有变化,则变更相应的字段,否则不操作,保持数据原状;21.对于调度任务,使用schedulermerger检验数据,查看生产环境中该调度任务是否存在,如果不存在,插入该调度任务,如果存在,则检验该调度任务的信息是否有变动,如果有变动,覆盖并修改该调度任务的状态,如果没有变动,则不操作,保持数据的原状;22.进一步地,对于任务信息使用jobbasemerger检验是否有修改,如果有修改则覆盖生产环境中原有的任务信息,没有修改则保持数据原状;对于主表使用maintablemerger进行检验是否有修改,如果有修改则覆盖生产环境中原有的主表,没有修改则保持数据原状;对于与主表的唯一key具有关联关系的关联表使用relatedmerger进行检验数据是否有修改,如果有修改则覆盖生产环境中原有的关联表,没有修改则保持数据原状。23.对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。技术特征:1.一种异构大数据管理平台任务迁移方法,其特征在于,具体过程为:将开发环境的元数据信息导出并导入至生产环境中,并在数据开始导入时,对数据进行校验,然后根据校验结果执行相应的操作;其中:对于数据库数据,使用hivedatabasemerger去检验数据,检验生产环境中hive库是否存在,不存在的时候,需要提示用户去集群申请创建数据库;对于hive表的数据,使用hivetablemerger检验数据,检验生产环境中该hive表是否存在,如果不存在,则插入该hive表;如果该hive表存在,则进一步检验要导入的该hive表相对于原有的hive表是否有修改,如果没有修改,不操作,保持数据原状,如果有修改,进一步检验该hive表是否有分区或分桶,如果有,则校验分区或者分桶信息是否有变更,如果有变更,提示用户修改,否则修改mysql保存信息;对于hive表字段的数据,使用hivecolumnmerger检验数据,首先检验生产环境中该hive表字段是否存在,如果该hive表字段不存在,则插入该hive表字段,如果存在,则进一步检验该字段是否有变化,如果有变化,则变更相应的字段,否则不操作,保持数据原状;对于调度任务,使用schedulermerger检验数据,查看生产环境中该调度任务是否存在,如果不存在,插入该调度任务,如果存在,则检验该调度任务的信息是否有变动,如果有变动,覆盖并修改该调度任务的状态,如果没有变动,则不操作,保持数据的原状。2.根据权利要求1所述的方法,其特征在于,对于任务信息使用jobbasemerger检验是否有修改,如果有修改则覆盖生产环境中原有的任务信息,没有修改则保持数据原状。3.根据权利要求1所述的方法,其特征在于,对于主表使用maintablemerger进行检验是否有修改,如果有修改则覆盖生产环境中原有的主表,没有修改则保持数据原状;对于与主表的唯一key具有关联关系的关联表使用relatedmerger进行检验数据是否有修改,如果有修改则覆盖生产环境中原有的关联表,没有修改则保持数据原状。技术总结本发明公开了一种异构大数据管理平台任务迁移方法,将开发环境的元数据信息导出,通过配置的算法将开发环境的数据导入到生产环境中,然后处理生产环境哪些数据需要覆盖,哪些数据保持不变,实现在自动进行任务迁移的同时,不会出现任务反复的问题。不会出现任务反复的问题。技术研发人员:于洋高经郡李城军受保护的技术使用者:北京科杰科技有限公司技术研发日:2021.10.27技术公布日:2022/1/21