技术特征:
1.一种基于hive的拉链式模型数据汇聚方法,其特征在于,包括:对接业务系统,并由所述业务系统中抽取原始数据;对所述原始数据进行清洗和标准化,以确定标准接口模型;由目标结果模型中获取当前有效数据,通过所述有效数据的主键与所述标准接口模型内关联,确定所述目标结果模型中的待更新数据模型;将所述标准接口模型左外关联所述待更新数据模型,剔除主键重复的数据以生成增量数据,并将所述增量数据直接插入至所述目标结果模型中;将所述标准接口模型内关联所述待更新数据模型,将原始数据中全字段匹配的数据删除;将所述待更新数据模型内关联所述标准接口模型,并采用所述标准接口模型的数据对所述待更新数据模型进行更新,实现所述目标结果模型的数据汇聚。2.根据权利要求1所述的基于hive的拉链式模型数据汇聚方法,其特征在于,还包括:在对所述待更新数据模型的数据更新完成后,针对相同主键更新前的数据的数据状态日期进行更新。3.根据权利要求1或2所述的基于hive的拉链式模型数据汇聚方法,其特征在于,所述标准接口模型与所述业务系统中的数据模型一致,所述标准接口模型用于将所述业务系统中抽取的原始数据复制至所述目标结果模型中。4.根据权利要求3所述的基于hive的拉链式模型数据汇聚方法,其特征在于,采用etl工具实现所述业务系统中原始数据的抽取。5.根据权利要求1所述的基于hive的拉链式模型数据汇聚方法,其特征在于,所述对所述原始数据进行清洗和标准化具体包括:将所述原始数据中的无关字符删除,实现对所述原始数据的清洗;将所述原始数据中相应的字段名称和字段属性与所述目标结果模型保持一致,实现对所述原始数据的标准化。6.根据权利要求1所述的基于hive的拉链式模型数据汇聚方法,其特征在于,所述通过所述有效数据的主键与所述标准接口模型内关联,确定所述目标结果模型中的待更新数据模型具体包括:通过所述目标结果模型与所述标准接口模型的内关联,对比所述有效数据与所述标准接口模型的主键数据,以所述目标结果模型中主键相同的对应数据作为待更新数据模型。7.一种基于hive的拉链式模型数据汇聚系统,应用如权利要求1至6中任一项所述的基于hive的拉链式模型数据汇聚方法,其特征在于,包括:数据抽取模块,用于对接业务系统,并由所述业务系统中抽取原始数据;数据处理模块,用于对所述原始数据进行清洗和标准化,以确定标准接口模型;更新确认模块,用于从目标结果模型中获取当前有效数据,通过所述有效数据的主键与所述标准接口模型内关联,确定所述目标结果模型中的待更新数据模型;增量插入模块,用于将所述标准接口模型左外关联所述待更新数据模型,剔除主键重复的数据以生成增量数据,并将所述增量数据直接插入至所述目标结果模型中;数据舍弃模块,用于将所述标准接口模型内关联所述待更新数据模型,并将原始数据中全字段匹配的数据删除;
数据更新模块,用于将所述待更新数据模型内关联所述标准接口模型,并采用所述标准接口模型的数据对所述待更新数据模型进行更新,实现所述目标结果模型的数据汇聚。8.根据权利要求7所述的基于hive的拉链式模型数据汇聚系统,其特征在于,还包括:日期更新模块,用于在对所述待更新数据模型的数据更新完成后,针对相同主键更新前的数据的数据状态日期进行更新。9.根据权利要求7所述的基于hive的拉链式模型数据汇聚系统,其特征在于,所述数据处理模块具体用于:将所述原始数据中的无关字符删除,实现对所述原始数据的清洗;将所述原始数据中相应的字段名称和字段属性与所述目标结果模型保持一致,实现对所述原始数据的标准化。10.根据权利要求7所述的基于hive的拉链式模型数据汇聚系统,其特征在于,所述更新确认模块具体用于:通过所述目标结果模型与所述标准接口模型的内关联,对比所述有效数据与所述标准接口模型的主键数据,以所述目标结果模型中主键相同的对应数据作为待更新数据模型。
技术总结
本发明公开了一种基于HIVE的拉链式模型数据汇聚方法及系统,应用于数据汇聚技术领域,方法包括:对接业务系统,并抽取原始数据;对原始数据进行清洗和标准化,以确定标准接口模型;由目标结果模型中获取当前有效数据,与标准接口模型内关联,确定待更新数据模型;将标准接口模型左外关联待更新数据模型,剔除主键重复的数据以生成增量数据,并插入至目标结果模型中;将标准接口模型内关联待更新数据模型,将全字段匹配的数据删除,并对待更新数据模型进行更新。通过本发明的技术方案,避免了文件级操作,实现了数据拉链式存储,能够保留所有数据变化轨迹,同时能够降低数据冗余度,模板化的开发方式降低了开发工作量和运维难度。度。度。
技术研发人员:时敏
受保护的技术使用者:北京思特奇信息技术股份有限公司
技术研发日:2021.11.02
技术公布日:2022/3/25