本发明属于数据处理,尤其涉及一种混合架构数据处理系统。
背景技术:
::1、在现有技术中,电网进一步提高了用户用电信息的覆盖率与采集率,产生了海量遥测与遥信数据。根据现有的数据中台技术体系,这些海量数据需要汇聚与归集到数据中台进行加工与治理,合并后再开放给业务应用使用。这个加工与治理的过程,造成了很高的时延,无法满足业务应用对数据实效性的要求。2、由于数据中台采用的是离线数仓的技术路线,数据在规整治理过程中无法接受新的数据变化,且无法对离线操作数据进行任何操作,导致在数据归集过程无法提供有效的数据查询服务,故无法支撑应用的实时计算分析需求。技术实现思路1、有鉴于此,本发明提供了一种混合架构数据处理系统,旨在解决现有技术中对数据归集过程无法提供有效的数据查询服务和计算分析需求的问题。2、本发明实施例的第一方面提供了一种混合架构数据处理系统,包括:分布式实时数据流编排系统、大规模并行列数据库系统、分布式内存数据库系统;3、分布式实时数据流编排系统用于从外部数据源中实时获取用户用电信息;并将用户用电信息结构化后,加载到大规模并行列数据库中。4、大规模并行列数据库系统用于根据结构化的用户用电信息,从档案数据中确定用户用电信息的台区信息,根据台区信息计算用户用电信息的汇总统计指标,并将汇总统计指标加载到分布式内存数据库中;5、分布式内存数据库系统用于接收业务系统下发的查询指令,并根据查询指令对应的汇总统计指标,在大规模并行列数据库系统中查询对应台区的用户用电信息。6、在一些可能的实现方式中,分布式实时数据流编排系统具体用于:7、从外部数据源中实时获取用户用电信息;8、解析用户用电信息,提取得到用户用电信息的关键维度信息;其中,关键维度信息包括设备id、量测时间、量测类型、量测结果;9、将提取后的用户用电信息按照设备id、量测时间、量测类型为联合主键,量测结果为值所构成的k-v结构,附加式地加载到大规模并行列数据库中。10、在一些可能的实现方式中,分布式实时数据流编排系统包括:分布式数据流控制子系统、数据处理算子管理子系统、分布式存储支撑管理引擎;11、数据处理算子管理子系统用于存储和检索数据处理算子;其中,数据处理算子为执行器,用于处理逻辑之间的数据路由、转换或中介的组合;12、分布式数据流控制子系统通过管理数据处理算子来控制用户用电信息的写入;13、分布式存储支撑管理引擎用于记录数据处理算子对应的用户用电信息的流文件信息。14、在一些可能的实现方式中,分布式数据流控制子系统包括:连接控制器、任务调度控制器、数据处理分组控制器;15、连接控制器用于管理数据处理算子之间的实际链接;16、任务调度控制器用于管理数据处理算子使用的线程及管理为数据处理算子分配的数据;17、数据处理分组控制器用于对数据处理算子进行分组,并管理每组内各个数据处理算子之间的数据交互。18、在一些可能的实现方式中,大规模并行列数据库系统包括:查询集群模块、列存执行引擎模块;19、查询集群模块用于在接收到分布式内存数据库系统的查询请求时,向分布式内存数据库系统上报查询请求对应的用户用电信息;其中,查询请求根据查询指令对应的汇总统计指标确定;20、列存执行引擎模块用于存储结构化的用户用电信息。21、在一些可能的实现方式中,查询集群模块包括:元数据管理子模块、客户端连接子模块、查询规划与调度子模块;22、元数据管理模块用于在内存中存储与维护完整的元数据副本;23、客户端连接子模块用于提供标准jdbc连接;24、查询规划与调度子模块用于对接收到的查询请求进行语法解析,得到逻辑执行计划,并将逻辑执行计划转换成列存储支持的物理执行计划。25、在一些可能的实现方式中,列存执行引擎模块包括:执行引擎、存储引擎、外部io引擎;26、执行引擎用于接收来自查询集群模块查询的物理执行计划,并在自身存储数据范围内进行执行;27、存储引擎用于接收查询集群模块下发的第一数据,并按照预设格式写入第一数据,生成第一数据的索引;28、外部io引擎用于连接外部存储。29、在一些可能的实现方式中,分布式内存数据库系统包括:分布式内存管理模块、分布式数据模型管理模块、双模式查询接口模块;30、分布式内存管理模块用于管理分布式内存数据库系统中的内存段;31、分布式数据模型管理模块用于管理分布式内存数据库系统中物理模型、逻辑模型以及子程序。32、在一些可能的实现方式中,双模式查询接口模块包括:key-value cache模式、sqltable模式。33、本发明实施例的第二方面提供了一种混合架构数据处理方法,该方法包括:34、分布式实时数据流编排系统从外部数据源中实时获取用户用电信息;并将用户用电信息结构化后,加载到大规模并行列数据库中。35、大规模并行列数据库系统根据结构化的用户用电信息,从档案数据中确定用户用电信息的台区信息,根据台区信息计算用户用电信息的汇总统计指标,并将汇总统计指标加载到分布式内存数据库中;36、分布式内存数据库系统接收业务系统下发的查询指令,并根据查询指令对应的汇总统计指标,在大规模并行列数据库系统中查询对应台区的用户用电信息。37、本发明实施例提供的混合架构数据处理系统,包括:分布式实时数据流编排系统、大规模并行列数据库系统、分布式内存数据库系统;分布式实时数据流编排系统用于从外部数据源中实时获取用户用电信息;并将用户用电信息结构化后,加载到大规模并行列数据库中。大规模并行列数据库系统用于根据结构化的用户用电信息,从档案数据中确定用户用电信息的台区信息,根据台区信息计算用户用电信息的汇总统计指标,并将汇总统计指标加载到分布式内存数据库中;分布式内存数据库系统用于接收业务系统下发的查询指令,并根据查询指令对应的汇总统计指标,在大规模并行列数据库系统中查询对应台区的用户用电信息。通过设置大规模并行列数据库、分布式内存数据库与分布式实时流式数据处理引擎的混合架构形式,充分综合了各自架构的技术特点,实现实时计算处理与准实时查询分析的能力。技术特征:1.一种混合架构数据处理系统,其特征在于,包括:分布式实时数据流编排系统、大规模并行列数据库系统、分布式内存数据库系统;2.根据权利要求1所述的混合架构数据处理系统,其特征在于,所述分布式实时数据流编排系统具体用于:3.根据权利要求2所述的混合架构数据处理系统,其特征在于,所述分布式实时数据流编排系统包括:分布式数据流控制子系统、数据处理算子管理子系统、分布式存储支撑管理引擎;4.根据权利要求3所述的混合架构数据处理系统,其特征在于,所述所述分布式数据流控制子系统包括:连接控制器、任务调度控制器、数据处理分组控制器;5.根据权利要求1所述的混合架构数据处理系统,其特征在于,所述大规模并行列数据库系统包括:查询集群模块、列存执行引擎模块;6.根据权利要求5所述的混合架构数据处理系统,其特征在于,所述查询集群模块包括:元数据管理子模块、客户端连接子模块、查询规划与调度子模块;7.根据权利要求6所述的混合架构数据处理系统,其特征在于,所述列存执行引擎模块包括:执行引擎、存储引擎、外部io引擎;8.根据权利要求1所述的混合架构数据处理系统,其特征在于,所述分布式内存数据库系统包括:分布式内存管理模块、分布式数据模型管理模块、双模式查询接口模块;9.根据权利要求8所述的混合架构数据处理系统,其特征在于,所述双模式查询接口模块包括:key-value cache模式、sql table模式。10.一种混合架构数据处理方法,其特征在于,应用于如上权利要求1-9任一项所述的混合架构数据处理系统,该方法包括:技术总结本发明提供了一种混合架构数据处理系统,包括:分布式实时数据流编排系统、大规模并行列数据库系统、分布式内存数据库系统;分布式实时数据流编排系统用于从外部数据源中实时获取用户用电信息并结构化后,加载到大规模并行列数据库中。大规模并行列数据库系统用于根据结构化的用户用电信息,从档案数据中确定台区信息,以计算汇总统计指标,加载到分布式内存数据库中;分布式内存数据库系统用于接收业务系统下发的查询指令,在大规模并行列数据库系统中查询用户用电信息。通过设置大规模并行列数据库、分布式内存数据库与分布式实时流式数据处理引擎的混合架构形式,充分综合了各自架构的技术特点,实现实时计算处理与准实时查询分析的能力。技术研发人员:赵梦瑶,杨力平,王少影,尹晓宇,张博,刘明硕,路欣,孙思思,张鹏飞,吴军英,王玉贞受保护的技术使用者:国网河北省电力有限公司信息通信分公司技术研发日:技术公布日:2024/8/16