一种数据处理方法、装置、设备及存储介质与流程

文档序号:37441416发布日期:2024-03-28 18:24阅读:15来源:国知局
一种数据处理方法、装置、设备及存储介质与流程

本技术涉及计算机,尤其涉及一种数据处理方法、装置、设备及存储介质。


背景技术:

1、随着互联网技术的不断发展,企业可以将业务系统的业务数据通过业务监测大屏系统进行展示,以便实时监测业务系统的运行状态。相关技术中,业务监测大屏系统可以从不同的数据源中获取企业的业务数据并存入数据仓库,数据仓库对业务数据进行处理和分析,例如:数据清洗、数据转换、数据聚合等,从而提取出业务数据中的有效指标和信息,业务监测大屏系统连接数据仓库,并基于商业智能(business intelligence,bi)工具实时展示和刷新有效指标和信息,以便管理人员随时了解业务运行状态和数据变化。

2、但是,相关技术中的业务监测大屏系统获取的业务数据大多为结构化数据,并且数据仓库仅能针对结构化数据进行处理,使得业务监测大屏系统获取的业务数据不全面,导致最终展示的业务运行状态不准确。


技术实现思路

1、本技术提供一种数据处理方法、装置、设备及存储介质,实现了处理业务系统中的半结构化数据,使得湖仓一体平台获取的业务数据更加全面,以保证展示的业务数据的准确性。

2、第一方面,本技术提供一种数据处理方法,应用于湖仓一体平台,湖仓一体平台分别与业务系统和关系型数据库连接,该方法包括:获取业务系统的第一数据;第一数据包括半结构化数据;将第一数据中的半结构化数据映射为结构化数据,得到第二数据;将第二数据存储至关系型数据库。

3、本技术提供的数据处理方法,湖仓一体平台获取业务系统的第一数据,并将第一数据中的半结构化数据映射为结构化数据,得到第二数据,从而将第二数据存储至关系型数据库。与相关技术相比,本技术的湖仓一体平台可以获取第一数据中的结构化数据和半结构化数据并进行处理,使得得到的第二数据更加全面。并且,结构化数据和半结构化数据通常包含不同的信息维度,从而提高了第二数据的数据质量,保证了关系型数据库中存储的第二数据的完整性和准确性,以便基于关系型数据库中的第二数据进行更深入、更全面的数据分析,得到更准确的业务系统运行状态。

4、一种可能的实现方式,湖仓一体平台连接第一集成代理模块;第一集成代理模块部署于业务系统中;第一集成代理模块用于从业务系统中获取原始数据,并上传至文件传输协议(file transfer protocol,ftp)服务器;获取业务系统的第一数据,包括:基于查询条件,从ftp服务器中的原始数据中获取第一数据。

5、另一种可能的实现方式,湖仓一体平台连接第二集成代理模块;第二集成代理模块部署于关系型数据库中;第二集成代理模块用于从湖仓一体平台获取第二数据,并将第二数据存储至关系型数据库。

6、又一种可能的实现方式,将第一数据中的半结构化数据映射为结构化数据,得到第二数据,包括:提取半结构化数据的标签;标签用于表征半结构化数据的身份标识;根据标签对半结构化数据进行分类,得到多个第一数据集合;针对多个第一数据集合中的每个第一数据集合,基于自然语言处理(natural language processing,nlp)技术,补全第一数据集合中的半结构化数据,得到第二数据集合;建立标签与与其对应的第二数据集合的映射关系,以将半结构化数据映射为结构化数据。

7、又一种可能的实现方式,采用如下至少一种方法提取半结构化数据的标签:正则表达式、nlp技术、文本解析器、半结构化数据的查询语言以及抽取转换加载(extracttransform load,etl)工具。

8、又一种可能的实现方式,湖仓一体平台包括:贴源层(operational data store,ods)、明细数据层(data warehouse detail,dwd)、汇总数据层(data warehouse summary,dws)以及应用数据层(application data service,ads);ods用于支持湖仓一体平台对第二数据进行预处理;预处理包括:数据清洗、格式转换、字段映射以及异常数据处理;dwd用于支持湖仓一体平台查询历史数据,并基于大规模并行处理(massively parallelprocessing,mpp)数据库工具和分布式流处理框架,对历史数据和第二数据进行汇总分析;历史数据为湖仓一体平台基于对象存储技术存储的第二数据的历史数据;dws用于支持湖仓一体平台基于机器学习算法对第二数据进行数据挖掘和数据分析;ads用于支持湖仓一体平台对第二数据进行数据聚合以及更新第二数据。

9、又一种可能的实现方式,将第二数据存储至关系型数据库,包括:确定第二数据的第一验证指标;根据增量更新策略,将第二数据与历史数据不同的数据传输至关系型数据库;增量更新策略用于确定第二数据中与历史数据不同的数据;确定关系型数据库中传输后的第二数据的第二验证指标;根据第一验证指标和第二验证指标校验第二数据。

10、又一种可能的实现方式,增量更新策略包括以下一项或多项:时间戳、变化数据捕捉(change data capture、cdc)技术、递增字段、哈希值、消息队列以及日志分析。

11、又一种可能的实现方式,方法还包括:从关系型数据库中获取第二数据;基于bi技术,可视化展示第二数据。

12、第二方面,本技术提供一种数据处理装置,应用于湖仓一体平台,湖仓一体平台分别与业务系统和关系型数据库连接,该装置包括:获取模块、映射模块以及存储模块。

13、获取模块用于,获取业务系统的第一数据;第一数据包括半结构化数据;映射模块用于,将第一数据中的半结构化数据映射为结构化数据,得到第二数据;存储模块用于,将第二数据存储至关系型数据库。

14、一种可能的实现方式,湖仓一体平台连接第一集成代理模块;第一集成代理模块部署于业务系统中;第一集成代理模块用于从业务系统中获取原始数据,并上传至ftp服务器;获取模块具体用于,基于查询条件,从ftp服务器中的原始数据中获取第一数据。

15、另一种可能的实现方式,湖仓一体平台连接第二集成代理模块;第二集成代理模块部署于关系型数据库中;第二集成代理模块用于从湖仓一体平台获取第二数据,并将第二数据存储至关系型数据库。

16、又一种可能的实现方式,映射模块具体用于,提取半结构化数据的标签;标签用于表征半结构化数据的身份标识;根据标签对半结构化数据进行分类,得到多个第一数据集合;针对多个第一数据集合中的每个第一数据集合,基于nlp技术,补全第一数据集合中的半结构化数据,得到第二数据集合;建立标签与与其对应的第二数据集合的映射关系,以将半结构化数据映射为结构化数据。

17、又一种可能的实现方式,采用如下至少一种方法提取半结构化数据的标签:正则表达式、nlp技术、文本解析器、半结构化数据的查询语言以及etl工具。

18、又一种可能的实现方式,湖仓一体平台包括:ods、dwd、dws以及ads;ods用于支持湖仓一体平台对第二数据进行预处理;预处理包括:数据清洗、格式转换、字段映射以及异常数据处理;dwd用于支持湖仓一体平台查询历史数据,并基于mpp数据库工具和分布式流处理框架,对历史数据和第二数据进行汇总分析;历史数据为湖仓一体平台基于对象存储技术存储的第二数据的历史数据;dws用于支持湖仓一体平台基于机器学习算法对第二数据进行数据挖掘和数据分析;ads用于支持湖仓一体平台对第二数据进行数据聚合以及更新第二数据。

19、又一种可能的实现方式,存储模块具体用于,确定第二数据的第一验证指标;根据增量更新策略,将第二数据与历史数据不同的数据传输至关系型数据库;增量更新策略用于确定第二数据中与历史数据不同的数据;确定关系型数据库中传输后的第二数据的第二验证指标;根据第一验证指标和第二验证指标校验第二数据。

20、又一种可能的实现方式,增量更新策略包括以下一项或多项:时间戳、cdc技术、递增字段、哈希值、消息队列以及日志分析。

21、又一种可能的实现方式,装置还包括:展示模块;获取模块还用于,从关系型数据库中获取第二数据;展示模块用于,基于bi技术,可视化展示第二数据。

22、第三方面,本技术提供一种电子设备,该电子设备包括:处理器和存储器;存储器存储有处理器可执行的指令;处理器被配置为执行指令时,使得电子设备实现上述第一方面的方法。

23、第四方面,本技术提供一种计算机可读存储介质,该计算机可读存储介质包括:计算机软件指令;当计算机软件指令在电子设备中运行时,使得电子设备实现上述第一方面的方法。

24、第五方面,本技术提供一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述第一方面描述的相关方法的步骤,以实现上述第一方面的方法。

25、上述第二方面至第五方面的有益效果参考第一方面的对应描述,不再赘述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1