本技术涉及金融科技,应用于金融业务数据多数据源获取场景中,尤其涉及一种数据流关联方法、装置、设备及其存储介质。
背景技术:
1、随着互联网的飞速发展,各行各业都在依托互联网寻求行业突破点,近年来,金融行业也正在围绕着互联网进行线上业务拓展。由于金融行业涉及的业务量和数据量较大,随着用户对产品需求的不断提高,数据处理的时效要求也随之提高,目前许多业务场景的数据要求实时处理、实时推送处理结果给用户;大数据领域的实时处理技术近些年来也在高速发展中,但是实时流技术在数据处理细节上与传统离线技术相比差异很大,将传统离线的加工逻辑迁移至数据流实时处理场景上的困难点很多。
2、将传统离线的加工逻辑迁移至数据流实时处理场景上的一个重大难题为多源数据流实时关联,目前对多源数据流实时关联上还存在实时数据延迟到达,最终关联数据与实际业务不一致,导致金融业务任务延迟完成或者因关联数据错误导致业务处理失败的问题。
技术实现思路
1、本技术实施例的目的在于提出一种数据流关联方法、装置、设备及其存储介质,以解决现有技术对多源数据流实时关联上,存在导致金融业务任务延迟完成或者因关联数据错误导致业务处理失败的问题。
2、为了解决上述技术问题,本技术实施例提供数据流关联方法,采用了如下所述的技术方案:
3、一种数据流关联方法,包括下述步骤:
4、获取目标推送组件实时推送的多源数据流,其中,所述目标推送组件根据数据流来源预先为所述多源数据流设置了来源区别信息;
5、基于预设的解析组件,对所述多源数据流进行解析,获取所述多源数据流中分别包含的数据属性字段,作为实际数据属性字段;
6、获取目标关联结果表,其中,所述目标关联结果表为预先根据目标关联业务最终所需的数据属性字段设计而成;
7、对所述目标关联结果表进行表单解析,根据表单解析结果识别出所述目标关联结果表中所包含的数据属性字段,作为期望数据属性字段;
8、对比所述期望数据属性字段和所述实际数据属性字段,根据对比结果,确定所有期望数据属性字段分别对应的目标数据流;
9、根据所有期望数据属性字段分别对应的目标数据流以及所述多源数据流的来源区别信息,从目标数据资源库获取所述目标关联业务最终所需的业务数据;
10、将所述业务数据根据所述期望数据属性字段映射到所述关联结果表中,完成对所述多源数据流的关联。
11、进一步的,所述目标推送组件包括基于分布式的数据推送组件,在执行所述获取目标推送组件实时推送的多源数据流的步骤之前,所述方法还包括:
12、基于预设的推送记录日志,记录所述数据推送组件对所述多源数据流中每个数据流进行实时推送时的推送时间;
13、在执行所述获取目标推送组件实时推送的多源数据流的步骤之后,所述方法还包括:
14、根据所述目标推送组件预先为所述多源数据流设置的来源区别信息,获取所述多源数据流中每个数据流分别对应的来源区别信息;
15、通过预设的日志解析组件对所述推送记录日志进行解析,识别出所述多源数据流中每个数据流分别对应的推送时间。
16、进一步的,所述预设的解析组件为数据流解析组件,所述基于预设的解析组件,对所述多源数据流进行解析,获取所述多源数据流中分别包含的数据属性字段的步骤,具体包括:
17、根据所述数据流解析组件对所述多源数据流中每个数据流分别进行解析,获得每个数据流中传输的数据内容;
18、基于每个数据流中传输的数据内容,识别出每个数据流分别包含的数据属性字段;
19、在执行所述基于预设的解析组件,对所述多源数据流进行解析,获取所述多源数据流中分别包含的数据属性字段的步骤之后,所述方法还包括:
20、根据所述多源数据流中每个数据流分别对应的来源区别信息对每个数据流分别包含的数据属性字段进行标记处理,获得标记结果,其中,所述标记处理方式,具体为将每个数据流分别对应的来源区别信息作为标记字段赋值给每个数据流分别包含的数据属性字段;
21、根据所述标记结果,识别出所有实际数据属性字段分别对应的来源区别信息。
22、进一步的,所述对比所述期望数据属性字段和所述实际数据属性字段,根据对比结果,确定所述期望数据属性字段分别对应的目标数据流的步骤,具体包括:
23、对比所述期望数据属性字段和所述实际数据属性字段,确定期望数据属性字段与实际数据属性字段间的一一对应关系;
24、根据期望数据属性字段与实际数据属性字段间的一一对应关系,以及所有实际数据属性字段分别对应的来源区别信息,确定所有期望数据属性字段分别对应的来源区别信息;
25、根据所述多源数据流中每个数据流分别对应的来源区别信息,以及所有期望数据属性字段分别对应的来源区别信息,确定所有期望数据属性字段分别对应的目标数据流。
26、进一步的,所述根据所有期望数据属性字段分别对应的目标数据流以及所述多源数据流的来源区别信息,从目标数据资源库获取所述目标关联业务最终所需的业务数据的步骤,具体包括:
27、根据所有期望数据属性字段分别对应的目标数据流以及所述多源数据流的来源区别信息,向所述目标数据资源库发送表单获取请求;
28、接收所述目标数据资源库基于所述表单获取请求返回的请求响应结果;
29、通过解析所述请求响应结果,识别出所述业务数据所涉及到的目标数据表单、每个目标数据表单所包含的期望数据属性字段以及每个目标数据表单所包含的所有数据属性字段。
30、进一步的,所述将所述业务数据根据所述期望数据属性字段映射到所述关联结果表中,完成对所述多源数据流的关联的步骤,具体包括:
31、根据每个目标数据表单所包含的期望数据属性字段以及每个目标数据表单所包含的所有数据属性字段,对每个目标数据表单中非期望数据属性字段对应的数据内容进行null值处理,获得处理后的每个目标数据表单;
32、根据所述业务数据所涉及到的目标数据表单以及每个目标数据表单所包含的期望数据属性字段,采用un ion表单拼接方式拼接所有处理后的目标数据表单,获得拼接表单;
33、根据每个目标数据表单所包含的期望数据属性字段,获得所述期望数据属性字段对应的数据内容;
34、根据所述多源数据流中每个数据流分别对应的推送时间、所有期望数据属性字段分别对应的目标数据流以及所述期望数据属性字段对应的数据内容,将所有期望数据属性字段对应的数据内容添加到所述拼接表单中,获得数据内容填充后的拼接表单;
35、将所述拼接表单中数据内容按照数据属性字段映射到所述关联结果表中,完成对所述多源数据流的关联。
36、进一步的,所述根据所述多源数据流中每个数据流分别对应的推送时间、所有期望数据属性字段分别对应的目标数据流以及所述期望数据属性字段对应的数据内容,将所有期望数据属性字段对应的数据内容添加到所述拼接表单中,获得数据内容填充后的拼接表单的步骤,具体包括:
37、根据所有期望数据属性字段分别对应的目标数据流以及所述期望数据属性字段对应的数据内容,识别同一期望数据属性字段所对应的数据内容是否被两个或者两个以上的数据流先后推送;
38、若所述期望数据属性字段所对应的数据内容仅且只被一个数据流推送,则根据所述数据流的来源区别信息,识别所述期望数据属性字段所对应的数据表单,从所述数据表单中,获得所述期望数据属性字段所对应的数据内容,并将所述数据内容以普通插入方式添加到所述拼接表单中,其中,所述普通插入方式,具体为,直接将所述期望数据属性字段所对应的数据内容添加到所述拼接表单中;
39、若存在同一期望数据属性字段所对应的数据内容被两个或者两个以上的数据流先后推送,则根据所述多源数据流中每个数据流分别对应的推送时间,筛选出最后进行推送的数据流,根据所述最后进行推送的数据流的来源区别信息,识别所述期望数据属性字段所对应的数据表单,从所述数据表单中,获得所述期望数据属性字段所对应的数据内容作为待插入内容,并将所述待插入内容以更新插入方式添加到所述拼接表单中,其中,所述更新插入方式,具体为,若所述拼接表单中已添加了在先数据流推送的所述期望数据属性字段所对应的数据内容,则先对所述拼接表单中所述期望数据属性字段所对应的数据内容进行删除处理,再将所述待插入内容添加到所述拼接表单中,以及
40、若所述拼接表单中未添加在先数据流推送的所述期望数据属性字段所对应的数据内容,直接将所述待插入内容添加到所述拼接表单中;
41、直到所有期望数据属性字段对应的数据内容都被添加到所述拼接表单中,获得数据内容填充后的拼接表单。
42、为了解决上述技术问题,本技术实施例还提供数据流关联装置,采用了如下所述的技术方案:
43、一种数据流关联装置,包括:
44、多源数据流获取模块,用于获取目标推送组件实时推送的多源数据流,其中,所述目标推送组件根据数据流来源预先为所述多源数据流设置了来源区别信息;
45、实际数据属性字段获取模块,用于基于预设的解析组件,对所述多源数据流进行解析,获取所述多源数据流中分别包含的数据属性字段,作为实际数据属性字段;
46、目标关联结果表获取模块,用于获取目标关联结果表,其中,所述目标关联结果表为预先根据目标关联业务最终所需的数据属性字段设计而成;
47、期望数据属性字段获取模块,用于对所述目标关联结果表进行表单解析,根据表单解析结果识别出所述目标关联结果表中所包含的数据属性字段,作为期望数据属性字段;
48、对比确定模块,用于对比所述期望数据属性字段和所述实际数据属性字段,根据对比结果,确定所有期望数据属性字段分别对应的目标数据流;
49、业务数据获取模块,用于根据所有期望数据属性字段分别对应的目标数据流以及所述多源数据流的来源区别信息,从目标数据资源库获取所述目标关联业务最终所需的业务数据;
50、多源数据流关联模块,用于将所述业务数据根据所述期望数据属性字段映射到所述关联结果表中,完成对所述多源数据流的关联。
51、为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
52、一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现上述所述的数据流关联方法的步骤。
53、为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
54、一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上述所述的数据流关联方法的步骤。
55、与现有技术相比,本技术实施例主要有以下有益效果:
56、本技术实施例所述数据流关联方法,通过对多源数据流推送、期望数据属性字段确定、实际数据属性字段识别、从目标数据资源库以请求获取方式获取、构建虚拟表单、将虚拟表单中数据内容映射到实际的关联结果表内,完成对所述多源数据流的关联。直接根据所有期望数据属性字段分别对应的目标数据流以及所述多源数据流的来源区别信息,直接获取了期望数据属性字段所处的整个表单,通过对表单中数据内容进行处理,获得仅包含期望数据属性字段对应的数据内容的表单。在获取时,无需先根据数据属性字段进行查询,只需整个表单获取,更加快速,后续再对表单进行处理即可。一定程度上提升了金融业务中多源数据流的关联速度,保证了金融业务数据处理的实时性。