本发明涉及数据处理领域,具体涉及一种数据处理模型的生成方法、系统、设备及介质。
背景技术:
1、数据大爆发时代中,数据具有数量大、多样性、价值密度低等特点,对数据提取和处理的需求多样化,对数据处理模型的开发需要敏捷化、对模型之间的关系维护需要简易化。
2、目前,数据处理模型的开发主要依赖开发人员通过写代码实现,过程中需根据业务逻辑变动不断进行代码修改代码,并重复执行打包、发布等操作任务,开发效率低、成本高、周期长;而且现有的数据处理模型耦合性高,模型难以分解重利用。
技术实现思路
1、针对上述现有技术的不足,本发明的目的在于提供一种数据处理模型的生成方法、系统、设备及介质,以实现数据处理模型的敏捷开发。
2、为了实现上述目的,本发明采用以下技术方案:
3、第一方面,本发明提供一种数据处理模型的生成方法,包括:
4、获取目标source模型,所述目标source模型选自所述source模型集或者根据用户自定义生成,所述source模型集包括若干source模型;
5、获取目标transform模型,所述目标transform模型选自所述transform模型集或者根据用户自定义生成,所述transform模型集包括若干transform模型;
6、获取目标sink模型,所述目标sink模型选自所述sink模型集或者根据用户自定义生成,所述sink模型集包括若干sink模型;
7、将所述目标source模型、目标transform模型和目标sink模型进行整合,以生成目标数据处理模型。
8、优选地,所述方法还包括:
9、根据接收到的任务请求,调度目标任务以执行所述目标数据处理模型,得到任务处理结果。
10、优选地,在获取所述source模型集之前,所述方法还包括:
11、建立元信息缓存数据库,所述元信息库缓存数据用于存储若干预设的存储系统的元信息,所述元信息包括所述存储系统中的数据源所对应的字段的库表字段信息。
12、优选地,根据用户自定义生成所述目标source模型的步骤如下:
13、根据用户指令,从所述元信息缓存数据库中选择目标字段,并对所述目标字段进行第一逻辑操作,而后将相应的操作过程信息封装为第一数据处理信息;
14、基于所述第一数据处理信息进行第一合法性校验操作;
15、当校验成功时,根据所述第一数据处理信息,解析得到第一任务执行链及第一任务链对象;
16、获取与所述第一任务执行链对应的代码;
17、基于所述第一任务执行链对应的代码以及所述第一任务链对象,生成所述目标source模型并将所述目标source模型加入所述source模型集。
18、优选地,所述基于所述第一数据处理信息进行第一合法性校验操作,包括:
19、解析所述第一数据处理信息,得到所述目标字段对应的目标存储系统和库表字段信息;
20、检测所述目标存储系统中是否存在与解析得到的所述库表字段信息匹配的数据源,若存在,则所述第一合法性校验操作校验成功,反之,则所述第一合法性校验操作校验失败。
21、优选地,根据用户自定义生成所述目标transform模型的步骤如下:
22、根据用户指令,从所述transform模型集中选择多个transform模型以合并成所述目标transform模型。
23、优选地,根据用户自定义生成所述目标transform模型的步骤如下:
24、根据用户指令,从所述source模型集中选择一个或者多个source模型,并对选择的所述source模型进行第二逻辑操作,而后将相应的操作过程信息封装为第二数据处理信息;
25、基于所述第二数据处理信息进行第二合法性校验操作;
26、当校验成功时,根据所述第二数据处理信息,解析得到第二任务执行链及第二任务链对象;
27、获取与所述第二任务执行链对应的代码;
28、基于所述第二任务执行链对应的代码以及所述第二任务链对象,生成所述目标transform模型并将所述目标transform模型加入所述transform模型集。
29、优选地,所述基于所述第二数据处理信息进行第二合法性校验操作,包括:
30、解析所述第二数据处理信息,得到所述第二逻辑操作中的数据流的字段类型;
31、基于预设的字段类型校验规则,校验所述第二逻辑操作中的数据流的字段类型是否合法,若合法,则第二合法性校验操作校验成功,反之,则第二合法性校验操作校验失败。
32、优选地,根据用户自定义生成所述目标sink模型的步骤如下:
33、根据用户指令,从所述source模型集中选择source模型和/或从所述transform模型集中选择transform模型,并对选择的所述source模型和/或transform模型进行第三逻辑操作,而后将相应的操作过程信息封装为第三数据处理信息;
34、根据所述第三数据处理信息,解析得到第三任务执行链及第三任务链对象;
35、获取与所述第三任务执行链对应的代码;
36、基于所述第三任务执行链对应的代码以及所述第三任务链对象,生成所述目标sink模型并将所述目标sink模型加入sink模型集。
37、优选地,所述第三逻辑操作包括:
38、根据用户指令,从所选择的所述source模型和/或transform模型的数据流中确定待输出数据的字段,并确定与所述待输出数据的字段对应的输出表。
39、优选地,当所述输出表为结构化的输出表时,在根据所述第三数据处理信息,解析得到第三任务执行链及第三任务链对象之前,还包括基于所述第三数据处理信息进行第三合法性校验操作;
40、所述第三合法性校验操作的过程如下:解析所述第三数据处理信息,得到所述待输出数据的字段对应的字段类型,并检测所述待输出数据的字段对应的字段类型是否与所述输出表中相应字段的字段类型匹配,若匹配,则第三合法性校验操作校验成功,反之,则第三合法性校验操作校验失败;
41、所述根据所述第三数据处理信息,解析得到第三任务执行链及第三任务链对象的步骤在第三合法性校验操作校验成功时才执行。
42、第二方面,本发明提供一种数据处理模型的生成方法,包括:
43、获取目标source模型,所述目标source模型选自所述source模型集或者根据用户自定义生成,所述source模型集包括若干source模型;
44、获取目标sink模型,所述目标sink模型选自所述sink模型集或者根据用户自定义生成,所述sink模型集包括若干sink模型;
45、将所述目标source模型和目标sink模型进行整合,以生成目标数据处理模型。
46、第三方面,本发明提供一种数据处理模型的生成系统,包括:
47、source模型获取模块,用于获取目标source模型,所述目标source模型选自所述source模型集或者根据用户自定义生成,所述source模型集包括若干source模型;
48、transform模型获取模块,用于获取目标transform模型,所述目标transform模型选自所述transform模型集或者根据用户自定义生成,所述transform模型集包括若干transform模型;
49、sink模型获取模块,用于获取目标sink模型,所述目标sink模型选自所述sink模型集或者根据用户自定义生成,所述sink模型集包括若干sink模型;
50、整合模块,用于将所述目标source模型、目标transform模型和目标sink模型进行整合,以生成目标数据处理模型。
51、第四方面,本发明提供一种数据处理模型的生成系统,包括:
52、source模型获取模块,用于获取目标source模型,所述目标source模型选自所述source模型集或者根据用户自定义生成,所述source模型集包括若干source模型;
53、sink模型获取模块,用于获取目标sink模型,所述目标sink模型选自所述sink模型集或者根据用户自定义生成,所述sink模型集包括若干sink模型;
54、整合模块,用于将所述目标source模型和目标sink模型进行整合,以生成目标数据处理模型。
55、第五方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如前所述的数据处理模型的生成方法的步骤。
56、第六方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如前所述的数据处理模型的生成方法的步骤。
57、本发明设置了source模型集、transform模型集和sink模型集,三个模型集中的模型可以自由组合及重复利用,当各模型集中的模型足够多时,对于大部分的数据处理模型的逻辑开发,用户可以直接从三个模型集中分别选择目标source模型、目标transform模型和目标sink模型组合生成,实现了数据处理模型的快速开发,并解决了数据处理模型的代码重复开发问题,缩短了开发周期。此外,用户还可以根据实际需要自定义source模型、transform模型和sink模型,能够满足用户的个性化需求。