一种基于webspoon的数据处理任务分布式调度方法和装置与流程

文档序号:34411478发布日期:2023-06-08 16:19阅读:59来源:国知局
一种基于webspoon的数据处理任务分布式调度方法和装置与流程

本发明涉及数据处理及任务调度,具体地说是一种基于webspoon的数据处理任务分布式调度方法和装置。


背景技术:

1、数据处理是数据治理平台的基本环节,贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响了人类社会发展的进程。

2、数据(data)是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后,便成为信息。数据处理(data processing)是对数据的采集、存储、检索、加工、变换和传输。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。

3、传统的数据处理工具无法高性能、高可靠的实现大数据批式处理任务执行、可视化监控与日志分析。


技术实现思路

1、本发明的技术任务是针对以上不足之处,提供一种基于webspoon的数据处理任务分布式调度方法和装置,有效的提高了数据处理任务的运行效率及任务分布并发的灵活性,降低了调度中心,执行器与设计工作台的强依赖性,进而实现了系统的稳定与高可用;处理任务的统一管理与监控,极大的提高了运维人员及数据开发工作者的响应效率,进而提高了数据处理系统的数据准确性。

2、本发明解决其技术问题所采用的技术方案是:

3、一种基于webspoon的数据处理任务分布式调度方法,将数据处理etl工具web版脚本设计与分布式任务调度中心xxl-job相结合实现大数据量、分布式数据处理技术,包括数据处理脚本在线设计,分布式调度任务构建、任务执行策略的配置、执行器运行、可视化监控及日志分析。

4、该方法解决数据处理任务的回溯,跟踪,监控与分布式任务调度问题,将处理脚本设计器,任务调度中心与任务执行器抽离,支持分布式部署,保证了不同量级数据规模的处理效率与稳定;能够有效提高数据处理任务的运行效率及任务分布并发的灵活性,降低了调度中心,执行器与设计工作台的强依赖性,进而实现了系统的稳定与高可用;处理任务的统一管理与监控,极大的提高了运维人员及数据开发工作者的响应效率,进而提高了数据处理系统的数据准确性。

5、优选的,所述将数据处理etl工具web版脚本设计与分布式任务调度中心xxl-job相结合,将单机客户端版kettle工具的web升级版web spoon的quartz任务调度,迁移至xxl-job中调度,实现integration-executor处理任务的执行,同时将executor注册到统一配置注册中心nacos中,统一调度中心配置,统一数据源配置;依据任务量及数据量灵活扩展执行器节点。

6、kettle是一款最早开源的etl工具,全称为kde extraction,transportation,transformation and loading environment,纯java编写,绿色无需安装,数据抽取高效稳定。pentaho data integration以java开发,支持跨平台运行,其特性包括:支持100%无编码、拖拽方式开发etl数据管道;可对接包括传统数据库、文件、大数据平台、接口、流数据等数据源;支持etl数据管道加入机器学习算法。但传统的kettle是客户端单机版的etl工具,无法支持多任务并发,分布式调度的场景;对定时任务运行能力较弱,对历史处理任务无法追踪和回溯。

7、xxl-job是一个分布式任务调度平台,其核心设计目标是开发迅速、学习简单、轻量级、易扩展。支持分布式集群部署,执行器节点动态扩展,路由策略,阻塞策略设置及日志预览等。

8、优选的,所述数据处理任务分布式调度是基于分布式任务调度工具xxl-job将批式数据处理kettle任务脚本进行分布式任务调度,任务执行器统一由调度中心进行调度,共享资源、均衡利用、高效稳定,支持超时重连、阻塞处理、任务回调,实时日志的查看,提供任务运行监控与明细;

9、基于webspoon的图形化、拖拽式脚本设计,kettle api的调用执行,xxl-job的调度中心,三端合一实现分布式多任务并行,低耦合,高性能的数据处理。

10、进一步的,所述数据处理任务分布式调度包括web spoon脚本设计器、数据处理服务和分布式任务调度中心,

11、web spoon脚本设计器用于创建脚本配置库(即脚本存放的数据库),在线设计处理脚本;

12、数据处理服务用于构建任务;

13、分布式任务调度中心根据执行策略cron表达式唤起任务执行,根据路由策略调度执行器集群,创建任务运行线程执行具体任务,任务执行后,写回调度日志,进行分支分析,展示任务监控信息。

14、进一步的,数据处理服务与webspoon-kettle脚本设计器共用配置库鉴权xml配置文件,将脚本设计工作台设计的脚本存放于配置库,数据处理服务构建任务,调用调度中心,数据处理执行器集群处理数据,分析log日志统计执行结果,实现批式数据处理任务调度。

15、进一步的,由数据处理服务integration触发xxl-job任务调度中心,任务调度中心调起执行器集群integration-executor,分层次展示批式数据处理任务的调度关系。

16、优选的,所述可视化监控及日志分析,以任务为维度可视化展示任务运行情况监控,包含任务执行记录,执行结果,自动打印执行日志;

17、基于日志channel获取日志流,实时展示运行日志;智能化解析日志获取处理数据量,展示脚本节点详情,自动提取日志信息组件处理获取处理内容,例表输出-完成处理(i=0,o=4,r=4,w=4,u=0,e=0),可视化展示日志节点详情,并调用feign接口回传数据处理服务,实现可视化监控与日志分析。

18、本发明还要求保护一种基于webspoon的数据处理任务分布式调度装置,该装置将数据处理etl工具web版脚本设计与分布式任务调度中心xxl-job相结合实现大数据量、分布式数据处理技术,包括数据处理脚本在线设计,分布式调度任务构建、任务执行策略的配置、执行器运行、可视化监控及日志分析部分;

19、该装置实现上述的基于webspoon的数据处理任务分布式调度方法。

20、进一步的,该装置提前安装java环境,获取xxl-job调度中心,扩展调度中心http接口,支持外部微服务调用,包含任务构建、启停、执行一次等;传输过程使用aes加密算法对用户信息加密,加固用户鉴权;改造xxl-job-admin程序架构,将服务注册到nacos上,使用nacos作为统一配置与注册中心;修改yml文件敏感信息为密文(使用jasypt敏感信息加密),如数据库密码,redis密码等;创建xxl-job数据库,支持mariadb,mysql等。

21、进一步的,该装置提前部署web版pentaho web spoon,并配置nginx代理地址与所使用的业务系统在统一域;数据处理服务添加生成含加密用户信息的处理脚本链接,方便业务系统关联跳转与脚本设计,支持通过接口api同步设计工作台与数据处理服务的脚本与脚本创建。

22、本发明的一种基于webspoon的数据处理任务分布式调度方法和装置与现有技术相比,具有以下有益效果:

23、本方法能够解决传统的数据处理工具无法高性能、高可靠的实现大数据批式处理任务执行、可视化监控与日志分析的问题。使用本方法的技术思路可实现数据处理任务的分布式调度,解决大数据、高并发的业务场景下数据处理任务,保证了不同量级数据规模的处理效率与稳定,提升数据价值,帮助人们精准分析,智能化提取。

24、本装置可作为微服务独立运行,支持分布式部署集群,可灵活扩展执行器节点,提高大数据处理的效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1