一种基于webspoon的数据处理任务分布式调度方法和装置与流程

文档序号：34411478发布日期：2023-06-08 16:19阅读：67来源：国知局

本发明涉及数据处理及任务调度，具体地说是一种基于webspoon的数据处理任务分布式调度方法和装置。

背景技术：

1、数据处理是数据治理平台的基本环节，贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度，极大地影响了人类社会发展的进程。

2、数据(data)是对事实、概念或指令的一种表达形式，可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后，便成为信息。数据处理(data processing)是对数据的采集、存储、检索、加工、变换和传输。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。

3、传统的数据处理工具无法高性能、高可靠的实现大数据批式处理任务执行、可视化监控与日志分析。

技术实现思路

1、本发明的技术任务是针对以上不足之处，提供一种基于webspoon的数据处理任务分布式调度方法和装置，有效的提高了数据处理任务的运行效率及任务分布并发的灵活性，降低了调度中心，执行器与设计工作台的强依赖性，进而实现了系统的稳定与高可用；处理任务的统一管理与监控，极大的提高了运维人员及数据开发工作者的响应效率，进而提高了数据处理系统的数据准确性。

2、本发明解决其技术问题所采用的技术方案是：

3、一种基于webspoon的数据处理任务分布式调度方法，将数据处理etl工具web版脚本设计与分布式任务调度中心xxl-job相结合实现大数据量、分布式数据处理技术，包括数据处理脚本在线设计，分布式调度任务构建、任务执行策略的配置、执行器运行、可视化监控及日志分析。

4、该方法解决数据处理任务的回溯，跟踪，监控与分布式任务调度问题，将处理脚本设计器，任务调度中心与任务执行器抽离，支持分布式部署，保证了不同量级数据规模的处理效率与稳定；能够有效提高数据处理任务的运行效率及任务分布并发的灵活性，降低了调度中心，执行器与设计工作台的强依赖性，进而实现了系统的稳定与高可用；处理任务的统一管理与监控，极大的提高了运维人员及数据开发工作者的响应效率，进而提高了数据处理系统的数据准确性。

5、优选的，所述将数据处理etl工具web版脚本设计与分布式任务调度中心xxl-job相结合，将单机客户端版kettle工具的web升级版web spoon的quartz任务调度，迁移至xxl-job中调度，实现integration-executor处理任务的执行，同时将executor注册到统一配置注册中心nacos中，统一调度中心配置，统一数据源配置；依据任务量及数据量灵活扩展执行器节点。

6、kettle是一款最早开源的etl工具，全称为kde extraction,transportation,transformation and loading environment，纯java编写，绿色无需安装，数据抽取高效稳定。pentaho data integration以java开发，支持跨平台运行，其特性包括：支持100％无编码、拖拽方式开发etl数据管道；可对接包括传统数据库、文件、大数据平台、接口、流数据等数据源；支持etl数据管道加入机器学习算法。但传统的kettle是客户端单机版的etl工具，无法支持多任务并发，分布式调度的场景；对定时任务运行能力较弱，对历史处理任务无法追踪和回溯。

7、xxl-job是一个分布式任务调度平台，其核心设计目标是开发迅速、学习简单、轻量级、易扩展。支持分布式集群部署，执行器节点动态扩展，路由策略，阻塞策略设置及日志预览等。

8、优选的，所述数据处理任务分布式调度是基于分布式任务调度工具xxl-job将批式数据处理kettle任务脚本进行分布式任务调度，任务执行器统一由调度中心进行调度，共享资源、均衡利用、高效稳定，支持超时重连、阻塞处理、任务回调，实时日志的查看，提供任务运行监控与明细；

9、基于webspoon的图形化、拖拽式脚本设计，kettle api的调用执行，xxl-job的调度中心，三端合一实现分布式多任务并行，低耦合，高性能的数据处理。

10、进一步的，所述数据处理任务分布式调度包括web spoon脚本设计器、数据处理服务和分布式任务调度中心，

11、web spoon脚本设计器用于创建脚本配置库(即脚本存放的数据库)，在线设计处理脚本；

12、数据处理服务用于构建任务；

13、分布式任务调度中心根据执行策略cron表达式唤起任务执行，根据路由策略调度执行器集群，创建任务运行线程执行具体任务，任务执行后，写回调度日志，进行分支分析，展示任务监控信息。

14、进一步的，数据处理服务与webspoon-kettle脚本设计器共用配置库鉴权xml配置文件，将脚本设计工作台设计的脚本存放于配置库，数据处理服务构建任务，调用调度中心，数据处理执行器集群处理数据，分析log日志统计执行结果，实现批式数据处理任务调度。

15、进一步的，由数据处理服务integration触发xxl-job任务调度中心，任务调度中心调起执行器集群integration-executor，分层次展示批式数据处理任务的调度关系。

16、优选的，所述可视化监控及日志分析，以任务为维度可视化展示任务运行情况监控，包含任务执行记录，执行结果，自动打印执行日志；

17、基于日志channel获取日志流，实时展示运行日志；智能化解析日志获取处理数据量，展示脚本节点详情，自动提取日志信息组件处理获取处理内容，例表输出-完成处理(i＝0,o＝4,r＝4,w＝4,u＝0,e＝0)，可视化展示日志节点详情，并调用feign接口回传数据处理服务，实现可视化监控与日志分析。

18、本发明还要求保护一种基于webspoon的数据处理任务分布式调度装置，该装置将数据处理etl工具web版脚本设计与分布式任务调度中心xxl-job相结合实现大数据量、分布式数据处理技术，包括数据处理脚本在线设计，分布式调度任务构建、任务执行策略的配置、执行器运行、可视化监控及日志分析部分；

19、该装置实现上述的基于webspoon的数据处理任务分布式调度方法。

20、进一步的，该装置提前安装java环境，获取xxl-job调度中心，扩展调度中心http接口，支持外部微服务调用，包含任务构建、启停、执行一次等；传输过程使用aes加密算法对用户信息加密，加固用户鉴权；改造xxl-job-admin程序架构，将服务注册到nacos上，使用nacos作为统一配置与注册中心；修改yml文件敏感信息为密文(使用jasypt敏感信息加密)，如数据库密码，redis密码等；创建xxl-job数据库，支持mariadb，mysql等。

21、进一步的，该装置提前部署web版pentaho web spoon，并配置nginx代理地址与所使用的业务系统在统一域；数据处理服务添加生成含加密用户信息的处理脚本链接，方便业务系统关联跳转与脚本设计，支持通过接口api同步设计工作台与数据处理服务的脚本与脚本创建。

22、本发明的一种基于webspoon的数据处理任务分布式调度方法和装置与现有技术相比，具有以下有益效果：

23、本方法能够解决传统的数据处理工具无法高性能、高可靠的实现大数据批式处理任务执行、可视化监控与日志分析的问题。使用本方法的技术思路可实现数据处理任务的分布式调度，解决大数据、高并发的业务场景下数据处理任务，保证了不同量级数据规模的处理效率与稳定，提升数据价值，帮助人们精准分析，智能化提取。

24、本装置可作为微服务独立运行，支持分布式部署集群，可灵活扩展执行器节点，提高大数据处理的效率。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：司衍芹张连超陈绪光
技术所有人：浪潮软件股份有限公司
我是此专利的发明人

上一篇：一种具有增强接口的输送带的制作方法
上一篇：一种快速冷却装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。