离线数据延迟的处理的方法与流程

文档序号:34894584发布日期:2023-07-25 20:31阅读:48来源:国知局
离线数据延迟的处理的方法与流程

本发明涉及大数据,具体涉及一种离线数据延迟的处理。


背景技术:

1、离线数据开发是大数据产业中重要的一环,离线数据开发的主要任务就是周期性的将实时产生的数据进行清洗、计算、落地,为数据大屏、bi报表提供数据支撑,便于用户快速发现生产问题、辅助业务决策。当前各大企业都在积极建设自己的“离线数据开发平台”,供专业的数据开发人员高效开发离线数据处理任务。

2、数据开发人员在进行离线数据开发过程中,需要对接上游业务系统通过数据同步方式周期性抽取过来的已存放在数据仓库中的dw层(data warehouse,数据仓库层)或dim层(dimension,公共维度汇总层)数据,接着基于对这些上游基础数据周期性的清洗、汇总产生轻度汇总数据,并将此类数据存入数据仓库中的dm层,再基于对这些宽表数据周期性进行关联计算,产生业务指标数据,并将数据存放在数据仓库中的st层(数据应用层)。

3、在一个完整的离线数据处理链路中,各个环节任务运行的时效性对于整个离线数据的开发就显示至关重要,因为整个离线数据处理链路是周期性运行的,链路内部各个环节又依赖上游环节执行完成后才能开始运行,一旦中间某个某个环节的数据处理效率下降且未按预定时间处理完成,将会直接导致后续环节任务的堆积,从而引发下游的报表将不能有效的展示出正确的数据。当发生此类问题时,就需要离线数据开发人员快速分析并排查确认引起该任务处理延迟的关键节点和原因,有针对性的进行处理,保障每个环节任务持续地稳定运行。

4、但是,相关技术中并没有一个方法可以快速查找数据延迟原因的技术方案。因此,如何确定离线数据延迟的原因是现有技术中亟待解决的技术问题。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种离线数据延迟的处理方法。

2、为实现以上目的,本发明采用如下技术方案:

3、一种离线数据延迟的处理方法,包括:

4、基于第一时间信息,在数据库中获取任务运行数据的当前运行时间和对应的截止时间的差值大于差值阈值的任务运行数据,作为目标任务运行数据;

5、确定所述目标任务运行数据对应的任务的所有上层依赖任务,并获取所述所有上层依赖任务的运行结束时间;

6、在所有运行结束时间中确定时间最晚的运行结束时间,并确定所述时间最晚的运行结束时间对应的任务为关键节点;

7、依次将当前的所述关键节点作为所述目标任务运行数据对应的任务,轮询确定下一个关键节点,直至最后确定的关键节点没有长层依赖任务;

8、计算所有所述关键节点的运行结束时间均值,确定运行结束时间晚于所述均值的所述关键节点为延迟关键节点,并将所述延迟关键节点及对应的上层依赖任务作为延迟信息。

9、可选的,还包括:

10、基于第二时间信息,在数据库中获取每个任务的任务运行数据,所述任务运行数据包括与所述任务相对应的时间信息,作为当前运行时间;

11、通过用户设置的截止时间,计算每个任务的当前运行时间和对应的截止时间的差值;

12、在任一所述差值大于差值阈值时,发送延迟警告,以使用户对延迟原因进行排查和处理;

13、将差值大于差值阈值的差值对应的任务运行数据存储入数据库中。

14、可选的,还包括:

15、响应于截止时间设置指令,设置所述截止时间;

16、其中,每个任务对应一个截止时间。

17、可选的,第一时间信息,包括:预先设定的时刻或预设频率。

18、可选的,所述计算所有所述关键节点的运行结束时间均值,确定运行结束时间晚于所述均值的所述关键节点为延迟关键节点,包括:

19、按照所述关键节点的确定顺序,将所有所述关键节点组成任务链路;

20、计算所有所述关键节点的运行结束时间均值,根据所述任务链路确定运行结束时间晚于所述均值的所述关键节点为延迟关键节点。

21、可选的,所述差值阈值为0。

22、本发明提供的技术方案至少具备如下有益效果:

23、预先计算任务运行数据的当前运行时间和截止时间的差值,确定差值大于差值阈值的任务;将差值大于差值阈值的任务存在数据库中,以供调用;在调用得到任务的任务运行数据后,确定任务的所有上层依赖任务的运行结束时间;在所有运行结束时间中确定时间最晚的运行结束时间,并确定时间最晚的运行结束时间对应的任务为关键节点;在确定得到关键节点后,以该关键节点为基准,再次进行上层依赖任务的运行时间查阅,得到时间最晚的运行结束时间对应的任务为下一个关键节点,以此类推,直至最后的关键节点没有长层依赖任务,最后确定运行结束时间晚于运行技术时间均值的关键点及对应的上层依赖任务作为延迟信息,以使用户根据该延迟信息进行查阅和维护。



技术特征:

1.一种离线数据延迟的处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,还包括:

3.根据权利要求1所述的方法,其特征在于,还包括:

4.根据权利要求1所述的方法,其特征在于,第一时间信息,包括:预先设定的时刻或预设频率。

5.根据权利要求1所述的方法,其特征在于,所述计算所有所述关键节点的运行结束时间均值,确定运行结束时间晚于所述均值的所述关键节点为延迟关键节点,包括:

6.根据权利要求2所述的方法,其特征在于,所述差值阈值为0。


技术总结
本发明涉及一种离线数据延迟的处理方法,属于大数据技术领域。该方法在调用得到任务的任务运行数据后,确定任务的所有上层依赖任务的运行结束时间;在所有运行结束时间中确定时间最晚的运行结束时间,并确定时间最晚的运行结束时间对应的任务为关键节点;在确定得到关键节点后,以该关键节点为基准,再次进行上层依赖任务的运行时间查阅,得到时间最晚的运行结束时间对应的任务为下一个关键节点,以此类推,直至最后的关键节点没有长层依赖任务,最后确定运行结束时间晚于运行技术时间均值的关键点及对应的上层依赖任务作为延迟信息,以使用户根据该延迟信息进行查阅和维护。

技术研发人员:徐志阳
受保护的技术使用者:上海中通吉网络技术有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1