一种容器编码调度引擎上Flink的健康监测方法和装置与流程

文档序号:32814099发布日期:2023-01-04 02:56阅读:160来源:国知局
一种容器编码调度引擎上Flink的健康监测方法和装置与流程
一种容器编码调度引擎上flink的健康监测方法和装置
技术领域
1.本发明涉及流式计算技术领域,尤其涉及一种容器编码调度引擎上flink的健康监测方法和装置。


背景技术:

2.随着大数据技术的蓬勃发展,业务对实时性要求的提高,越来越多的业务开始利用实时计算加速业务的发展。
3.flink(一种开源流处理框架,其核心是用java和scala编写的分布式流数据流引擎)具备高吞吐、低延迟、容错性好的特性。云原生是一种构建和运行应用程序的方法,是一套技术体系和方法论。云原生(cloudnative)是一个组合词,cloud+native。cloud表示应用程序位于云中,而不是传统的数据中心;native表示应用程序从设计之初即考虑到云的环境,原生为云而设计,在云上以最佳姿势运行,充分利用和发挥云平台的弹性+分布式优势。kubernetes(容器编码调度引擎,简称k8s)是用于自动部署,扩展和管理容器化应用程序的开源系统。
4.基于flink和k8s构成的实时计算云原生容器化的部署模式,是当前研究的重点方向。
5.相关技术中,由于flink容器化之后无法检测到容器内的业务进程状态,因此无法在业务进程异常退出或者hang的时候及时发现,并进行维护处理,导致执行业务处理时故障恢复耗时较长,flink的计算效率较低,还影响了开源系统的系统稳定性和可用性,用户体验较差。


技术实现要素:

6.有鉴于此,本发明实施例提供一种容器编码调度引擎上flink的健康监测方法和装置,能够在flink容器化后,通过flink节点的心跳时间戳来判断flink的健康状态,降低了故障恢复所需时长,提高了flink的计算效率,提高了开源系统的系统稳定性和可用性,提升了用户体验。
7.为实现上述目的,根据本发明实施例的一个方面,提供了一种容器编码调度引擎上flink的健康监测方法,包括:
8.将flink部署在容器编码调度引擎上,以实现flink容器化;
9.利用flink的主节点接收flink业务,调度flink的从节点创建业务进程,以对flink业务进行处理,并在业务进程的处理过程中,定时向主节点和从节点分别对应的心跳文件中写入心跳时间戳;
10.通过容器编码调度引擎上的健康监测探针调用健康监测脚本,查询业务进程对应的心跳文件,根据心跳文件中的心跳时间戳和当前时间,确定flink的健康状态。
11.进一步地,在通过容器编码调度引擎上的健康监测探针调用健康监测脚本,查询业务进程对应的心跳文件的步骤之前,方法还包括:
12.调用健康监测脚本,根据业务进程名称判断业务进程是否存在;
13.若业务进程不存在,则确定flink的健康状态为存在故障,重启容器编码调度引擎。
14.进一步地,在利用flink的主节点接收flink业务,调度flink的从节点创建业务进程,以对flink业务进行处理的步骤之前,方法还包括:
15.在flink的主节点和从节点中分别添加定时装置,定时装置用于在业务进程的处理过程中,定时向相应节点的心跳文件中写入心跳时间戳。
16.进一步地,在将flink部署在容器编码调度引擎上,以实现flink容器化的步骤之前,方法还包括:
17.在容器编码调度引擎中配置健康监测探针。
18.进一步地,根据心跳文件中的心跳时间戳和当前时间,确定flink的健康状态的步骤包括:
19.若任一心跳时间戳与当前时间之间的时间间隔超过预设时间阈值,则确定flink的健康状态为存在故障,重启容器编码调度引擎;
20.若心跳时间戳与当前时间之间的时间间隔均不超过预设时间阈值,则确定flink的健康状态为不存在故障,继续对flink业务进行处理。
21.进一步地,在将flink部署在容器编码调度引擎上,以实现flink容器化的步骤之后,方法还包括:
22.在容器编码调度引擎中配置临时文件系统,临时文件系统用于存储主节点和从节点分别对应的心跳文件。
23.根据本发明实施例的又一个方面,提供了一种容器编码调度引擎上flink的健康监测装置,包括:
24.flink容器化模块,用于将flink部署在容器编码调度引擎上,以实现flink容器化;
25.业务处理模块,用于利用flink的主节点接收flink业务,调度flink的从节点创建业务进程,以对flink业务进行处理,并在业务进程的处理过程中,定时向主节点和从节点分别对应的心跳文件中写入心跳时间戳;
26.健康监测模块,用于通过容器编码调度引擎上的健康监测探针调用健康监测脚本,查询业务进程对应的心跳文件,根据心跳文件中的心跳时间戳和当前时间,确定flink的健康状态。
27.进一步地,在通过容器编码调度引擎上的健康监测探针调用健康监测脚本,查询业务进程对应的心跳文件的步骤之前,健康监测模块还用于:
28.调用健康监测脚本,根据业务进程名称判断业务进程是否存在;
29.若业务进程不存在,则flink的健康状态为存在故障,重启容器编码调度引擎。
30.根据本发明实施例的另一个方面,提供了一种健康监测的电子设备,包括:
31.一个或多个处理器;
32.存储装置,用于存储一个或多个程序,
33.当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述任一种容器编码调度引擎上flink的健康监测方法。
34.根据本发明实施例的再一个方面,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述任一种容器编码调度引擎上flink的健康监测方法。
35.上述发明中的一个实施例具有如下优点或有益效果:因为采用将flink部署在容器编码调度引擎上,以实现flink容器化;利用flink的主节点接收flink业务,调度flink的从节点创建业务进程,以对flink业务进行处理,并在业务进程的处理过程中,定时向主节点和从节点分别对应的心跳文件中写入心跳时间戳;通过容器编码调度引擎上的健康监测探针调用健康监测脚本,查询业务进程对应的心跳文件,根据心跳文件中的心跳时间戳和当前时间,确定flink的健康状态的技术手段,所以克服了相关技术中,由于flink容器化之后无法检测到容器内的业务进程状态,因此无法在业务进程异常退出或者hang的时候及时发现,并进行维护处理,导致执行业务处理时故障恢复耗时较长,flink的计算效率较低,还影响了开源系统的系统稳定性和可用性,用户体验较差的技术问题,进而达到能够在flink容器化后,通过flink节点的心跳时间戳来判断flink的健康状态,降低了故障恢复所需时长,提高了flink的计算效率,提高了开源系统的系统稳定性和可用性,提升了用户体验的技术效果。
36.上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
37.附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
38.图1是根据本发明一个实施例提供的容器编码调度引擎上flink的健康监测方法的主要流程的示意图;
39.图2是根据本发明又一个实施例提供的容器编码调度引擎上flink的健康监测方法的主要流程的示意图;
40.图3是根据本发明实施例提供的容器编码调度引擎上flink的健康监测装置的主要模块的示意图;
41.图4是本发明实施例可以应用于其中的示例性系统架构图;
42.图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
43.以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
44.图1是根据本发明一个实施例提供的容器编码调度引擎上flink的健康监测方法的主要流程的示意图;如图1所示,本发明实施例提供的容器编码调度引擎上flink的健康监测方法主要包括:
45.步骤s101,将flink部署在容器编码调度引擎上,以实现flink容器化。
46.其中,flink(一种开源流处理框架,其核心是用java和scala编写的分布式流数据流引擎)具备高吞吐、低延迟、容错性好的特性。容器编码调度引擎为kubernetes(容器编码调度引擎,简称k8s)是用于自动部署,扩展和管理容器化应用程序的开源系统。可采用任一现有方法将flink部署在k8s上,实现flink的容器化,受益于k8s丰富的生态系统,可以处理更多的资源,实现与网络的隔离性和安全性,适用于多租户的场景,且能够更好地与online service(互联网服务)进行混合部署,提升flink集群的利用率。
47.步骤s102,利用flink的主节点接收flink业务,调度flink的从节点创建业务进程,以对flink业务进行处理,并在业务进程的处理过程中,定时向主节点和从节点分别对应的心跳文件中写入心跳时间戳。
48.具体地,flink的主节点是指jobmanager(又称管理节点),用于负责整个flink集群任务的调度以及资源的管理。flink的从节点是指taskmanager(又称执行节点),用于负责具体的任务执行和对应任务在每个节点上的资源申请和管理。在进程启动时,可根据配置的时间间隔(定时)分别向主节点对应的心跳文件(job.ts)和从节点对应的心跳文件(task.ts)中写入心跳时间戳。
49.客户端通过将编写好的flink应用编译打包,提交到jobmanager,然后jobmanager会根据已注册在jobmanager中taskmanager的资源情况,将业务分配给有资源的taskmanager节点,然后启动并运行业务。taskmanager从jobmanager接收需要部署的业务,然后使用slot资源启动task,建立数据接入的网络连接,接收数据并开始数据处理,同时taskmanager之间的数据交互都是通过数据流的方式进行的。jobmanager和taskmanager之间通过actor system进行通信,获取业务执行的情况并通过actor system将应用的业务执行情况发送给客户端。同时在业务执行的过程中,flink jobmanager会触发checkpoint操作,每个taskmanager节点收到checkpoint触发指令后,完成checkpoint操作,所有的checkpoint协调过程都是在flink jobmanager中完成。当业务完成后,flink会将业务执行的信息反馈给客户端,并且释放掉taskmanager中的资源以供下一次提交业务使用。
50.进一步地,根据本发明实施例,在利用flink的主节点接收flink业务,调度flink的从节点创建业务进程,以对flink业务进行处理的步骤之前,上述方法还包括:
51.在flink的主节点和从节点中分别添加定时装置,定时装置用于在业务进程的处理过程中,定时向相应节点的心跳文件中写入心跳时间戳。
52.由于flink容器化后无法检测到容器内业务进程的状态,因此,无法根据业务进程的状态判断flink的健康状态。通过上述设置,在flink的主节点和从节点中分别添加定时装置,可以在业务进程的处理过程中,通过该定时装置分别向主节点的心跳文件、从节点的心跳文件写入心跳时间戳,以便于后续根据心跳文件中的心跳时间戳与当前时刻进行比对,进而确定flink的健康状态,以及时发现故障并进行维护。
53.优选地,根据本发明实施例,在将flink部署在容器编码调度引擎上,以实现flink容器化的步骤之后,上述方法还包括:
54.在容器编码调度引擎中配置临时文件系统,临时文件系统用于存储主节点和从节点分别对应的心跳文件。
55.优选地,采用tmpfs(temporary filesystem,临时文件系统),是一种基于内存的文件系统,tmpfs具备下列几个特点:临时性(由于tmpfs是构建在内存中的,所以存放在
tmpfs中的所有数据在卸载或断电后都会丢失)、快速读写能力(内存的访问速度要远快于磁盘i/o操作,即使使用了swap,性能仍然非常卓越)、以及动态收缩(tmpfs一开始使用很小的空间,但随着文件的复制和创建,tmpfs文件系统会分配更多的内存,并按照需求动态地增加文件系统的空间。而且,当tmpfs中的文件被删除时,tmpfs文件系统会动态地减小文件并释放内存资源)。将心跳文件写入挂载tmpfs的路径下,有助于避免由于磁盘io繁忙导致写超时,进而误判健康状态,误杀业务进程的情形,进一步地保障了开源系统的稳定性和可用性。
56.步骤s103,通过容器编码调度引擎上的健康监测探针调用健康监测脚本,查询业务进程对应的心跳文件,根据心跳文件中的心跳时间戳和当前时间,确定flink的健康状态。
57.具体地,在无法直接获取容器内的进程状态的情况下,flink的主节点和从节点中配置的、用于在业务进程的处理过程中,定时向相应节点的心跳文件中写入心跳时间戳的定时装置是关于flink集群稳定性的定时器,再结合k8s上健康监测探针,调用健康监测脚本获取心跳文件中写入的心跳时间戳,与当前时间进行比对,可以确定flink的健康状态,降低了故障恢复所需时长,提高了flink的计算效率。
58.具体地,根据本发明实施例,在将flink部署在容器编码调度引擎上,以实现flink容器化的步骤之前,上述方法还包括:
59.在容器编码调度引擎中配置健康监测探针。
60.具体地,可配置检测检测探针调用健康监测脚本的周期,如30s调用一次,上述数值并不作为对本发明的限制,可根据实际情况对该周期的数值进行调整。
61.进一步地,根据本发明实施例,在通过容器编码调度引擎上的健康监测探针调用健康监测脚本,查询业务进程对应的心跳文件的步骤之前,上述方法还包括:
62.调用健康监测脚本,根据业务进程名称判断业务进程是否存在;
63.若业务进程不存在,则确定flink的健康状态为存在故障,重启容器编码调度引擎。
64.通过上述设置,调用健康监测脚本之后,优先判断业务进程是否存在,作为确定flink的健康状态的一个条件,一方面,若业务进程不存在,可以快速确定flink存在故障;若业务进程存在,则可根据业务进程名称快速查询到相应的心跳文件。
65.优选地,根据本发明实施例,上述根据心跳文件中的心跳时间戳和当前时间,确定flink的健康状态的步骤包括:
66.若任一心跳时间戳与当前时间之间的时间间隔超过预设时间阈值,则确定flink的健康状态为存在故障,重启容器编码调度引擎;
67.若心跳时间戳与当前时间之间的时间间隔均不超过预设时间阈值,则确定flink的健康状态为不存在故障,继续对flink业务进行处理。
68.通过上述设置,能够在flink容器化后,通过flink节点的心跳时间戳来判断flink的健康状态,降低了故障恢复所需时长,提高了flink的计算效率,提高了开源系统的系统稳定性和可用性,提升了用户体验。
69.根据本发明实施例的技术方案,因为采用将flink部署在容器编码调度引擎上,以实现flink容器化;利用flink的主节点接收flink业务,调度flink的从节点创建业务进程,
以对flink业务进行处理,并在业务进程的处理过程中,定时向主节点和从节点分别对应的心跳文件中写入心跳时间戳;通过容器编码调度引擎上的健康监测探针调用健康监测脚本,查询业务进程对应的心跳文件,根据心跳文件中的心跳时间戳和当前时间,确定flink的健康状态的技术手段,所以克服了相关技术中,由于flink容器化之后无法检测到容器内的业务进程状态,因此无法在业务进程异常退出或者hang的时候及时发现,并进行维护处理,导致执行业务处理时故障恢复耗时较长,flink的计算效率较低,还影响了开源系统的系统稳定性和可用性,用户体验较差的技术问题,进而达到能够在flink容器化后,通过flink节点的心跳时间戳来判断flink的健康状态,降低了故障恢复所需时长,提高了flink的计算效率,提高了开源系统的系统稳定性和可用性,提升了用户体验的技术效果。
70.图2是根据本发明又一个实施例提供的容器编码调度引擎上flink的健康监测方法的主要流程的示意图;如图2所示,本发明实施例提供的容器编码调度引擎上flink的健康监测方法主要包括:
71.步骤s201,将flink部署在容器编码调度引擎上,以实现flink容器化。
72.具体地,可采用任一现有方法将flink部署在k8s上,实现flink的容器化,受益于k8s丰富的生态系统,可以处理更多的资源,实现与网络的隔离性和安全性,适用于多租户的场景,且能够更好地与online service(互联网服务)进行混合部署,提升flink集群的利用率。
73.步骤s202,在flink的主节点和从节点中分别添加定时装置,并在容器编码调度引擎中配置健康监测探针。
74.其中,定时装置用于在业务进程的处理过程中,定时向相应节点的心跳文件中写入心跳时间戳。由于flink容器化后无法检测到容器内业务进程的状态,因此,无法根据业务进程的状态判断flink的健康状态。通过上述设置,在flink的主节点和从节点中分别添加定时装置,可以在业务进程的处理过程中,通过该定时装置分别向主节点的心跳文件、从节点的心跳文件写入心跳时间戳,以便于后续根据心跳文件中的心跳时间戳与当前时刻进行比对,进而确定flink的健康状态,以及时发现故障并进行维护。还可以配置检测检测探针调用健康监测脚本的周期,如30s调用一次,上述数值并不作为对本发明的限制,可根据实际情况对该周期的数值进行调整。
75.步骤s203,利用flink的主节点接收flink业务,调度flink的从节点创建业务进程,以对flink业务进行处理,并在业务进程的处理过程中,定时装置定时向主节点和从节点分别对应的心跳文件中写入心跳时间戳。
76.具体地,flink的主节点是指jobmanager(又称管理节点),用于负责整个flink集群任务的调度以及资源的管理。flink的从节点是指taskmanager(又称执行节点),用于负责具体的任务执行和对应任务在每个节点上的资源申请和管理。jobmanager和taskmanager之间通过actor system进行通信,获取业务执行的情况并通过actor system将应用的业务执行情况发送给客户端。同时在业务执行的过程中,flink jobmanager会触发checkpoint操作,每个taskmanager节点收到checkpoint触发指令后,完成checkpoint操作,所有的checkpoint协调过程都是在flink jobmanager中完成。当业务完成后,flink会将业务执行的信息反馈给客户端,并且释放掉taskmanager中的资源以供下一次提交业务使用。
77.步骤s204,通过容器编码调度引擎上的健康监测探针调用健康监测脚本,根据业务进程名称判断业务进程是否存在。若否,即业务进程不存在,则执行步骤s205;若是,即业务进程存在,执行步骤s206。
78.通过上述设置,调用健康监测脚本之后,优先判断业务进程是否存在,作为确定flink的健康状态的一个条件,一方面,若业务进程不存在,可以快速确定flink存在故障;若业务进程存在,则可根据业务进程名称快速查询到相应的心跳文件。
79.步骤s205,确定flink的健康状态为存在故障,重启容器编码调度引擎。
80.通过及时重启容器编码调度引擎,使得容器化的flink重新开启中断业务进程的执行,降低了故障恢复所需时长,提高了flink的计算效率,提高了开源系统的系统稳定性和可用性。
81.步骤s206,查询业务进程对应的心跳文件,确定心跳文件中的心跳时间戳和当前时间的时间间隔。
82.步骤s207,若任一心跳时间戳与当前时间之间的时间间隔超过预设时间阈值,则确定flink的健康状态为存在故障,重启容器编码调度引擎;若心跳时间戳与当前时间之间的时间间隔均不超过预设时间阈值,则确定flink的健康状态为不存在故障,继续对flink业务进行处理。
83.通过上述设置,能够在flink容器化后,通过flink节点的心跳时间戳来判断flink的健康状态,降低了故障恢复所需时长,提高了flink的计算效率,提高了开源系统的系统稳定性和可用性,提升了用户体验。
84.根据本发明实施例的技术方案,因为采用将flink部署在容器编码调度引擎上,以实现flink容器化;利用flink的主节点接收flink业务,调度flink的从节点创建业务进程,以对flink业务进行处理,并在业务进程的处理过程中,定时向主节点和从节点分别对应的心跳文件中写入心跳时间戳;通过容器编码调度引擎上的健康监测探针调用健康监测脚本,查询业务进程对应的心跳文件,根据心跳文件中的心跳时间戳和当前时间,确定flink的健康状态的技术手段,所以克服了相关技术中,由于flink容器化之后无法检测到容器内的业务进程状态,因此无法在业务进程异常退出或者hang的时候及时发现,并进行维护处理,导致执行业务处理时故障恢复耗时较长,flink的计算效率较低,还影响了开源系统的系统稳定性和可用性,用户体验较差的技术问题,进而达到能够在flink容器化后,通过flink节点的心跳时间戳来判断flink的健康状态,降低了故障恢复所需时长,提高了flink的计算效率,提高了开源系统的系统稳定性和可用性,提升了用户体验的技术效果。
85.图3是根据本发明实施例提供的容器编码调度引擎上flink的健康监测装置的主要模块的示意图;如图3所示,本发明实施例提供的容器编码调度引擎上flink的健康监测装置300主要包括:
86.flink容器化模块301,用于将flink部署在容器编码调度引擎上,以实现flink容器化。
87.其中,可采用任一现有方法将flink部署在k8s上,实现flink的容器化,受益于k8s丰富的生态系统,可以处理更多的资源,实现与网络的隔离性和安全性,适用于多租户的场景,且能够更好地与online service(互联网服务)进行混合部署,提升flink集群的利用率。
88.业务处理模块302,用于利用flink的主节点接收flink业务,调度flink的从节点创建业务进程,以对flink业务进行处理,并在业务进程的处理过程中,定时向主节点和从节点分别对应的心跳文件中写入心跳时间戳。
89.具体地,客户端通过将编写好的flink应用编译打包,提交到jobmanager,然后jobmanager会根据已注册在jobmanager中taskmanager的资源情况,将业务分配给有资源的taskmanager节点,然后启动并运行业务。taskmanager从jobmanager接收需要部署的业务,然后使用slot资源启动task,建立数据接入的网络连接,接收数据并开始数据处理,同时taskmanager之间的数据交互都是通过数据流的方式进行的。jobmanager和taskmanager之间通过actor system进行通信,获取任务执行的情况并通过actor system将应用的业务执行情况发送给客户端。同时在业务执行的过程中,flink jobmanager会触发checkpoint操作,每个taskmanager节点收到checkpoint触发指令后,完成checkpoint操作,所有的checkpoint协调过程都是在flink jobmanager中完成。当业务完成后,flink会将业务执行的信息反馈给客户端,并且释放掉taskmanager中的资源以供下一次提交业务使用。
90.进一步地,根据本发明实施例,上述容器编码调度引擎上flink的健康监测装置300还包括定时装置添加模块,在利用flink的主节点接收flink业务,调度flink的从节点创建业务进程,以对flink业务进行处理的步骤之前,定时装置添加模块用于:
91.在flink的主节点和从节点中分别添加定时装置,定时装置用于在业务进程的处理过程中,定时向相应节点的心跳文件中写入心跳时间戳。
92.由于flink容器化后无法检测到容器内业务进程的状态,因此,无法根据业务进程的状态判断flink的健康状态。通过上述设置,在flink的主节点和从节点中分别添加定时装置,可以在业务进程的处理过程中,通过该定时装置分别向主节点的心跳文件、从节点的心跳文件写入心跳时间戳,以便于后续根据心跳文件中的心跳时间戳与当前时刻进行比对,进而确定flink的健康状态,以及时发现故障并进行维护。
93.优选地,根据本发明实施例,上述容器编码调度引擎上flink的健康监测装置300还包括临时文件系统配置模块,在将flink部署在容器编码调度引擎上,以实现flink容器化的步骤之后,上述临时文件系统配置模块用于:
94.在容器编码调度引擎中配置临时文件系统,临时文件系统用于存储主节点和从节点分别对应的心跳文件。
95.优选地,采用tmpfs(temporary filesystem,临时文件系统),是一种基于内存的文件系统,tmpfs具备下列几个特点:临时性(由于tmpfs是构建在内存中的,所以存放在tmpfs中的所有数据在卸载或断电后都会丢失)、快速读写能力(内存的访问速度要远快于磁盘i/o操作,即使使用了swap,性能仍然非常卓越)、以及动态收缩(tmpfs一开始使用很小的空间,但随着文件的复制和创建,tmpfs文件系统会分配更多的内存,并按照需求动态地增加文件系统的空间。而且,当tmpfs中的文件被删除时,tmpfs文件系统会动态地减小文件并释放内存资源)。将心跳文件写入挂载tmpfs的路径下,有助于避免由于磁盘io繁忙导致写超时,进而误判健康状态,误杀业务进程的情形,进一步地保障了开源系统的稳定性和可用性。
96.健康监测模块303,用于通过容器编码调度引擎上的健康监测探针调用健康监测脚本,查询业务进程对应的心跳文件,根据心跳文件中的心跳时间戳和当前时间,确定
flink的健康状态。
97.具体地,在无法直接获取容器内的进程状态的情况下,flink的主节点和从节点中配置的、用于在业务进程的处理过程中,定时向相应节点的心跳文件中写入心跳时间戳的定时装置是关于flink集群稳定性的定时器,再结合k8s上健康监测探针,调用健康监测脚本获取心跳文件中写入的心跳时间戳,与当前时间进行比对,可以确定flink的健康状态,降低了故障恢复所需时长,提高了flink的计算效率。
98.具体地,根据本发明实施例,上述容器编码调度引擎上flink的健康监测装置300还包括健康监测探针配置模块,在将flink部署在容器编码调度引擎上,以实现flink容器化的步骤之前,上述健康监测探针配置模块用于:
99.在容器编码调度引擎中配置健康监测探针。
100.具体地,可配置检测检测探针调用健康监测脚本的周期,如30s调用一次,上述数值并不作为对本发明的限制,可根据实际情况对该周期的数值进行调整。
101.进一步地,根据本发明实施例,在通过容器编码调度引擎上的健康监测探针调用健康监测脚本,查询业务进程对应的心跳文件的步骤之前,上述健康监测模块303还用于:
102.调用健康监测脚本,根据业务进程名称判断业务进程是否存在;
103.若业务进程不存在,则确定flink的健康状态为存在故障,重启容器编码调度引擎。
104.通过上述设置,调用健康监测脚本之后,优先判断业务进程是否存在,作为确定flink的健康状态的一个条件,一方面,若业务进程不存在,可以快速确定flink存在故障;若业务进程存在,则可根据业务进程名称快速查询到相应的心跳文件。
105.优选地,根据本发明实施例,上述健康监测模块303用于:
106.若任一心跳时间戳与当前时间之间的时间间隔超过预设时间阈值,则确定flink的健康状态为存在故障,重启容器编码调度引擎;
107.若心跳时间戳与当前时间之间的时间间隔均不超过预设时间阈值,则确定flink的健康状态为不存在故障,继续对flink业务进行处理。
108.通过上述设置,能够在flink容器化后,通过flink节点的心跳时间戳来判断flink的健康状态,降低了故障恢复所需时长,提高了flink的计算效率,提高了开源系统的系统稳定性和可用性,提升了用户体验。
109.根据本发明实施例的技术方案,因为采用将flink部署在容器编码调度引擎上,以实现flink容器化;利用flink的主节点接收flink业务,调度flink的从节点创建业务进程,以对flink业务进行处理,并在业务进程的处理过程中,定时向主节点和从节点分别对应的心跳文件中写入心跳时间戳;通过容器编码调度引擎上的健康监测探针调用健康监测脚本,查询业务进程对应的心跳文件,根据心跳文件中的心跳时间戳和当前时间,确定flink的健康状态的技术手段,所以克服了相关技术中,由于flink容器化之后无法检测到容器内的业务进程状态,因此无法在业务进程异常退出或者hang的时候及时发现,并进行维护处理,导致执行业务处理时故障恢复耗时较长,flink的计算效率较低,还影响了开源系统的系统稳定性和可用性,用户体验较差的技术问题,进而达到能够在flink容器化后,通过flink节点的心跳时间戳来判断flink的健康状态,降低了故障恢复所需时长,提高了flink的计算效率,提高了开源系统的系统稳定性和可用性,提升了用户体验的技术效果。
110.图4示出了可以应用本发明实施例的容器编码调度引擎上flink的健康监测方法或容器编码调度引擎上flink的健康监测装置的示例性系统架构400。
111.如图4所示,系统架构400可以包括终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
112.用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如健康监测类应用、网页浏览器应用、搜索类应用、即时通信工具、数据处理客户端、社交平台软件等(仅为示例)。
113.终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
114.服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所(进行健康监测/进行数据处理)的服务器(仅为示例)。该服务器可以对接收到的flink业务等数据进行分析等处理,并将处理结果(例如flink的健康状态
‑‑
仅为示例)反馈给终端设备。
115.需要说明的是,本发明实施例所提供的容器编码调度引擎上flink的健康监测方法一般由服务器405执行,相应地,容器编码调度引擎上flink的健康监测装置一般设置于服务器405中。
116.应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
117.下面参考图5,其示出了适于用来实现本发明实施例的终端设备或服务器的计算机系统500的结构示意图。图5示出的终端设备或服务器仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
118.如图5所示,计算机系统500包括中央处理单元(cpu)501,其可以根据存储在只读存储器(rom)502中的程序或者从存储部分508加载到随机访问存储器(ram)503中的程序而执行各种适当的动作和处理。在ram 503中,还存储有系统500操作所需的各种程序和数据。cpu 501、rom 502以及ram 503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。
119.以下部件连接至i/o接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至i/o接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
120.特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(cpu)501执行时,执行本发明的系统
中限定的上述功能。
121.需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
122.附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
123.描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括flink容器化模块、业务处理模块和健康监测模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,flink容器化模块还可以被描述为“用于将flink部署在容器编码调度引擎上,以实现flink容器化的模块”。
124.作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:将flink部署在容器编码调度引擎上,以实现flink容器化;利用flink的主节点接收flink业务,调度flink的从节点创建业务进程,以对flink业务进行处理,并在业务进程的处理过程中,定时向主节点和从节点分别对应的心跳文件中写入心跳时间戳;通过容器编码调度引擎上的健康监测探针调用健康监测脚本,查询业务进程对应的心跳文件,根据心跳文件中的心跳时间戳和当前时间,确定flink的健康状态。
125.根据本发明实施例的技术方案,因为采用将flink部署在容器编码调度引擎上,以
实现flink容器化;利用flink的主节点接收flink业务,调度flink的从节点创建业务进程,以对flink业务进行处理,并在业务进程的处理过程中,定时向主节点和从节点分别对应的心跳文件中写入心跳时间戳;通过容器编码调度引擎上的健康监测探针调用健康监测脚本,查询业务进程对应的心跳文件,根据心跳文件中的心跳时间戳和当前时间,确定flink的健康状态的技术手段,所以克服了相关技术中,由于flink容器化之后无法检测到容器内的业务进程状态,因此无法在业务进程异常退出或者hang的时候及时发现,并进行维护处理,导致执行业务处理时故障恢复耗时较长,flink的计算效率较低,还影响了开源系统的系统稳定性和可用性,用户体验较差的技术问题,进而达到能够在flink容器化后,通过flink节点的心跳时间戳来判断flink的健康状态,降低了故障恢复所需时长,提高了flink的计算效率,提高了开源系统的系统稳定性和可用性,提升了用户体验的技术效果。
126.上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1