数据集群中的节点管理方法、装置及存储介质与流程

文档序号:32403208发布日期:2022-12-02 19:43阅读:来源:国知局

技术特征:
1.一种数据集群中的节点管理方法,其特征在于,应用于资源管理器,所述方法包括:获取至少一个应用程序管理器发送的至少一个异常节点信息和至少一个节点管理器发送的至少一个任务运行信息,所述至少一个异常节点信息指示的节点是与所述至少一个节点管理器连接的多个节点中的节点,所述至少一个任务运行信息包括在所述多个节点中的任意一个节点运行失败的目标任务的运行信息;根据所述至少一个异常节点信息和所述至少一个任务运行信息,从所述多个节点中确定目标异常节点;对所述多个节点中的正常节点进行任务调度,所述正常节点为所述多个节点中除去所述目标异常节点中的部分或全部异常节点外的节点。2.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个异常节点信息和所述至少一个任务运行信息,从所述多个节点中确定目标异常节点,包括:根据所述至少一个异常节点信息,从所述多个节点中确定全局异常节点以及与至少一个应用程序分别对应的至少一个应用程序异常节点,其中,所述资源管理器不在所述全局异常节点上进行任何任务调度,所述资源管理器不在目标应用程序异常节点上调度与所述目标应用程序对应的任务,所述目标应用程序异常节点与所述目标应用程序对应,所述目标应用程序异常节点为所述至少一个应用程序异常节点中的其中一个;根据所述至少一个任务运行信息,从所述多个节点中确定至少一个应用程序异常任务节点,其中,目标应用程序异常任务节点分别与目标应用程序中的目标任务对应,所述资源管理器不在所述目标应用程序异常任务节点上调度所述目标任务,所述目标应用程序异常任务节点为所述至少一个应用程序异常任务节点中的其中一个。3.根据权利要求2所述的方法,其特征在于,每个任务运行信息中包括运行失败的任务信息,所述任务信息用于指示所述运行失败的任务的失败原因,所述根据所述至少一个任务运行信息,从所述多个节点中确定至少一个应用程序异常任务节点,包括:从所述至少一个任务运行信息中,去除目标失败任务,获得至少一个更新后的任务运行信息,所述目标失败任务为所述失败原因指示为非节点的物理资源引起的运行失败的任务;根据所述至少一个更新后的任务运行信息,确定所述至少一个应用程序异常任务节点。4.根据权利要求1所述的方法,其特征在于,在确定目标异常节点之后,所述方法还包括:获取每个节点管理器发送的至少一个节点健康分,每个节点健康分是所述节点管理器根据预设健康监测指标对与所述节点管理器连接的每个正常节点在执行任务时资源使用情况进行计算得到的,所述预设健康监测指标包括中央处理器使用情况、磁盘占用情况、内存占用情况和网络情况。5.根据权利要求4所述的方法,其特征在于,所述对所述多个节点中的正常节点进行任务调度,包括:根据所述节点健康分,对所述多个节点中的正常节点进行任务调度。6.根据权利要求5所述的方法,其特征在于,所述根据所述节点健康分,对所述多个节点中的正常节点进行任务调度,包括:
针对每个节点,若所述节点健康分大于或等于第一预设阈值,则对运行在所述节点上的预设任务进行释放;若所述节点健康分大于或等于第二预设阈值,且小于所述第一预设阈值时,则停止继续调度新的任务至所述节点,所述第一预设阈值大于所述第二预设阈值;若所述节点健康分小于所述第二预设阈值,则维持所述节点的调度方式。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:根据所述节点健康分,将所述正常节点缓存至第一预设队列中,其中,所述第一预设队列中的正常节点按照所述正常节点对应的节点健康分由低到高排序;若所述第一预设队列所占用的缓存空间大于或等于第一预设缓存阈值,则按照所述正常节点对应的节点健康分的高低,顺序移除节点健康分低的节点。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:监控所述至少一个节点管理器中每个节点管理器对应的所有任务的输入/输出io资源的使用信息;若所述所有任务中的io资源的使用信息中第一任务的io资源的使用值大于或等于预设使用阈值,则对所述第一任务使用的io资源进行抑制处理。9.根据权利要求1至8中任一项所述的方法,其特征在于,所述方法还包括:将所述目标异常节点依次缓存至第二预设队列中;若所述第二预设队列所占用的缓存空间大于或等于第二预设缓存阈值,则按照进入队列的时间先后顺序移除所述第二预设队列中在先存入的目标异常节点;和/或,移除存储时间大于或等于预设存储周期对应的异常节点。10.一种数据集群中的节点管理方法,其特征在于,应用于节点管理器,所述方法包括:获取至少一个任务运行信息,所述至少一个任务运行信息包括在与所述节点管理器连接的多个节点中的任意一个节点运行失败的目标任务的运行信息;向资源管理器发送所述至少一个任务运行信息。11.根据权利要求10所述的方法,其特征在于,所述方法还包括:根据预设健康监测指标对与所述节点管理器连接的每个正常节点在执行任务时资源使用情况进行计算,得到的与每个正常节点对应的节点健康分,所述预设健康监测指标包括中央处理器使用情况、磁盘占用情况、内存占用情况和网络情况;向所述资源管理器发送所述每个正常节点对应的节点健康分。12.根据权利要求11所述的方法,其特征在于,所述方法还包括:监控所述节点管理器对应的所有任务的输入/输出io资源的使用信息;若所述所有任务中的io资源的使用信息中第一任务的io资源的使用值大于或等于预设使用阈值,则对所述第一任务使用的io资源进行抑制处理。13.根据权利要求10至12中任一项所述的方法,其特征在于,每个任务运行信息中包括运行失败的任务信息,所述任务信息用于指示所述运行失败的任务的失败原因。14.一种数据集群中的节点管理装置,其特征在于,应用于资源管理器,所述装置包括:获取模块,用于获取至少一个应用程序管理器发送的至少一个异常节点信息和至少一个节点管理器发送的至少一个任务运行信息,所述至少一个异常节点信息指示的节点是与所述至少一个节点管理器连接的多个节点中的节点,所述至少一个任务运行信息包括在所
述多个节点中的任意一个节点运行失败的目标任务的运行信息;确定模块,用于根据所述至少一个异常节点信息和所述至少一个任务运行信息,从所述多个节点中确定目标异常节点;调度模块,用于对所述多个节点中的正常节点进行任务调度,所述正常节点为所述多个节点中除去所述目标异常节点中的部分或全部异常节点外的节点。15.一种数据集群中的节点管理装置,其特征在于,应用于节点管理器,所述装置包括:获取模块,用于获取至少一个任务运行信息,所述至少一个任务运行信息包括在与所述节点管理器连接的多个节点中的任意一个节点运行失败的目标任务的运行信息;发送模块,用于向资源管理器发送所述至少一个任务运行信息。16.一种数据集群中的节点管理装置,其特征在于,包括处理器和存储器,所述存储器用于存储代码指令;所述处理器用于运行所述代码指令,以执行如权利要求1至13中任一项所述的方法。17.一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序包括用于实现如权利要求1至9或10至13中任一项所述的方法的指令。18.一种计算机程序产品,所述计算机程序产品中包括计算机程序指令,其特征在于,当所述计算机程序指令在计算机上运行时,使得所述计算机实现如权利要求1至9或10至13中任一项所述的方法。

技术总结
本申请提供数据集群中的节点管理方法、装置及存储介质。本申请的技术方案中,资源管理器获取至少一个应用程序管理器发送的至少一个异常节点信息和至少一个节点管理器发送的至少一个任务运行信息,其中,至少一个异常节点信息指示的节点是与至少一个节点管理器连接的多个节点中的节点,至少一个任务运行信息包括在多个节点中的任意一个节点运行失败的目标任务的运行信息;根据至少一个异常节点信息和至少一个任务运行信息,从多个节点中确定目标异常节点;然后对多个节点中的正常节点进行任务调度。本申请的节点管理方法可以提高识别大数据集群中异常节点的准确性,进而提升大数据集群的调度稳定性。数据集群的调度稳定性。数据集群的调度稳定性。


技术研发人员:闾泽军 申鹏 邢乃路 付庆午
受保护的技术使用者:OPPO广东移动通信有限公司
技术研发日:2022.09.19
技术公布日:2022/12/1
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1