一种异构资源调度系统及方法与流程

文档序号:32793979发布日期:2023-01-03 21:53阅读:21来源:国知局
一种异构资源调度系统及方法与流程

1.本发明涉及数据处理技术领域,特别涉及一种异构资源调度系统及方法。


背景技术:

2.随着软硬件技术水平的不断提升,以及人工智能技术的蓬勃发展,电力运检、安监、营销等应用领域针对图像、视频、语音、语言、文本等数据应用的需求愈发强烈,例如输变电巡检业务场景,当下主要依靠人工进行运维,需要图像识别等技术来提高运检效率,确保设备高效运行;安监业务目前依靠人工进行安全监察,需要视频图像处理等技术来提升作业人员安全保障;客服业务主要依赖人工对话来处理客户用电问题,需要语音识别和自然语言处理等技术来实现智能客服需求,以改善客服用户体验、降低运营成本。
3.由于人工智能既需要业务的驱动和数据的支持,也需要专业算法、大规模算力的支持,只有整合好公司级ai样本资源、统筹好异构计算能力应用、处理好ai能力与业务系统、数据中台、业务中台及物联管理平台的关系,才能促进好ai应用在各业务领域发挥作用,以支撑不同单位、不同业务域、不同场景的人工智能图像技术应用需求,让各单位能以最小的代价和最大的便利应用人工智能技术。
4.因此,为了实现人工智能应用的灵活部署与便捷管理,需要解决算力的智能化调度管理,以满足多应用对算力资源的需求。


技术实现要素:

5.本发明的目的之一在于,提供一种异构资源调度系统,能够满足多应用对算力资源的需求。
6.为了解决上述技术问题,本技术提供如下技术方案:
7.一种异构资源调度系统,包括样本库、模型创建模块、模型库、服务模块和异构资源集群;
8.异构资源集群包括计算集群和调度模块;
9.模型创建模块用于接收模型构建任务,根据模型构建任务从样本库获取已标注的样本生成训练样本集,以及根据模型构建任务创建ai模型;基于训练样本集和ai模型生成训练请求;
10.调度模块用于根据训练请求调度计算集群进行ai模型的训练;
11.模型创建模块还用于对训练后的ai模型进行测试,判断准确度是否满足要求,若满足要求,将训练后的ai模型发送至模型库;
12.模型库用于部署接收的ai模型,还用于接收服务模块的模型调用请求;基于模型调用请求选择对应的ai模型生成模型运行请求;
13.调度模块还用于根据模型运行请求调度计算集群运行对应的ai模型。
14.基础方案原理及有益效果如下:
15.本方案中,异构资源集群一方面用于新ai模型的创建,另一方面用于已部署ai模
型的运行。新ai模型创建过程中,首先由模型创建模块创建ai模型,生成训练样本集,再生成训练请求。调度模块根据训练请求调度计算集群基于训练样本集对ai模型进行训练,完成训练后,准确度满足要求,发送至模型库部署。
16.服务模块需要调用已部署的ai模型处理相关工作时,模型库生成模型运行请求,调度模块根据模型运行请求调度计算集群运行对应的ai模型。
17.通过本方案,能够自动调度计算集群对新ai模型的创建以及已有ai模型的运行提供算力支撑,满足多应用对算力资源的需求。
18.进一步,所述调度模块还用于监控计算集群的剩余算力资源,预估训练请求和模型运行请求的算力资源使用量,判断算力资源使用量是否大于剩余算力资源,若大于,对训练请求和模型运行请求进行排序,其中,模型运行请求的优先级高于训练请求的优先级。
19.在算力资源使用量大于剩余算力资源时,优先响应模型运行请求,能够保证应用服务的正常运行。
20.进一步,所述模型创建模块包括模型仓库、模型训练单元、样本生成单元和模型测试单元;
21.样本生成单元用于根据模型构建任务从样本库获取已标注的样本生成训练样本集;
22.模型训练单元用于根据模型构建任务从模型仓库中选择初始模型,对初始模型进行参数设置,创建ai模型;
23.模型测试单元用于对训练后的ai模型进行测试。
24.进一步,所述模型库还用于将ai模型输出的带有标注的结果发送至样本生成模块;
25.样本生成模块还用于对带有标注的结果进行分类,并存入对应训练样本集。
26.能够有效扩充训练样本集的数据量。还能实现模型研发与业务应用的协同,通过导入误报、漏报等结果数据,打造数据闭环,可以实现ai模型的持续迭代优化。
27.进一步,所述计算集群包括若干cpu和若干gpu。
28.本发明的目的之二在于,提供一种异构资源调度方法,包括如下内容:
29.ai模型创建:接收模型构建任务,根据模型构建任务从样本库获取已标注的样本生成训练样本集,以及根据模型构建任务创建ai模型;
30.训练请求生成:基于训练样本集和ai模型生成训练请求;
31.模型测试:对训练后的ai模型进行测试,判断准确度是否满足要求,若满足要求,将训练后的ai模型部署;
32.模型调用:接收ai模型调用请求;基于模型调用请求选择对应的已部署ai模型生成模型运行请求;
33.资源调度:根据训练请求调度计算集群进行ai模型的训练,以及根据模型运行请求调度计算集群运行对应的ai模型。
34.进一步,资源调度步骤中,还监控计算集群的剩余算力资源,预估训练请求和模型运行请求的算力资源使用量,判断算力资源使用量是否大于剩余算力资源,若大于,对训练请求和模型运行请求进行排序,其中,模型运行请求的优先级高于训练请求的优先级。
35.进一步,所述ai模型创建步骤,具体包括:
36.获取样本:根据模型构建任务从样本库获取已标注的样本生成训练样本集;
37.模型创建:根据模型构建任务从模型仓库中选择初始模型,对初始模型进行参数设置,创建ai模型。
38.进一步,ai模型创建步骤还包括:
39.样本扩增:从已部署的ai模型获取带有标注的结果,对带有标注的结果进行分类,并存入对应训练样本集。
40.进一步,所述资源调度步骤中,计算集群包括若干cpu和若干gpu。
附图说明
41.图1为实施例一一种异构资源调度系统的逻辑框图。
具体实施方式
42.下面通过具体实施方式进一步详细说明:
43.实施例一
44.如图1所示,本实施例的一种异构资源调度系统,包括样本库、模型创建模块、模型库、服务模块和异构资源集群。
45.异构资源集群包括计算集群和调度模块。计算集群包括若干cpu和若干gpu。
46.样本库预存有若干不同类型,且已标注的训练样本,训练样本的来源可以是购买或自建。对于未标注的样本,可以提供样本标注工具,人工实现图片标注、视频标注、文本标注、实体及关系标注等。
47.模型创建模块用于接收模型构建任务,根据模型构建任务从样本库获取已标注的样本生成训练样本集,以及根据模型构建任务创建ai模型;基于训练样本集和ai模型生成训练请求。本实施例中,模型构建任务由管理人员输入。
48.具体的,模型创建模块包括模型仓库、模型训练单元、样本生成单元和模型测试单元;
49.模型仓库内预存有不同类型的初始模型,例如卷积神经网络(cnn)、生成式对抗网络(gan)、支持向量机(svm)等。
50.样本生成单元用于根据模型构建任务从样本库获取已标注生的样本成训练样本集;
51.模型训练单元用于根据模型构建任务从模型仓库中选择初始模型,对初始模型进行参数设置,创建ai模型;本实施例中,参数由管理人员输入。
52.调度模块用于根据训练请求调度计算集群进行ai模型的训练;
53.模型测试单元用于对训练后的ai模型进行测试,判断准确度是否满足要求,若满足要求,将训练后的ai模型发送至模型库。例如,卷积神经网络对某一类图片的识别准确率达到95%以上,视为满足要求。
54.模型库用于部署接收的ai模型,还用于接收服务模块的模型调用请求;基于模型调用请求选择对应的ai模型生成模型运行请求。本实施例中,服务模块通过创建服务接口,接入线路缺陷检测、设备状态监控、异常行为识别等应用服务。
55.调度模块还用于根据模型运行请求调度计算集群运行对应的ai模型。
56.模型库还用于将ai模型输出的带有标注的结果发送至样本生成模块;样本生成模块还用于对带有标注的结果进行分类,并存入对应训练样本集。例如,部署的卷积神经网络模型用于获取现场无人机巡检的图像以自动识别线路缺陷,输出识别的判断结果相当于对输入图像的标注,即带有标注的结果。通过存入对应训练样本集,可以扩充训练样本集的数据量,用于其他ai模型的训练。
57.调度模块还用于监控计算集群的剩余算力资源,预估训练请求和模型运行请求的算力资源使用量,判断算力资源使用量是否大于剩余算力资源,若大于,对训练请求和模型运行请求进行排序,其中,模型运行请求的优先级高于训练请求的优先级。换句话说,在算力资源使用量大于剩余算力资源时,优先响应模型运行请求。
58.基于异构资源调度系统,本实施例还提供一种异构资源调度方法,包括如下内容:
59.ai模型创建:接收模型构建任务,根据模型构建任务从样本库获取已标注的样本生成训练样本集,以及根据模型构建任务创建ai模型;具体包括:获取样本:根据模型构建任务从样本库获取已标注的样本生成训练样本集;模型创建:根据模型构建任务从模型仓库中选择初始模型,对初始模型进行参数设置,创建ai模型;样本扩增:从已部署的ai模型获取带有标注的结果,对带有标注的结果进行分类,并存入对应训练样本集。
60.训练请求生成:基于训练样本集和ai模型生成训练请求;
61.模型测试:对训练后的ai模型进行测试,判断准确度是否满足要求,若满足要求,将训练后的ai模型部署;
62.模型调用:接收ai模型调用请求;基于模型调用请求选择对应的已部署ai模型生成模型运行请求;
63.资源调度:根据训练请求调度计算集群进行ai模型的训练,以及根据模型运行请求调度计算集群运行对应的ai模型。计算集群包括若干cpu和若干gpu。具体的,监控计算集群的剩余算力资源,预估训练请求和模型运行请求的算力资源使用量,判断算力资源使用量是否大于剩余算力资源,若大于,对训练请求和模型运行请求进行排序,其中,模型运行请求的优先级高于训练请求的优先级。
64.以上的仅是本发明的实施例,该发明不限于此实施案例涉及的领域,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本技术给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本技术的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本技术要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1