本发明实施例涉及算力,尤其涉及一种智能计算中心算力运行任务的监控方法及装置。
背景技术:
1、随着人工智能技术和算力技术的发展,智能计算中心的概念应运而生,“智能计算中心”是指通过使用大规模异构算力资源,包括通用算力和智能算力,主要为人工智能应用(如人工智能深度学习模型开发、模型训练和模型推理等场景)提供所需算力、数据和算法的设施。智能计算中心涵盖设施、硬件、软件,并可提供从底层算力到顶层应用使能的全栈能力。
2、智能计算中心支持基于diskann的向量检索。diskann是一种基于分布式存储的向量检索引擎,能够在单个计算机上存储和检索十亿级别的向量数据。与传统的向量检索算法相比,diskann具有更高的存储效率和更快的检索速度。
3、现有方案中,基于diskann的向量检索的总体流程主要包括以下几个算力运行任务:创建diskann索引对象(简称为create)、对diskann索引对象进行向量数据导入(简称为importdata)、将向量数据推送给diskann服务(简称为push data)、为导入的向量数据创建图索引(简称为bulid)、将图索引加载到内存中(简称为load)、基于图索引进行向量数据查询(简称为search)、关闭diskann索引对象(简称为close)和销毁diskann索引对象(简称为destroy)。其中,当创建完某个diskann索引对象之后,用户无法实时了解diskann索引对象当前在执行哪个算力运行任务以及对应的运行状态,从而无法准确确定何时能够执行新的算力运行任务,不利于智能计算中心的算力资源的有效利用。
技术实现思路
1、本发明实施例提供一种智能计算中心算力运行任务的监控方法及装置,用于解决现有方案中用户无法实时了解diskann索引对象当前在执行哪个算力运行任务以及对应的运行状态,从而无法准确确定何时能够执行新的算力运行任务,不利于智能计算中心的算力资源的有效利用的问题。
2、为了解决上述技术问题,本发明是这样实现的:
3、第一方面,本发明实施例提供了一种智能计算中心算力运行任务的监控方法,包括:
4、步骤s1:在创建diskann索引对象后,记录所述diskann索引对象的算力运行任务的实时运行状态;
5、步骤s2:接收到客户端对所述diskann索引对象的状态查询请求后,查询所述diskann索引对象的实时运行状态,并将查询到的所述diskann索引对象的实时运行状态返回所述客户端。
6、可选的,所述算力运行任务包括:创建所述diskann索引对象;所述实时运行状态包括:未向所述diskann索引对象导入向量数据的状态;
7、和/或
8、所述算力运行任务包括:对所述diskann索引对象进行向量数据导入;所述实时运行状态包括:正在对所述diskann索引对象进行向量数据导入的状态,已经完成对所述diskann索引对象进行向量数据导入的状态;
9、和/或
10、所述算力运行任务包括:将所述diskann索引对象的向量数据推送到diskann服务;所述实时运行状态包括:正在将所述diskann索引对象的向量数据推送到diskann服务的状态,已经完成所述diskann索引对象的向量数据推送到diskann服务的状态,在向量数据推送过程中正在将向量数据从临时目录转移到正常目录的状态,在向量数据推送过程中已经完成将向量数据从临时目录转移到正常目录的状态;
11、和/或
12、所述算力运行任务包括:为所述diskann索引对象的向量数据创建图索引;所述实时运行状态包括:正在为所述diskann索引对象的向量数据创建图索引的状态,已经完成所述diskann索引对象的向量数据创建图索引的状态,在创建图索引过程中正在将向量数据从临时目录转移到正常目录的状态,在创建图索引过程中已经完成将向量数据从临时目录转移到正常目录的状态;
13、和/或
14、所述算力运行任务包括:将为所述diskann索引对象创建的图索引加载到内存;所述实时运行状态包括:正在将所述diskann索引对象创建的图索引加载到内存的状态,已经将所述diskann索引对象创建的图索引加载到内存的状态;
15、和/或
16、所述算力运行任务包括:基于图索引查询向量数据,所述实时运行状态包括:正在基于图索引查询向量数据的状态,已经完成向量数据查询的状态;
17、和/或
18、所述算力运行任务包括:重置所述diskann索引对象的向量数据导入、向量数据推送和/或创建图索引;所述实时运行状态包括:正在重置所述diskann索引对象的向量数据导入、向量数据推送或创建图索引的状态,已经完成所述diskann索引对象的向量数据导入、向量数据推送或创建图索引的重置的状态;
19、和/或
20、所述算力运行任务包括:销毁所述diskann索引对象;所述实时运行状态包括:正在销毁所述diskann索引对象的状态,已经完成销毁diskann索引对象的状态。
21、可选的,所述监控方法还包括:
22、步骤s3:实时监测所述diskann索引对象的算力运行任务是否发生错误;
23、步骤s4:在监测到所述diskann索引对象的算力运行任务发生错误的情况下,记录所述diskann索引对象的算力运行任务的运行错误信息;
24、步骤s5:接收到客户端对所述diskann索引对象的状态查询请求后,查询所述diskann索引对象的运行错误信息,如果查询到的所述diskann索引对象的运行错误信息,将所述运行错误信息返回所述客户端。
25、可选的,所述步骤s2中的实时运行状态和所述步骤s5中的运行错误信息通过同一个数据包返回给所述客户端。
26、可选的,所述运行错误信息包括以下至少一项:导入的向量数据的数量小于第一阈值,导入的向量数据的数量大于第二阈值,导入的向量数据的数量错误,创建的diskann索引对象与已有的diskann索引对象的标识重复,导入的向量数据的维度错误,导入向量数据超时。
27、可选的,所述监控方法还包括:
28、步骤s6:在监测到所述diskann索引对象的算力运行任务发生错误的情况下,重置所述diskann索引对象的算力运行任务,并禁止执行所述diskann索引对象的下一步的算力运行任务。
29、第二方面,本发明实施例提供了一种智能计算中心算力运行任务的监控装置,包括:
30、第一记录模块,用于在创建diskann索引对象后,记录所述diskann索引对象的算力运行任务的实时运行状态;
31、第一查询模块,用于接收到客户端对所述diskann索引对象的状态查询请求后,查询所述diskann索引对象的实时运行状态,并将查询到的所述diskann索引对象的实时运行状态返回所述客户端。
32、第三方面,本发明实施例提供了一种服务器,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如上述第一方面所述的智能计算中心算力运行任务的监控方法的步骤。
33、第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的智能计算中心算力运行任务的监控方法的步骤。
34、第五方面,提供一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现如上述第一方面所述的智能计算中心算力运行任务的监控方法的步骤。
35、在本发明实施例中,在创建diskann索引对象后,记录所述diskann索引对象的算力运行任务的实时运行状态,并在接收到客户端对diskann索引对象的状态查询请求后,查询所述diskann索引对象的实时运行状态,并将查询到的实时运行状态返回所述客户端,用户可以实时了解diskann索引对象当前在执行哪个算力运行任务以及对应的运行状态,从而准确确定何时能够执行新的算力运行任务,有利于智能计算中心的算力资源的有效利用。