用于优化机器学习架构的框架的制作方法

文档序号:33952760发布日期:2023-04-26 12:58阅读:59来源:国知局

本文中所描述的实施例一般涉及人工智能(ai)、机器学习(ml)和神经架构搜索(nas)技术,并且尤其涉及用于优化ai/ml架构的技术。


背景技术:

1、机器学习(ml)是对通过经验和通过使用数据而自动改进的计算机算法的研究。执行机器学习涉及创建统计模型(或简称为“模型”),所述统计模型被配置成处理数据以做出预测和/或推理。ml算法使用样本数据(称为“训练数据”)和/或基于过去的经验来建立模型,以便在没有被明确编程为这么做的情况下做出预测或决策。

2、ml模型设计是漫长的过程,其涉及用于调整给定ml模型的结构、参数和/或超参数的训练和验证的高度迭代循环。对于诸如深度神经网络(dnn)等的较大ml架构,训练和验证可能是特别耗时且资源密集的。传统的ml设计技术还可能需要超出许多用户的能力范围(beyond the reach of many users)的相对大量的计算资源。

3、ml模型在资源消耗、速度、准确度和其它性能度量方面的效率部分基于用于ml模型的模型参数和/或超参数(hyperparameter)的数量和类型。对模型参数和/或超参数的改变能够极大地影响给定ml模型的性能。尤其是,减少参数的数量可能降低模型的准确度,但与模型具有大量参数相比,可允许模型运行得更快并使用更少的存储器。

4、代替手动设计ml模型,可使用神经架构搜索(nas)算法来自动发现用于特定任务的理想ml模型(参见例如abdelfattah等人的“zero-cost proxies for lightweightnas”,arxiv abs/2101.08134(2021年1月20日)(“[abdelfattah]”))、liu等人的“darts:differentiable architecture search”,arxiv:1806.09055v2 [cs.lg](2019年4月23日)(“[liu]”)、cai等人的“once-for-all: train one network and specialize it forefficient deployment”,arxiv:1908.09791v5 [cs.lg](2020年4月29日)(“[cai1]”)、以及cai等人的“proxylessnas: direct neural architecture search on target taskand hardware”,arxiv:1812.00332v2 [cs.lg](2019年2月23日)(“[cai2]”))。nas是将架构工程自动化的过程。然而,nas也可能是耗时且计算密集的;通常,使用nas可能花费许多小时或许多天来完全训练单个神经网络(参见[abdelfattah])。另一种解决方案涉及训练超级转换器(supertransformer)来执行进化型搜索(参见例如wang等人的“hat:hardware-aware transformers for efficient natural language processing”,arxiv:2005.14187v1 [cs.cl](2020年5月28日)(“[wang]”))。然而,此解决方案与基于nas的解决方案遭受相同的缺陷。

5、试图减少执行nas所需的时间的一种方法包括使用代理训练制(“代理”)。代理可以用来预测模型的准确度,而代替完整训练(参见[abdelfattah])。这涉及使用代理函数来产生代理分数,该代理分数给出模型性能的粗略近似。然而,代理函数并不总是与它们正近似的度量很好地相关(参见,例如mellor等人,“neural architecture search withouttraining”,int'l conference on machine learning,pmlr,第7588-7598页(2021年7月1日)(“[mellor]”)),这就是为什么代理函数仍然是研究的活跃领域。此外,在代理任务上优化的模型并不保证在目标任务上是最优的,特别是在考虑硬件度量(诸如时延)时(参见[cai2])。

6、现有解决方案的另一缺陷是其有限的适用性。例如,[cai1]和[cai2]中描述的解决方案仅用于图像识别,并且[wang]中描述的解决方案仅限于语言翻译。这些解决方案没有提供为多个不同的ai/ml领域寻找最优ml架构的综合系统。

7、除了仅适用于有限的问题领域集合之外,现有解决方案对非常窄的性能度量集合执行ml模型搜索。例如,[cai1]仅提供top-1准确度和时延的结果。在[wang]中,仅提供了双语评估备案(bleu)(bilingual evaluation understudy)分数、时延、和模型大小(即参数数量)方面的结果。这些解决方案限于可能或者可能不与特定用户相关的小的性能度量子集。

8、最后,现有解决方案将其主要努力投向减少训练超网络(超网)所需的时间量,所述超网络(超网)是预训练的、过参数化的网络,可从其导出更小的子网络(子网)。尽管现有解决方案在这方面可能是成功的,但是它们忽略了花费大量时间来寻找减少从超网中寻找最优dnn架构的时间量的方法。相反,现有解决方案倾向于将简单的现成方法(例如,随机搜索、遗传算法、贝叶斯优化、树形结构parzen估计器等)用于其解决方案的这一步骤。


技术实现思路



技术特征:

1.一种用于标识机器学习(ml)架构的设备,所述设备包括:

2. 如权利要求1所述的设备,其中,所述ml配置包括超网络,并且候选ml架构的所述集合包括子网络,其中所述子网络相比所述超网络具有更少的参数,并且其中,所述种群初始化器配置成操作热启动机制以:

3.如权利要求2所述的设备,其中,所述热启动机制是通知式热启动机制,并且所述种群初始化器配置成:

4.如权利要求2所述的设备,其中,所述热启动机制是启发式热启动机制,并且所述种群初始化器配置成:

5. 如权利要求1所述的设备,其中:

6.如权利要求1-5中任一项所述的设备,其中,为了确定最优ml架构的所述集合,所述mocg配置成操作一个或多个优化算法来解决多目标优化问题。

7.如权利要求6所述的设备,其中,所述一个或多个优化算法包括以下项中的一项或多项:网格搜索、随机搜索、贝叶斯优化、进化型算法、树形结构parzen估计器、和用户定义的优化算法,并且所述进化型算法是强度pareto进化型算法2(spea-2)或非支配排序遗传算法-ii。

8.如权利要求1-9中任一项所述的设备,其中,为了生成最优ml架构的所述集合,所述mocg配置成将最优ml架构的所述集合确定为pareto最优解的集合。

9.如权利要求8所述的设备,其中,所述mocg配置成:

10. 如权利要求1-5中任一项所述的设备,其中,所述性能度量评估器配置成:

11.如权利要求1-5中任一项所述的设备,其中,所述性能度量评估器配置成:

12.如权利要求11所述的设备,其中,所述一个或多个代理函数包括以下项中的一项或多项:关联数组、映射函数、字典、哈希表、查找表(lut)、链表、ml分类器、参数计数、计算吞吐量度量、雅可比协方差函数、显著性剪枝函数、通道剪枝函数、启发式函数、和超启发式函数。

13.如权利要求1所述的设备,其中,所述hpi包括以下项中的任一项:硬件平台的标识符,在所述硬件平台上将部署最优ml架构的所述集合中的所选择的最优ml架构;和硬件平台的一个或多个硬件组件的数据。

14. 一种用于操作机器学习架构搜索接口(mlasi)的方法,所述方法包括:

15. 如权利要求14所述的方法,还包括:

16.如权利要求14所述的方法,其中,最优ml架构的所述集合是多目标优化问题的pareto边界,并且对最优ml架构的所述集合的所述指示是所述pareto边界的图形表示。

17. 如权利要求14所述的方法,其中,所述确定候选ml架构的所述集合,所述指令的执行将使所述计算节点:

18.如权利要求14所述的方法,还包括:

19.如权利要求14所述的方法,其中,所述执行所述多目标优化包括:

20. 如权利要求14所述的方法,其中,所述确定性能度量包括:

21.如权利要求14所述的方法,其中,确定性能度量包括:

22.如权利要求14所述的方法,其中,所述hpi包括:硬件平台的标识符,将在所述硬件平台上部署优化ml架构的所述集合的所选择的优化ml架构;或所述硬件平台的一个或多个硬件组件的技术数据。

23.包括指令的至少一个计算机可读存储介质,其中,由计算节点的一个或多个处理器执行所述指令将使所述计算节点执行如权利要求14-22中任一项所述的方法。

24.一种设备,包括用于执行如权利要求14-22中任一项所述的方法的部件。


技术总结
本公开涉及用于自动且高效地找到针对一个或多个指定性能度量和/或硬件平台而被优化的机器学习(ML)架构的框架。该框架提供了ML架构,该ML架构适用于指定ML领域,并且相比可以手动操作完成在显著较少时间中和相比现有ML模型搜索技术在较少时间中,针对指定硬件平台而被优化。此外,提供了用户界面,其允许用户基于修改的搜索参数(诸如不同的硬件平台方面和/或性能度量)来搜索不同的ML架构。可描述和/或要求保护其它实施例。

技术研发人员:A·萨拉,D·卡明斯,J·P·穆尼奥斯,T·韦布
受保护的技术使用者:英特尔公司
技术研发日:
技术公布日:2024/1/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1