本发明涉及神经网络模型性能评估技术,具体涉及基于高斯过程的多任务神经网络模型性能预测技术。
背景技术:
1、深度神经网络已经在图像识别、语音识别和机器翻译等任务上广泛应用并取得突破性成果。神经网络结构对最终模型的效果起到了至关重要的作用,传统基于手工设计的方法需要依赖丰富的人工经验和相关背景知识,并可能需要多次尝试和试错,因此,近年来神经网络结构搜索技术成为学术界和工业界研究的热点。早期的nas方法通过将每个神经网络在训练数据上都训练到收敛,然后评估其效果,需要耗费大量的算力资源,例如基于强化学习搜索方法在cifar-10数据集上的搜索,需要使用800个gpu并行搜索一个月左右的时间,阻碍了其在实际业务中的应用。
2、为了解决神经网络结构搜索的搜索效率问题,在不训练神经网络的情况下准确的预测任意模型结构性能非常重要。基于此,我们不仅可以深度的分析怎样的模型结构会有很好的性能,怎样的模型性能会很差,还可以在考虑硬件特性的情况下,通过设计多任务预测器来预测出满足任意硬件延时约束下的最优的模型结构。
技术实现思路
1、针对神经网络结构如何编码、回归模型的选择与优化、如何利用多任务间的相关性进行学习三大问题,本发明提出一种高斯过程的多任务神经网络模型性能预测器设计与优化方法。
2、本发明为解决上述技术问题所采用的技术方案是,基于高斯过程的多任务神经网络模型性能预测方法,包括以下步骤:
3、s1.神经网络结构编码生成步骤:提取出w个神经网络模型性能参数,将参数量化并拼接到向量中组成初始神经网络编码;再对初始神经网络编码进行嵌入处理得到嵌入编码,最后在嵌入编码加入位置信息得到最终的网络编码;
4、位置信息为神经网络的层序号,加入位置信息的具体方法为将嵌入编码中的每一位编码与对应的位置编码相加;
5、s2.高斯过程核函数设计步骤:选择高斯过程作为判断神经网络性能的回归模型,确定用于表征不同神经网络模型之间距离的核函数:
6、再确定通过优化边际似然的偏导数来优化超参数的方式;
7、s3.多任务高斯过程回归模型训练步骤:
8、基于步骤s2得到的一个高斯过程回归模型作为单任务高斯过程回归模型,构造多任务的高斯过程回归模型作为多任务神经网络模型性能预测器,确定其核函数;
9、多任务神经网络模型性能预测器在训练过程中,接收输入的神经网络编码数据集以及对应的真实精度作为标签,对比输出的预测精度与真实精度之间的损失以及步骤s2中确定的优化超参数方式作为回归模型使用到的高斯过程核函数和模型超参数的约束,从而完成回归模型的训练;
10、s4.待测神经网络性能预测步骤:回归模型在最终训练完成后,接收输入的待预测神经网络的神经网络编码,输出该神经网络的预测精度。
11、具体的,神经网络模型性能参数包括:网络深度、自注意力头的数目、前向计算网络的膨胀系数以及嵌入维度。
12、本发明的有益效果是,在不需要训练待测神经网络的情况下,也能准确快速评估该神经网络性能的模型性能。
1.基于高斯过程的多任务神经网络模型性能预测方法,其特征在于,包括以下步骤:
2.如权利要求1所述基于高斯过程的多任务神经网络模型性能预测方法,其特征在于,神经网络模型性能参数包括:网络深度、自注意力头的数目、前向计算网络的膨胀系数以及嵌入维度。