一种模型搜索方法、装置及计算机存储介质与流程

文档序号:33936396发布日期:2023-04-22 15:38阅读:67来源:国知局
一种模型搜索方法、装置及计算机存储介质与流程

本申请涉及神经网络模型的搜索技术,尤其涉及一种模型搜索方法、装置及计算机存储介质。


背景技术:

1、目前,针对神经网络结构的搜索,主要包括搜索空间、搜索策略和性能评估策略,神经网络结构的搜索的流程是先确定搜索空间,之后对利用搜索策略对候选网络进行训练,之后利用性能评估策略对训练好的候选网络进行评估和挑选,从而搜索出一个比较小的神经网络模型结构或者一个精度比较高的神经网络模型结构。

2、在相关技术中,可微分搜索(differential architecture search,darts)提出了通过可微的方式对神经网络结构进行搜索,该方法将网络结构进行松弛表示,使得可以通过梯度下降进行简单高效的搜索,然而,darts通过在cifar-10上进行搜索网络,再通过堆叠单元(cell)得到最终网络的方法,导致最终得到的准确性较低,并且,在darts的双层优化过程中,随着训练轮次(epochs)增加而使得权重耦合和权重之间的互相竞争加剧,使得最终跳跃式传递(skip-connection)操作的权重越来越高,但是该操作无法有效提取图片特征;由此可以看出,现有的神经网络结构的搜索方法得到的神经网络模型存在精度低下的技术问题。


技术实现思路

1、本申请实施例提供一种模型搜索方法、装置及计算机存储介质,能够提高搜索得到的神经网络模型的精度。

2、本申请的技术方案是这样实现的:

3、第一方面,本申请实施例提供了一模型搜索方法,包括:

4、获取第一搜索空间对应的第二搜索空间;其中,所述第二搜索空间为在所述第一搜索空间中的各操作后插入压缩器得到的搜索空间;

5、基于梯度重置的方式,对所述第二搜索空间进行训练,以更新所述第二搜索空间的网络参数;

6、当前训练轮次达到第一预设轮次时,计算所述网络参数中第一权重的第一范数;其中,所述第一权重为:所述压缩器中所有元素的值;

7、将满足第一预设条件的第一范数对应的压缩器之前的操作的第一掩膜矩阵置为零;

8、当所述第一掩膜矩阵为非零的数目未达到预设阈值时,清空所述当前训练轮次,返回执行所述基于梯度重置的方式,对所述第二搜索空间进行训练,以更新所述第二搜索空间的网络参数;

9、当所述第一掩膜矩阵为非零的数目达到预设阈值时,将所述第一掩膜矩阵为零的操作删除,得到神经网络模型;其中,所述神经网络模型用于对多媒体数据进行数据处理。

10、第二方面,本申请实施例提供一种模型搜索装置,包括:

11、获取模块,用于获取第一搜索空间对应的第二搜索空间;其中,所述第二搜索空间为在所述第一搜索空间中的各操作后插入压缩器得到的搜索空间;

12、训练模块,用于基于梯度重置的方式,对所述第二搜索空间进行训练,以更新所述第二搜索空间的网络参数;

13、计算模块,用于当前训练轮次达到第一预设轮次时,计算所述网络参数中第一权重的第一范数;其中,所述第一权重为:所述压缩器中所有元素的值;

14、置零模块,用于将满足第一预设条件的第一范数对应的压缩器之前的操作的第一掩膜矩阵置为零;

15、返回模块,用于当所述第一掩膜矩阵为非零的数目未达到预设阈值时,清空所述当前训练轮次,返回执行所述基于梯度重置的方式,对所述目第二搜索空间进行训练,以更新所述第二搜索空间的网络参数;

16、搜索模块,用于当所述第一掩膜矩阵为非零的数目达到预设阈值时,将所述第一掩膜矩阵为零的操作删除,以搜索得到神经网络模型;其中,所述神经网络用于对多媒体数据进行数据处理。

17、第三方面,本申请实施例提供一种模型搜索装置,包括:处理器以及存储有所述处理器可执行指令的存储介质;所述存储介质通过通信总线依赖所述处理器执行操作,当所述指令被所述处理器执行时,执行上述一个或多个实施例所述的模型搜索方法。

18、第四方面,本申请实施例提供了一种计算机存储介质,存储有可执行指令,当所述可执行指令被一个或多个处理器执行的时候,所述处理器执行上述一个或多个实施例所述模型搜索方法。

19、本申请实施例提供了一种模型搜索方法、装置及计算机存储介质,包括:获取第一搜索空间对应的第二搜索空间,其中,第二搜索空间为在第一搜索空间中的各操作后插入压缩器得到的搜索空间,基于梯度重置的方式,对第二搜索空间进行训练,以更新第二搜索空间的网络参数,当前训练轮次达到第一预设轮次时,计算网络参数中第一权重的第一范数,其中,第一权重为:压缩器中所有元素的值,将满足第一预设条件的第一范数对应的压缩器之前的操作的第一掩膜矩阵置为零,当第一掩膜矩阵为非零的数目未达到预设阈值时,清空当前训练轮次,返回执行基于梯度重置的方式,对第二搜索空间进行训练,以更新第二搜索空间的网络参数,当第一掩膜矩阵为非零的数目达到预设阈值时,将第一掩膜矩阵为零的操作删除,得到神经网络模型,其中,神经网络用于对多媒体数据进行数据处理;也就是说,在本申请实施例中,在对第一搜索空间中的各操作后插入压缩器得到第二搜索空间之后,采用梯度重置的方式对第二搜索空间进行训练,如此,能够实现对第二搜索空间中的网络参数的更新,在此基础上,当前训练轮次达到第一预设轮次时计算针对压缩器中所有元素的值的范数,即第一范数,从而可以将满足第一预设条件的第一范围对应的压缩器之前的操作的第一掩膜矩阵置为零,若第一掩膜矩阵置为零,按照梯度计算公式可知,会使得第一掩膜矩阵对应的操作的权重趋于零,从而使其对应的操作被去除,如此,通过上述置零操作,可以将第二搜索空间中不需要的操作去除掉,直至第一掩膜矩阵为非零的数目达到预设阈值,此时,将第一掩膜矩阵为零的操作删除掉,从而就可以得到神经网络模型,这样,避免了采用darts所使用的双层优化的方式导致的精度问题,这里采用添加压缩器可以避免双层优化,在单层的优化过程中即可搜索到神经网络模型,并且在添加压缩器的基础上,利用第一掩膜矩阵来承载模型剪枝的损失,使得各操作充分训练并在去除相应操作后精度的损失降低,从而提高了神经网络模型的精度。



技术特征:

1.一种模型搜索方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于梯度重置的方式,对所述第二搜索空间进行训练,以更新所述第二搜索空间的网络参数,包括:

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

4.根据权利要求2所述的方法,其特征在于,所述获取所述第一搜索空间,包括:

5.根据权利要求4所述的方法,其特征在于,所述任务网络包括以下一项或多项:分类任务网络、检测任务网络、分割任务网络。

6.根据权利要求1所述的方法,其特征在于,在当前训练轮次达到第一预设轮次时,计算所述网络参数中第一权重的第一范数之前,所述方法还包括:

7.根据权利要求6所述的方法,其特征在于,所述第一预设轮次大于所述第二预设轮次。

8.根据权利要求1所述的方法,其特征在于,所述将满足第一预设条件的第一范数对应的操作的第一掩膜矩阵置为零,包括:

9.根据权利要求5所述的方法,其特征在于,所述将满足第二预设条件的第二范数对应的输出通道的第二掩膜矩阵置为零,包括:

10.根据权利要求6所述的方法,其特征在于,所述第一范数和所述第二范数均为二范数。

11.根据权利要求1所述的方法,其特征在于,所述方法还包括:

12.一种模型搜索装置,其特征在于,包括:

13.一种模型搜索装置,其特征在于,包括:处理器以及存储有所述处理器可执行指令的存储介质;所述存储介质通过通信总线依赖所述处理器执行操作,当所述指令被所述处理器执行时,执行上述的权利要求1至11任一项所述的模型搜索方法。

14.一种计算机存储介质,其特征在于,存储有可执行指令,当所述可执行指令被一个或多个处理器执行的时候,所述处理器执行所述的权利要求1至11任一项所述的模型搜索方法。


技术总结
本申请实施例公开了一种模型搜索方法,包括:获取第一搜索空间对应的第二搜索空间,基于梯度重置的方式,对第二搜索空间进行训练,以更新第二搜索空间的网络参数,当前训练轮次达到第一预设轮次时,计算网络参数中第一权重的第一范数,将满足第一预设条件的第一范数对应的压缩器之前的操作的第一掩膜矩阵置为零,当第一掩膜矩阵为非零的数目未达到预设阈值时,清空当前训练轮次,返回执行基于梯度重置的方式,对第二搜索空间进行训练,以更新第二搜索空间的网络参数,当第一掩膜矩阵为非零的数目达到预设阈值时,将第一掩膜矩阵为零的操作删除,得到神经网络模型。本申请实施例还同时提供了一种模型搜索装置及计算机存储介质。

技术研发人员:欧俊宏
受保护的技术使用者:哲库科技(上海)有限公司
技术研发日:
技术公布日:2024/1/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1