本发明属于深度学习,具体涉及一种基于迭代式重参数化和网络架构搜索的模型构建方法。
背景技术:
1、近年来随着深度学习技术的不断发展,神经网络模型的应用领域越来越广,对工业生产和日常生活条件都有极大推进作用。但是神经网络模型在最终部署时总会遇到各种现实问题,比如自动驾驶的车载视觉识别系统对于实时性的要求极高,嵌入式设备上资源有限,对模型体积和计算量都提出了要求,所以需要设计轻量的神经网络模型来满足现实部署的需求。
2、目前的轻量化神经网络的骨干网络(backbone)大致可以分为transformer和卷积神经网络(convolution neural network,cnn)两类,基于transformer的模型虽然精度更高,但是其中的自注意力(self attention)模块计算量与输入图像大小呈二次关系,并且硬件上的适配性比较差,所以往往面临速度较慢的问题。而cnn网络虽然在硬件上更友好,适配程度更好,但存在一定的精度瓶颈。
技术实现思路
1、为了克服现有技术的不足,本发明提供了一种基于迭代式重参数化和网络架构搜索的模型构建方法,首先扩展基线网络,得到能够重参数化合并的多分支网络;接下来对扩展后的基线网络进行训练;然后利用网络架构搜索的方法对训练得到的分支网络进行选择;之后将搜索得到的分支网络利用结构重参数化的方法合并;最终判断是否需要继续训练;如果网络精度在连续5轮训练之内没有提升就结束,否则继续重复。本发明能够解决多分支网络训练时最终效果趋同的问题,从而最大程度的将精度提升与结构重参数化保留模型原本结构的特点结合起来,增强其实用性。
2、本发明解决其技术问题所采用的技术方案如下:
3、步骤1:扩展基线网络,得到能够重参数化合并的多分支网络;
4、以每个kxk卷积为主干分支,将其扩展为四路多分支结构,包括1x1卷积、1x1卷积接kxk卷积、1x1卷积接平均池化、kxk卷积, k是卷积核的大小;并在每个卷积和池化层后都接bn层;接着对新扩展的分支进行权重初始化,并保留原来的主干分支权重不变;
5、步骤2:对扩展后的基线网络进行训练;
6、在训练时加入路径采样,即每次随机选择n个分支进行前向和反向传播并更新梯度;
7、训练过程为:
8、将公开图像分类数据集作为训练集输入扩展后的基线网络进行前向传播,遇到步骤1中构建的分支结构时随机选择包括主干分支在内的n条分支继续前向传播;之后将网络的输出与图像分类数据集的标注真值计算损失,再反向传播更新参数,迭代多轮直至收敛;
9、步骤3:利用网络架构搜索的方法对训练得到的分支网络进行选择;
10、遍历不同的分支组合并在公开数据集的测试集上测试得出其精度,选择出精度最高的分支组合;
11、步骤4:将步骤3中搜索得到的分支网络利用结构重参数化的方法合并;首先将每个分支中的卷积核通过补零来统一成相同大小,之后将批归一化层融合进卷积层,将一个无偏置的卷积核和批归一化合并成为一个有偏置的卷积核,最后将各个卷积核的参数相加得到完全等价的单路结构;将一个四路的多分支模块合并为单路kxk卷积模块;
12、步骤5:判断是否需要继续训练;
13、如果网络精度在连续5轮训练之内没有提升就结束,否则继续步骤1。
14、优选地,所述基线网络是基于cnn实现的轻量图像分类模型,包括mobilenet、mobileone和shufflenet。
15、优选地,所述公开图像分类数据集为imagenet-1k的训练集。
16、优选地,所述n=2。
17、本发明的有益效果如下:
18、本发明提出了一种泛用性广、能有效提升精度且保留模型原本推理速度的模型设计方法,将结构重参数化与网络架构搜索技术集合,能够解决多分支网络训练时最终效果趋同的问题,并且通过网络架构搜索自动选择出能够有效提升精度的分支,从而最大程度的将精度提升与结构重参数化保留模型原本结构的特点结合起来,增强其实用性。另外,最后得到的该模型可以作为各种视觉任务的骨干网络,部署在各个下游任务上。
1.一种基于迭代式重参数化和网络架构搜索的模型构建方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于迭代式重参数化和网络架构搜索的模型构建方法,其特征在于,所述基线网络是基于cnn实现的轻量图像分类模型,包括mobilenet、mobileone和shufflenet。
3.根据权利要求1所述的一种基于迭代式重参数化和网络架构搜索的模型构建方法,其特征在于,所述公开图像分类数据集为imagenet-1k的训练集。
4.根据权利要求1所述的一种基于迭代式重参数化和网络架构搜索的模型构建方法,其特征在于,所述n=2。