一种基于注意力机制的神经网络正则化方法

文档序号：29035570发布日期：2022-02-25 18:25阅读：323来源：国知局

1.本发明涉及计算机视觉技术领域，涉及深度学习中的注意力机制与神经网络正则化方法，融合了特征重构与自适应置信度估计的方法。

背景技术：

2.近年来，随着深度神经网络的发展，目标识别、语义分割、图文说明等领域深度学习任务越来越复杂化和多样化。面对复杂的任务，更宽的宽度和更深的模型往往会具有更强的表达能力。然而，越大的模型意味着越多的参数量，这需要更多的计算机资源：内存占用、参数、操作计数、推理时间和功耗等。
3.特别地，当神经网络达到一定深度后，由于过拟合等原因，精度不再随着深度加深而提升。而越大的模型过越容易拟合，归根结底的原因就是数据样本少、数据完备性不足或难以支撑巨大参数的优化，从而导致训练精度高而测试精度过低的现象。因此，网络正则化技术是一种很好提升模型鲁棒性和整体性能的方法。

技术实现要素：

4.本发明的目的是针对复杂模型训练时由于数据完备性不足而容易引发的过拟合问题，本发明设计了一种基于注意力机制的神经网络正则化方法，旨在进行样本拓充和充分挖掘图像的潜在特征，以提升模型的鲁棒性和整体性能。首先通过cnn卷积神经网络获取图像语义信息，然后利用注意力机制对图像的关键特征进行筛选和提取，再引入一种自适应置信度估计方法指导不同图像的关键特征进行重构，最后利用重构特征图对神经网络进行训练，以得到更好的训练结果。本发明的优势在于使用注意力机制指导图像特征自适应重构，适用范围广、模型精确度高、鲁棒性强。
5.为实现以上的目的，本发明是通过以下技术方案来实现的：
6.步骤1、批量图像的预处理：包括随机裁剪、随机翻转、正则化操作；
7.步骤2、利用权重共享的编码器网络进行特征提取：将预处理后的训练图像输入resnet模型，从resnet模型的任意中间层提取高维特征图，该中间层之前的网络即是权重共享的编码器网络，提取到的高维特征图将用于之后的特征重构，特征重构后的特征图将重新输入该中间层之后的网络进行训练；
8.步骤3、利用注意力机制进行关键特征筛选：通过步骤2骤得到高维特征图，将这些高维特征图输入注意力提取网络senet，利用注意力机制筛选并提取特征图中的关键特征；
9.步骤4、交换不同目标图像的关键特征：随机选取一张特征图上的关键特征替换另一特征图上的关键特征，得到一张新的重构特征图，该重构特征图包含了两张图像目标的信息；
10.步骤5、当前图像的关键特征和另一图像的补充特征共同组成重构图像的语义信息：重构特征图包含了一张特征图上的关键特征和另一特征图上的补充特征；
11.步骤6、设计一种自适应置信度估计方法，判断重构图像的所属类别：新的重构特
征图包含了两张图像的目标信息，利用自适应置信度估计的方法，评估重构特征图所属目标类别的概率大小；
12.步骤7、利用重构图像对神经网络进行训练得到更准确的训练模型：通过上述步骤得到了重构特征图及其标签，因此可以使用重构的特征图进行网络训练，充分挖掘神经网络的学习潜力，增强模型鲁棒性。
13.经过测试，本发明与之前的网络正则化方法相比具有的优势是：
14.1.利用注意力机制，自适应筛选与重组特征，将注意力机制融入神经网络正则化方法中；
15.2.基于特征级别的特征图重构方法，并且引入了注意力为特征重构作指导，在不改变原图信息基础上，能够对特征信息进行有效调配与组合，以进行目的性训练和最大化网络性能；
16.3.发明提出的方法可以应用于目标检测与分割等多种任务的各种网络模型中，适用范围广、插入方便、模型精确度高、鲁棒性强。
附图说明
17.图1本发明方法执行流程图
18.图2本发明应用于深度学习模型构建示意图
具体实施方式
19.下面结合附图对本发明的具体实施方案做作进一步说明。
20.与以往基于图像级别的区域丢弃或混合正则化方法不同，本发明提出了一种基于注意力机制的特征筛选与自适应重构的正则化方法。特别地，发明改进了一种强有力的注意力机制，在特征层上进行特征筛选，然后提取对任务有帮助的关键特征进行重构，并提出了一种自适应置信度方法的对重构图像的目标属性进行评估。发明提出的方法作用在神经网络的特征层面上，能够充分挖掘神经网络的学习潜力，极大提高卷积神经网络的鲁棒性和整体能力，而且它可以与现有的数据扩充方法结合使用，在不同层面上进一步提高模型的性能，具有适用范围广、模型精确度高、鲁棒性强等特点。
21.本发明主要提出一种基于注意力机制的神经网络正则化方法，以提高算法模型的准确度和鲁棒性，图1是本发明的具体实施步骤：
22.步骤1、批量图像的预处理：包括随机裁剪、随机翻转、正则化操作；
23.步骤2、利用权重共享的编码器网络进行特征提取：将预处理后的训练图像输入resnet模型，从resnet模型的任意中间层提取高维特征图，该中间层之前的网络即是权重共享的编码器网络，提取到的高维特征图将用于之后的特征重构，特征重构后的特征图将重新输入该中间层之后的网络进行训练；如resnet网络的四个block输出的特征图。
24.步骤3、利用注意力机制进行关键特征筛选：通过步骤2骤得到高维特征图，将这些高维特征图输入注意力提取网络senet，利用注意力机制筛选并提取特征图中的关键特征；
25.步骤4、交换不同目标图像的关键特征：随机选取一张特征图上的关键特征替换另一特征图上的关键特征，得到一张新的重构特征图，该重构特征图包含了两张图像目标的信息；
26.步骤5、当前图像的关键特征和另一图像的补充特征共同组成重构图像的语义信息：重构特征图包含了一张特征图上的关键特征和另一特征图上的补充特征；
27.步骤6、设计一种自适应置信度估计方法，判断重构图像的所属类别：新的重构特征图包含了两张图像的目标信息，利用自适应置信度估计的方法，评估重构特征图所属目标类别的概率大小；
28.步骤7、利用重构图像对神经网络进行训练得到更准确的训练模型：通过上述步骤得到了重构特征图及其标签，因此可以使用重构的特征图进行网络训练，充分挖掘神经网络的学习潜力，增强模型鲁棒性。
29.进一步的，步骤1中输入的批量图像可以是任意数据集的。
30.进一步的，步骤2得到特征图的步骤具体是：将图像输入resnet模型后，随机选择一中间层进行正则化操作；该中间层之前的网络为权重共享的编码器网络；该中间层的输出就是要提取的批量图像的高维特征图，记为其中c、h、w分别表示特征图的通道数、高、宽。
31.进一步的，步骤3中利用注意力机制进行关键特征筛选的步骤具体是：
32.4-1将步骤2得到的高维特征图输入通道注意力网络senet中，进行注意力评分，注意力得分的越高表示该特征图对分类性能贡献越大；
33.4-2将c个通道的特征图按照注意力得分的高低进行排序；
34.进一步的，步骤4中的提取目标图像的关键特征，具体是是选择注意力得分最高的部分通道特征图，所述的部分通道是选择c/2个通道。
35.进一步的，步骤5中当前图像的关键特征和另一图像的补充特征共同组成重构图像的语义信息，关键特征来自步骤(4)，补充特征来自另一图像除关键通道之外对应的特征图，假设图像共包含10个通道，a图的关键特征图对应的通道为[2，3，4，6，8]，那么重构图像的特征来自a特征图的[2，3，4，6，8]通道和b特征图的[0，1，5，7，9]；
[0036]
进一步的，步骤6中自适应置信度估计方法的步骤具体是：
[0037]
6-1根据步骤5得到包含两张图像目标信息的重构特征图；
[0038]
6-2将重构特征图重新输入resnet模型在步骤2提取的中间层，并进行整个resnet网络的训练，并在最后的网络输出层得到不同类别的预测概率
[0039]
6-3从预测概率中选取重构特征图对应的原图所属的两个类别的概率pa和pb作为自适应置信度的结果，如pa＝0.4,pb＝0.2，则自适应置信度为：
[0040]
[λa,λb]＝soft max([pa,pb])＝[0.67,0.33]
[0041]
6-4重构特征图所对应的原图类别与自适应置信度共同组成重构图像的训练标签，训练的目标函数可表示为：
[0042][0043]
其中λa，λb分别为目标类别ya和yb的置信度，使用的是交叉熵损失函数l
ce
，是预测输出；
[0044]
步骤7中应用基于注意力机制的正则化方法重构图像特征图，并利用重构特征图对神经网络进行训练以得到更准确的训练模型；这些重构特征图是神经网络根据注意力指导自适应产生的，因此可以使用重构的特征图指导网络在更大的样本空间中训练，以充分
挖去神经网络的学习潜力，增强模型鲁棒性，得到更好的训练模型。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李建军;李胜炎;周云帆;俞杰;陆奇;唐政;惠国宝;赵露露;田万勇;李新付
技术所有人：杭州电子科技大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。