全局注意力的计算方法、应用、装置、电子设备及介质与流程

文档序号：38699091发布日期：2024-07-19 14:58阅读：39来源：国知局

本申请涉及计算机视觉，尤其涉及一种全局注意力的计算方法、应用、装置、电子设备及介质。

背景技术：

1、在视觉领域中，计算图像的全局注意力时，引入了transformer进行相关计算，transformer在实现各种视觉任务的更高性能方面显示出巨大的前景，在图像处理上显示出较高的性能。

2、但是，现有的基于视觉transformer的网络架构参数量大，很难将视觉transformer模块叠加，导致基于视觉transformer模块架构的网络难以变得更深，直接限制了基于视觉transformer架构的网络的效果。为了克服上述视觉transformer的网络架构参数量大的问题，通常将图像分块，然后在每一块内计算局部注意力，这种方式虽然大幅降低了transformer模块的参数量，但是不同的块缺少联系，无法获取不同块之间关系信息，降低了视觉transformer的识别效果。

技术实现思路

1、为解决或部分解决相关技术中存在的问题，本申请提供一种全局注意力的计算方法、应用、装置、电子设备及介质，能够大幅减少参数量，并且还能获取不同块之间的关系信息。

2、本申请第一方面提供一种全局注意力计算方法，包括：

3、获取待识别的图像，将所述图像编码为第一预设数量个区域；其中每个所述区域具有对应的位置元素；

4、将所述第一预设数量个区域划分为第二预设数量个块；每个所述块包含第三预设数量的区域；

5、基于预设transformer模型，采用不同空洞率的编码函数依次对每个所述块进行编码，生成每个所述块的函数编码；

6、基于所述函数编码依次计算每个所述块的局部注意力；

7、基于所述每个所述块的局部注意力计算所述图像的全局注意力。

8、优选地，所述预设transformer模型包含多个编码层，每个编码层包含一编码函数，所述多个编码层中的编码函数具有不同的空洞率；所述基于预设transformer模型，采用不同空洞率的编码函数依次对每个所述块进行编码，生成每个所述块的函数编码，包括：

9、针对一所述块，基于所述编码函数与所述区域的位置元素依次计算每个所述编码函数的函数值；

10、根据所述函数值计算生成所述块的函数编码。

11、优选地，所述编码函数中包含与所述第二预设数量的区域对应的权重以及偏置参数，所述基于所述编码函数与所述区域的位置元素依次计算每个所述编码函数的函数值，包括：

12、基于所述第二预设数量区域的位置元素，以及所述编码函数的所述权重和所述偏置参数，依次计算所述区域每个所述编码函数对应的函数值。

13、优选地，所述根据所述函数值计算生成所述块的函数编码，包括：

14、针对第一编码层，将所述函数值确定为所述第一编码层的函数编码；

15、自第二编码层开始，将上一编码层的函数编码输入当前编码层；

16、基于所述上一个编码层的函数编码与所述当前编码层的函数值计算当前编码层的函数编码；

17、将最后一编码层的函数编码确定为每个所述块的函数编码。

18、优选地，所述基于所述函数编码依次计算每个所述块的局部注意力，包括：

19、针对一所述块，将所述块中区域的函数编码转化为对应的向量；

20、计算所述向量的转置向量；

21、基于所述向量以及所述转置向量，依据注意力公式计算所述块的局部注意力。

22、优选地，所述基于所述每个所述块的局部注意力计算所述图像的全局注意力，包括:

23、基于所述每个所述块的局部注意力，通过所述预设transformer模型计算所述全局注意力。

24、本申请第二方面提供一种全局注意力计算方法的应用。

25、本申请第三方面提供一种全局注意力计算装置，包括：

26、第一获取模块，用于获取待识别的图像，将所述图像编码为第一预设数量个区域；其中每个所述区域具有对应的位置元素；

27、划分模块，将所述第一预设数量个区域划分为第二预设数量个块；每个所述块包含第三预设数量的区域；

28、编码模块，基于预设transformer模型，采用不同空洞率的编码函数依次对每个所述块进行编码，生成每个所述块的函数编码；

29、局部注意力模块，用于基于所述函数编码依次计算每个所述块的局部注意力；

30、全局注意力模块，用于基于所述每个所述块的局部注意力计算所述图像的全局注意力。

31、优选地，所述预设transformer模型包含多个编码层，每个编码层包含一编码函数，所述多个编码层中的编码函数具有不同的空洞率；所述编码模块包括：

32、计算子模块，用于针对一所述块，基于所述编码函数与所述区域的位置元素依次计算每个所述编码函数的函数值；

33、编码子模块，用于根据所述函数值计算生成所述块的函数编码。

34、本申请第四方面提供一种电子设备，包括：

35、处理器；以及

36、存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

37、本申请第五方面提供一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上所述的方法。

38、本申请提供的技术方案可以包括以下有益效果：通过获取待识别的图像，将图像编码为第一预设数量个区域；其中每个区域具有对应的位置元素；将第一预设数量个区域划分为第二预设数量个块；每个块包含第三预设数量的区域；基于预设transformer模型，采用不同空洞率的编码函数依次对每个块进行编码，生成每个块的函数编码；基于函数编码依次计算每个块的局部注意力；基于每个块的局部注意力计算图像的全局注意力，能够在块的生成过程中融合其他块的信息，单独计算每个块的局部注意力，最后仅在网络的最后一层计算一次全局注意力，以获取图像的全局信息，大幅减少了参数量，并且还能获取不同块之间的关系信息。

39、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

技术特征：

1.一种全局注意力计算方法，其特征在于：

2.根据权利要求1所述的方法，其特征在于，所述预设transformer模型包含多个编码层，每个编码层包含一编码函数，所述多个编码层中的编码函数具有不同的空洞率；所述基于预设transformer模型，采用不同空洞率的编码函数依次对每个所述块进行编码，生成每个所述块的函数编码，包括：

3.根据权利要求2所述的方法，其特征在于，所述编码函数中包含与所述第二预设数量的区域对应的权重以及偏置参数，所述基于所述编码函数与所述区域的位置元素依次计算每个所述编码函数的函数值，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述函数值计算生成所述块的函数编码，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述函数编码依次计算每个所述块的局部注意力，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述每个所述块的局部注意力计算所述图像的全局注意力，包括:

7.权利要求1～6任一项所述的全局注意力计算方法应用于图像识别。

8.一种全局注意力计算装置，其特征在于：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-7中任一项所述的方法。

技术总结
本申请涉及一种全局注意力的计算方法、应用、装置、电子设备及介质。通过获取待识别的图像，将图像编码为第一预设数量个区域；其中每个区域具有对应的位置元素；将第一预设数量个区域划分为第二预设数量个块；每个块包含第三预设数量的区域；基于预设transformer模型，采用不同空洞率的编码函数依次对每个块进行编码，生成每个块的函数编码；基于函数编码依次计算每个块的局部注意力；基于每个块的局部注意力计算图像的全局注意力，能够在块的生成过程中融合其他块的信息，单独计算每个块的局部注意力，最后仅在网络的最后一层计算一次全局注意力，以获取图像的全局信息，大幅减少了参数量，还能获取不同块之间的关系信息。

技术研发人员：孟鹏飞,万如,贾双成
受保护的技术使用者：智道网联科技（北京）有限公司
技术研发日：
技术公布日：2024/7/18

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孟鹏飞,万如,贾双成
技术所有人：智道网联科技（北京）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。