图像识别方法、装置、设备及存储介质与流程

文档序号:35667977发布日期:2023-10-07 12:13阅读:46来源:国知局
图像识别方法、装置、设备及存储介质与流程

本公开涉及人工智能,具体涉及计算机视觉、图像处理、深度学习等,可应用于智慧城市的场景下,尤其涉及一种图像识别方法、装置、设备及存储介质。


背景技术:

1、深度自注意力变换网络(transformer)框架首次被提出是用于自然语言处理,transformer使用自注意力机制来捕捉全局的上下文信息。在图像识别中,基于transformer的编码块可以将输入图像划分为图像块,并将图像块类比成自然语言处理任务中的一个单词(token),通过token生成特征图,根据特征图对图像进行识别。

2、目前,对图像识别的方式会消耗特很多计算资源。


技术实现思路

1、本公开提供了一种图像识别方法、装置、设备及存储介质,可以显著减少图像识别过程对计算资源的耗费。

2、根据本公开的第一方面,提供了一种图像识别方法,所述方法包括:

3、对目标图像进行向量化,得到至少两个第一特征向量;对第一特征向量,按照自注意力网络模型中编码模块的序列和第一融合规则,依次通过每个编码模块进行编码,得到第二特征向量;其中,编码模块包括至少两个,第一融合规则包括:在至少一组相邻的两个编码模块之间的目标位置,对相邻的两个编码模块中的前一个编码模块编码得到的特征向量进行融合,融合后的特征向量的数量小于前一个编码模块编码后得到的特征向量的数量,将融合后的特征向量输入到相邻的两个编码模块中的后一个编码模块继续编码;根据第二特征向量,确定目标图像的识别结果。

4、根据本公开的第二方面,提供了一种图像识别装置,所述装置包括:向量化单元、编码单元、确定单元。

5、向量化单元,用于对目标图像进行向量化,得到至少两个第一特征向量;编码单元,用于对第一特征向量,按照自注意力网络模型中编码模块的序列和第一融合规则,依次通过每个编码模块进行编码,得到第二特征向量;其中,编码模块包括至少两个,第一融合规则包括:在至少一组相邻的两个编码模块之间的目标位置,对相邻的两个编码模块中的前一个编码模块编码得到的特征向量进行融合,融合后的特征向量的数量小于前一个编码模块编码后得到的特征向量的数量,将融合后的特征向量输入到相邻的两个编码模块中的后一个编码模块继续编码;确定单元,用于根据第二特征向量,确定目标图像的识别结果。

6、根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面所述的方法。

7、根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行根据第一方面所述的方法。

8、根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现根据第一方面所述的方法。

9、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。



技术特征:

1.一种图像识别方法,所述方法包括:

2.根据权利要求1所述的方法,所述方法还包括:

3.根据权利要求2所述的方法,所述在至少一组相邻的两个所述编码模块之间,对相邻的两个所述编码模块中的前一个编码模块编码得到的特征向量进行融合,包括:

4.根据权利要求2或3所述的方法,所述目标位置包括至少两个,相邻的两个所述目标位置中,第二个目标位置的第一特征向量的宽度或高度为第一个目标位置的第一特征向量的宽度或高度的二分之一。

5.根据权利要求2-4任一项所述的方法,所述目标位置包括至少两个,相邻的两个所述目标位置中,第一个目标位置按照宽度融合、第二个目标位置按照高度融合,或者,第一个目标位置按照高度融合、第二个目标位置按照宽度融合。

6.根据权利要求1-5任一项所述的方法,所述第二特征向量包括至少两个,所述根据所述第二特征向量,确定所述目标图像的识别结果,包括:

7.根据权利要求1-6任一项所述的方法,所述根据所述融合后的所述第二特征向量,生成所述目标图像对应的特征图,包括:

8.根据权利要求1-7任一项所述的方法,所述自注意力网络模型包括以下任意一种:图像分类模型、图像检测模型、图像定位模型。

9.一种图像识别装置,所述装置包括:

10.根据权利要求9所述的装置,所述装置还包括:

11.根据权利要求10所述的装置,所述编码单元,具体用于:

12.根据权利要求10或11所述的装置,所述目标位置包括至少两个,相邻的两个所述目标位置中,第二个目标位置的第一特征向量的宽度或高度为第一个目标位置的第一特征向量的宽度或高度的二分之一。

13.根据权利要求10-12任一项所述的装置,所述目标位置包括至少两个,相邻的两个所述目标位置中,第一个目标位置按照宽度融合、第二个目标位置按照高度融合,或者,第一个目标位置按照高度融合、第二个目标位置按照宽度融合。

14.根据权利要求9-13任一项所述的装置,所述第二特征向量包括至少两个,所述确定单元,具体用于:

15.根据权利要求9-14任一项所述的装置,所述确定单元,具体用于:

16.根据权利要求9-15任一项所述的装置,所述自注意力网络模型包括以下任意一种:图像分类模型、图像检测模型、图像定位模型。

17.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;

18.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行根据权利要求1-8任一项所述的方法。

19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8任一项所述的方法。


技术总结
本公开提供一种图像识别方法、装置、设备及存储介质,涉及人工智能技术领域,具体涉及计算机视觉、图像处理、深度学习等技术领域,可应用于智慧城市的场景下。具体实现方案包括:对目标图像进行向量化,得到至少两个第一特征向量;对第一特征向量按照自注意力网络模型中编码模块的序列和第一融合规则,依次通过每个编码模块进行编码,得到第二特征向量;编码模块包括至少两个,第一融合规则包括:在至少一组相邻的两个编码模块之间对前一个编码模块编码得到的特征向量进行融合,融合后的特征向量数量小于前一个编码模块编码得到的特征向量数量,根据第二特征向量确定目标图像的识别结果。本公开可以显著减少图像识别过程对计算资源的耗费。

技术研发人员:倪子涵,章成全,姚锟
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1