数据处理方法、装置、存储介质及计算机设备与流程

文档序号:41679496发布日期:2025-04-18 16:16阅读:3来源:国知局
数据处理方法、装置、存储介质及计算机设备与流程

本申请涉及人工智能领域,尤其涉及一种数据处理方法、装置、存储介质及计算机设备。


背景技术:

1、视觉状态空间模型(visual state space model,vmamba)是一种新型的视觉骨干网络模型,其旨在降低计算复杂度至线性时间复杂度,同时保留视觉变换器(visiontransformers)的优势特性,如全局感受野和动态权重参数。vmamba的设计灵感来源于mamba这一状态空间语言模型,该模型在自然语言处理(nlp)任务中展现出了高效建模长序列的能力。vmamba将这一概念移植到视觉领域,通过引入视觉状态空间(vss)模块和2d选择性扫描(ss2d)模块,以线性复杂度处理视觉数据。广泛的实验展示了vmamba在多种视觉感知任务中的优异性能,包括图像分类、目标检测和语义分割等,突出了其与现有基准模型相比在输入缩放效率方面的优势。

2、相关技术中,在ss2d模块中,存在一个需要循环执行的流程。该流程需要顺序执行l次,其中l为正在处理的图像切分得到的图像块(token)的个数。在浅层的交叉扫描(cross-scan)模块中,图像块的个数l高达56*56个。庞大的l导致该流程的循环次数非常多,且循环需要逐个图像块顺序执行,难以发挥tpu架构的并行计算优势。此外,张量处理单元(tensor processing unit,tpu)架构对四维数据的并行发生在第二和第四个维度。而在实际的每次循环中,现有技术参与计算的中间变量的形状多为长条形,最后一维的维度仅为1,对批量数据传输和tpu并行计算不友好,难以发挥高性能tpu的计算潜力和tpu使用率低,数据处理效率较低。故相关技术亟待提出一种数据处理方法来解决上述技术问题。


技术实现思路

1、本申请的主要目的在于提供一种数据处理方法、装置、存储介质及计算机设备,可以发挥高性能tpu的计算潜力和提高tpu使用率,进而提升数据处理效率。

2、第一方面,本申请实施例提供了一种数据处理方法,包括:

3、获取批量图像中每个图像的第一图像特征;

4、将所述第一图像特征输入至视觉状态空间模型中当前处理模块,对每个所述第一图像特征进行四向扫描,得到初始全局感受野;

5、对所述初始全局感受野进行不同的特征调整,分别得到初始第一中间变量、初始第二中间变量以及初始第三中间变量;

6、对所述初始第一中间变量、所述初始第二中间变量、所述初始第三中间变量以及所述初始全局感受野进行维度变换,得到第一中间变量、第二中间变量第三中间变量以及全局感受野,所述第一中间变量、所述第二中间变量、所述第三中间变量以及所述全局感受野的最后一个维度为所述批量图像的图像数量;

7、基于所述第一中间变量、所述第二中间变量、所述第三中间变量、所述全局感受野以及当前处理模块的模型权重参数,确定总输出特征;

8、对所述总输出特征进行维度逆变换,得到逆变换结果;

9、对所述逆变换结果进行四向扫描整合,得到第二图像特征;

10、当所述当前处理模块为最后一个模块时,基于所述第二图像特征,确定图像分类结果。

11、第二方面,本申请实施例提供一种数据处理装置,包括:

12、获取单元,用于获取批量图像中每个图像的第一图像特征;

13、输入单元,用于将所述第一图像特征输入至视觉状态空间模型中当前处理模块,对每个所述第一图像特征进行四向扫描,得到初始全局感受野;

14、调整单元,用于对所述初始全局感受野进行不同的特征调整,分别得到初始第一中间变量、初始第二中间变量以及初始第三中间变量;

15、变换单元,用于对所述初始第一中间变量、所述初始第二中间变量、所述初始第三中间变量以及所述初始全局感受野进行维度变换,得到第一中间变量、第二中间变量第三中间变量以及全局感受野,所述第一中间变量、所述第二中间变量、所述第三中间变量以及所述全局感受野的最后一个维度为所述批量图像的图像数量;

16、第一确定单元,用于基于所述第一中间变量、所述第二中间变量、所述第三中间变量、所述全局感受野以及当前处理模块的模型权重参数,确定总输出特征;

17、逆变换单元,用于对所述总输出特征进行维度逆变换,得到逆变换结果;

18、整合单元,用于对所述逆变换结果进行四向扫描整合,得到第二图像特征;

19、第二确定单元,用于当所述当前处理模块为最后一个模块时,基于所述第二图像特征,确定图像分类结果。

20、第三方面,本申请实施例提供一种存储介质,计算机可读存储介质存储有多条指令,该指令适于处理器进行加载,以执行如上任一项的数据处理方法。

21、第四方面,本申请实施例提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上任一项的数据处理方法。

22、在本申请实施例中,通过获取批量图像中每个图像的第一图像特征;将所述第一图像特征输入至视觉状态空间模型中当前处理模块,对每个所述第一图像特征进行四向扫描,得到初始全局感受野;对所述初始全局感受野进行不同的特征调整,分别得到初始第一中间变量、初始第二中间变量以及初始第三中间变量;对所述初始第一中间变量、所述初始第二中间变量、所述初始第三中间变量以及所述初始全局感受野进行维度变换,得到第一中间变量、第二中间变量第三中间变量以及全局感受野,所述第一中间变量、所述第二中间变量、所述第三中间变量以及所述全局感受野的最后一个维度为所述批量图像的图像数量;基于所述第一中间变量、所述第二中间变量、所述第三中间变量、所述全局感受野以及当前处理模块的模型权重参数,确定总输出特征;对所述总输出特征进行维度逆变换,得到逆变换结果;对所述逆变换结果进行四向扫描整合,得到第二图像特征;当所述当前处理模块为最后一个模块时,基于每个所述模块对应的第二图像特征,确定图像分类结果。相对于相关技术中,因中间变量的维度问题导致无法充分发挥tpu的并行计算能力而言,本申请实施例通过对中间变量的维度进行变换,使得每个中间变量的最后一个维度均为批量图像的图像数量,避免最后一个维度为1导致的tpu无法并行处理的问题,从而发挥高性能tpu的计算潜力和提高tpu使用率,进而提升数据处理效率。

23、本公开的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本公开而了解。本公开的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。



技术特征:

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的数据处理方法,其特征在于,所述初始第一中间变量以及所述初始第二中间变量的第一维度为所述批量图像的图像数量、第二维度为指定倍数的图像数据块特征深度、第三维度为图像数据块总数量、第四维度为预设超参数,所述初始第三中间变量的第一维度为所述图像数量、第二维度为指定倍数的图像数据块特征深度、第三维度为所述预设超参数、第四维度为所述图像数据块总数量,所述初始全局感受野的第一维度为所述图像数量、第二维度为指定倍数的图像数据块特征深度、第三维度为所述图像数据块总数量;

3.根据权利要求2所述的数据处理方法,其特征在于,所述基于所述第一中间变量、所述第二中间变量、所述第三中间变量、所述全局感受野以及当前处理模块的模型权重参数,确定总输出特征,包括:

4.根据权利要求1至3任一项所述的数据处理方法,其特征在于,所述对每个所述第一图像特征进行四向扫描,得到初始全局感受野,包括:

5.根据权利要求4所述的数据处理方法,其特征在于,所述总输出特征的第一维度为所述图像数据块总数量、第二维度为指定倍数的图像数据块特征深度、第三维度为所述图像数量,所述对所述总输出特征进行维度逆变换,得到逆变换结果,包括:

6.根据权利要求5所述的数据处理方法,其特征在于,所述横向数量与所述纵向数量相同,所述对所述逆变换结果进行四向扫描整合,得到第二图像特征,包括:

7.根据权利要求5所述的数据处理方法,其特征在于,所述方法,还包括:

8.一种数据处理装置,其特征在于,包括:

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至7任一项所述的数据处理方法。

10.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的数据处理方法。


技术总结
本申请实施例提供一种数据处理方法、装置、存储介质及计算机设备,通过先获取批量图像的第一图像特征,输入视觉状态空间模型的当前处理模块,经四向扫描得初始全局感受野,再进行特征调整和维度变换,使中间变量最后维度为批量图像数量,结合当前处理模块的模型权重参数确定总输出特征。之后对总输出特征逆变换,再四向扫描整合得第二图像特征。当当前处理模块为最后一个时,基于第二图像特征确定图像分类结果。本方法通过合理维度变换,避免TPU因最后维度为1无法并行处理,充分发挥高性能TPU计算潜力,提高TPU使用率,有效提升数据处理效率。

技术研发人员:郑清芳,黎浩坤,胡孟豪,池虹雨,刘说,叶齐祥,王耀威,谭明奎
受保护的技术使用者:鹏城实验室
技术研发日:
技术公布日:2025/4/17
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1