一种加速神经网络推理处理的方法、装置及介质与流程

文档序号:23055853发布日期:2020-11-25 17:34阅读:81来源:国知局
一种加速神经网络推理处理的方法、装置及介质与流程

本公开涉及移动终端数据处理技术领域,尤其涉及一种加速神经网络推理处理的方法、装置及介质。



背景技术:

现有技术中使用一处理器(例如cpu)执行神经网络推理处理的过程,需要提高处理速度。



技术实现要素:

为克服相关技术中存在的问题,本公开提供了一种加速神经网络推理处理的方法、装置及介质。

根据本公开实施例的第一方面,提供一种加速神经网络推理处理的方法,包括:

在第一处理器对第一输入数据进行预处理,获得第二输入数据;

在第二处理器对所述第二输入数据进行神经网络推理处理,获得推理处理结果数据;

在所述第一处理器对所述推理处理结果数据进行所述预处理的逆向处理,获得输出数据。

在一实施方式中,所述预处理包括:量化;

或者,所述预处理包括数据格式转换;

或者,所述预处理包括量化和数据格式转换。

在一实施方式中,所述第一处理器是并行运算类处理器;所述第二处理器是人工智能运算类处理器。

在一实施方式中,所述第一处理器的并行处理能力大于设定并行处理能力。

在一实施方式中,所述方法还包括:在零拷贝内存存储所述第二输入数据,以及在零拷贝内存存储所述推理处理结果数据。

根据本公开实施例的第二方面,提供一种加速神经网络推理处理的装置,包括:第一处理模块和第二处理模块;

所述第一处理模块,被配置为对第一输入数据进行预处理,获得第二输入数据;还被配置为对所述第二处理器输出的推理处理结果数据进行预处理的逆向处理,获得输出数据;

所述第二处理模块,被配置为对所述第二输入数据进行神经网络推理处理,获得推理处理结果数据。

在一实施方式中,所述预处理包括:量化;

或者,所述预处理包括数据格式转换;

或者,所述预处理包括量化和数据格式转换。

在一实施方式中,所述第一处理器是并行运算类处理器;所述第二处理器是人工智能运算类处理器。

在一实施方式中,所述第一处理器的并行处理能力大于设定并行处理能力。

在一实施方式中,所述装置还包括存储模块,被配置为在零拷贝内存存储所述第二输入数据,以及在零拷贝内存存储所述推理处理结果数据。

根据本公开实施例的第三方面,提供了一种加速神经网络推理处理的装置,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为执行所述存储器中的可执行指令以实现所述方法的步骤。

根据本公开实施例的第四方面,提供了一种非临时性计算机可读存储介质,其上存储有可执行指令,该可执行指令被处理器执行时实现所述方法的步骤。

本公开实施例提供的技术方案可以包括以下有益效果:使用不同的处理器完成整个神经网络推理处理的过程,使处理工作量分散到不同的处理器上,提高神经网络推理处理效率。尤其在移动终端的数据处理压力较大时,可以有效提高神经网络推理处理效率。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种加速神经网络推理处理的方法的流程图;

图2是根据一示例性实施例示出的一种加速神经网络推理处理的装置的结构图;

图3是根据一示例性实施例示出的一种加速神经网络推理处理的装置的结构图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本文相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本文的一些方面相一致的装置和方法的例子。

本公开实施例中提供一种加速神经网络推理处理的方法。参照图1,图1是根据一示例性实施例示出的一种加速神经网络推理处理的方法的流程图。如图1所示,此方法包括:

步骤s11,在第一处理器对第一输入数据进行预处理,获得第二输入数据。

步骤s12,在第二处理器对所述第二输入数据进行神经网络推理处理,获得推理处理结果数据。

步骤s13,在所述第一处理器对所述推理处理结果数据进行预处理的逆向处理,获得输出数据。

本实施例中,使用不同的处理器完成整个神经网络推理处理的过程,使处理工作量分散到不同的处理器上,提高神经网络推理处理效率。尤其在移动终端的数据处理压力较大时,可以有效提高神经网络推理处理效率。

本公开实施例中提供一种加速神经网络推理处理的方法,包括图1所示的方法,并且:所述预处理包括量化;

或者,所述预处理包括数据格式转换;

或者,所述预处理包括量化和数据格式转换。

在一实施方式中,一些处理器对于定点运算的位数做了固定的限制,为了计算方便,需要进行数据格式转换,此数据格式转换包括:定点运算的位数的转换。

在一实施方式中,深度学习框架的输入数据格式和输出数据格式是nhwc或nchw。第二处理器的输入数据格式包括d32和imagemajor两种方式,常用的为d32格式,特殊情况下采用imagemajor方式。预处理中数据格式转换包括:nhwc至d32的转换,nchw至d32的转换,nhwc至imagemajor的转换,nchw至imagemajor的转换。

在一实施方式中,需要对数据进行量化处理,量化的精度根据设定规则确定。例如:量化是把32位浮点数根据量化系数(scale)和零点值(zero_point)转换成8位定点数据。

量化的逆向处理为反量化,数据格式转换的逆向处理为反向数据格式转换。预处理依次包括量化和数据格式转换时,预处理的逆向处理是反量化和反向数据格式转换。

本公开实施例中提供一种加速神经网络推理处理的方法,包括图1所示的方法,并且:

所述第一处理器是并行运算类处理器;所述第二处理器是人工智能运算类处理器。

在一实施方式中,所述第一处理器的并行处理能力大于设定并行处理能力。例如:设置一个设定并行处理能力,选择并行处理能力大于设定并行处理能力的处理器作为第一处理器。一般情况下,第一处理器的并行处理能力大于cpu的并行处理能力。

例如:第一处理器是图形处理器(graphicsprocessingunit,gpu),第二处理器是神经网络处理器(npu)。

本实施例中,利用第一处理器的并行计算能力对整体神经网络推理的过程进行加速。

本公开实施例中提供一种加速神经网络推理处理的方法,包括图1所示的方法,并且:此方法还包括:在零拷贝内存存储所述第二输入数据,以及在零拷贝内存存储所述推理处理结果数据。

在一实施方式中,零拷贝内存是ion内存。

本实施例中,使用零拷贝内存进行存储,可以实现零拷贝内存的共享的同时避免数据复制操作,提高数据处理效率。

本公开实施例中提供一种加速神经网络推理处理的装置,参照图2,图2是根据一示例性实施例示出的一种加速神经网络推理处理的装置的结构图。如图2所示,此装置包括:

第一处理模块和第二处理模块;

所述第一处理模块,被配置为对第一输入数据进行预处理,获得第二输入数据;还被配置为对所述第二处理器输出的推理处理结果数据进行预处理的逆向处理,获得输出数据;

所述第二处理模块,被配置为对所述第二输入数据进行神经网络推理处理,获得推理处理结果数据。

本公开实施例中提供一种加速神经网络推理处理的装置,此装置包括图2所示的模块,并且所述预处理包括量化;

或者,所述预处理包括数据格式转换;

或者,所述预处理包括量化和数据格式转换。

本公开实施例中提供一种加速神经网络推理处理的装置,此装置包括图2所示的模块,并且所述第一处理器是并行运算类处理器;所述第二处理器是人工智能运算类处理器。

本公开实施例中提供一种加速神经网络推理处理的装置,此装置包括图2所示的模块,并且所述第一处理器的并行处理能力大于设定并行处理能力。

例如:第一处理器是图形处理器(graphicsprocessingunit,gpu),第二处理器是神经网络处理器(npu)。

本公开实施例中提供一种加速神经网络推理处理的装置,此装置包括图2所示的模块,并且所述装置还包括存储模块,被配置为在零拷贝内存存储所述第二输入数据,以及在零拷贝内存存储所述推理处理结果数据。

本公开实施例中提供一种加速神经网络推理处理的装置,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为执行所述存储器中的可执行指令以实现所述方法的步骤。

本公开实施例中提供一种非临时性计算机可读存储介质,其上存储有可执行指令,该可执行指令被处理器执行时实现所述方法的步骤。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图3是根据一示例性实施例示出的一种加速神经网络推理处理的装置300的框图。例如,装置300可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

参照图3,装置300可以包括以下一个或多个组件:处理组件302,存储器304,电源组件306,多媒体组件308,音频组件310,输入/输出(i/o)的接口312,传感器组件314,以及通信组件316。

处理组件302通常控制装置300的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件302可以包括一个或多个处理器320来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件302可以包括一个或多个模块,便于处理组件302和其他组件之间的交互。例如,处理组件302可以包括多媒体模块,以方便多媒体组件308和处理组件302之间的交互。

存储器304被配置为存储各种类型的数据以支持在设备300的操作。这些数据的示例包括用于在装置300上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。

电源组件306为装置300的各种组件提供电力。电源组件306可以包括电源管理系统,一个或多个电源,及其他与为装置300生成、管理和分配电力相关联的组件。

多媒体组件308包括在所述装置300和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件308包括一个前置摄像头和/或后置摄像头。当设备300处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件310被配置为输出和/或输入音频信号。例如,音频组件310包括一个麦克风(mic),当装置300处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中,音频组件310还包括一个扬声器,用于输出音频信号。

i/o接口312为处理组件302和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件314包括一个或多个传感器,用于为装置300提供各个方面的状态评估。例如,传感器组件314可以检测到设备300的打开/关闭状态,组件的相对定位,例如所述组件为装置300的显示器和小键盘,传感器组件314还可以检测装置300或装置300一个组件的位置改变,用户与装置300接触的存在或不存在,装置300方位或加速/减速和装置300的温度变化。传感器组件314可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件314还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件316被配置为便于装置300和其他设备之间有线或无线方式的通信。装置300可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件316还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。

在示例性实施例中,装置300可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器304,上述指令可由装置300的处理器320执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本文的其它实施方案。本申请旨在涵盖本文的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本文的一般性原理并包括本文未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本文的真正范围和精神由下面的权利要求指出。

应当理解的是,本文并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本文的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1