图像处理装置和方法与流程

文档序号：17335107发布日期：2019-04-05 22:23阅读：202来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及图像处理领域，尤其涉及一种图像处理装置和方法。

背景技术：

用户在拍完照片后，为了展现更好的图像效果，会对通过电脑中的ps软件或者手机中的修图软件对图像进行处理。

但是，在使用电脑中ps软件或者手机中的修图软件对图像处理之前，用户需要学习掌握软件的使用方法，并且在掌握软件的使用方法后，需要手动输入指令来控制电脑或者手机进行修图操作。这种方式对于用户来说，既耗费时间，并且用户体验差。

技术实现要素：

本发明实施例提供一种图像处理装置及方法，实现了输入语音即可对图像进行处理的功能，节省了用户在图像处理之前学习图像处理软件的时间，提高了用户体验。

第一方面，本发明实施例提供一种图像处理装置，包括：

语音采集器，用于采集用户输入的语音信号；

指令转换器，用于根据目标语音指令转换模型将所述语音信号转换成图像处理指令和目标区域，所述目标区域为待处理图像的处理区域；

图像处理器，用于根据所述图像处理指令和目标图像处理模型对所述标区域进行处理。

在一种可行的实施例中，所述指令转换器包括：

所述指令转换器包括：

第一语音识别器，用于将语音信号通过所述语音识别技术转换成文本信息；

语音文本转换器，用于将文本信息通过自然语言处理技术和所述目标语音指令转换模型转换成所述图像处理指令；

第一图像识别器，用于根据所述图像处理指令中的语义区域的粒度和图像识别技术对所述待处理图像进行区域划分，获取所述目标区域。

在一种可行的实施例中，所述指令转换器包括：

第二语音识别器，用于将所述语音信号通过所述语音识别技术、语义理解技术和所述目标语音指令转换模型转换成所述图像处理指令；

第二图像识别器，用于根据所述图像处理指令中的语义区域的粒度和图像识别技术对所述待处理图像进行区域划分，获取所述目标区域。

在一种可行的实施例中，所述图像处理装置还包括：

存储器，用于存储所述文本信息或者所述图像处理指令或者所述目标区域。

在一种可行的实施例中，其特征在于，所述图像处理器包括：

取指令模块，用于在预设时间窗口内从所述存储器中获取m条图像处理指令，所述m为大于1的整数；

处理模块，用于根据所述m条图像处理指令和所述目标图像处理模型对所述目标区域进行处理。

在一种可行的实施例中，所述处理模块用于：

删除所述m条图像处理指令中，功能相同的图像处理指令，以得到n条图像处理指令，所述n为小于所述m的整数；

根据所述n条图像处理指令和所述目标图像处理模型对所述目标区域进行处理。

在一种可行的实施例中，所述指令转换器用于：

对语音指令转换模型进行自适应训练，以得到所述目标语音指令转换模型。

在一种可行的实施例中，所述指令转换器对所述语音指令转换模型进行自适应训练是离线进行的或者是在线进行的。

在一种可行的实施例中，所述指令转换器对所述语音指令转换模型进行自适应训练是有监督的或者是无监督的。

在一种可行的实施例中，所述指令转换器还用于：

根据所述语音指令转换模型将所述语音信号换成预测指令；

确定所述预测指令与其对应的指令集合的相关系数；

根据所述预测指令与其对应的指令集合的相关系数优化所述语音指令转换模型，以得到所述目标语音指令转换模型。

在一种可行的实施例中，所述图像处理装置还包括：

训练器，用于根据所述语音指令转换模型将所述语音信号换成预测指令；确定所述预测指令与其对应的指令集合的相关系数；根据所述预测指令与其对应的指令集合的相关系数优化所述语音指令转换模型，以得到所述目标语音指令转换模型。

在一种可行的实施例中，所述图像处理器用于：

对图像处理模型进行自适应训练，以得到所述目标图像处理模型。

在一种可行的实施例中，所述图像处理器对所述图像处理模型进行自适应训练是离线进行的或者是在线进行的。

在一种可行的实施例中，所述图像处理器对所述图像处理模型进行自适应训练是有监督或者无监督的。

在一种可行的实施例中，所述图像处理器还用于：

根据所述图像处理模型对所述待处理图像进行处理，以得到预测图像；

确定所述预测图像与其对应的目标图像的相关系数；

根据所述预测图像与其对应的目标图像的相关系数优化所述图像处理模型，以得到所述目标图像处理模型。

在一种可行的实施例中，所述训练器还用于：

根据所述图像处理模型对所述待处理图像进行处理，以得到预测图像；

确定所述预测图像与其对应的目标图像的相关系数；

根据所述预测图像与其对应的目标图像的相关系数优化所述图像处理模型，以得到所述目标图像处理模型。

第二方面，本发明实施例提供了一种图像处理方法，包括：

采集用户输入的语音信号；

根据目标语音指令转换模型将所述语音信号转换成图像处理指令和目标区域，所述目标区域为待处理图像的处理区域；

根据所述图像处理指令和目标图像处理模型对所述目标区域进行处理。

在一种可行的实施例中，所述根据目标语音指令转换模型将所述语音信号转换成图像处理指令和目标区域，包括：

将所述语音信号通过语音识别技术转换成文本信息；

将所述文本信息通过自然语言处理技术和所述目标语音指令转换模型转换成所述图像处理指令；

根据所述图像处理指令中的语义区域的粒度和图像识别技术对所述待处理图像进行区域划分，获取所述目标区域。

在一种可行的实施例中，所述根据目标语音指令转换模型将所述语音信号转换成图像处理指令和目标区域，包括：

将所述语音信号通过语音识别技术、语义理解技术和所述语音指令转换模型转换成所述图像处理指令；

根据所述图像处理指令中的语义区域的粒度和图像识别技术对所述待处理图像进行区域划分，获取所述目标区域。

在一种可行的实施例中，所述方法还包括：

存储所述文本信息或者所述图像处理指令或者所述目标区域。

在一种可行的实施例中，所述根据所述图像处理指令和目标图像处理模型对所述目标区域进行处理，包括：

在预设时间窗口内从所述存储器中获取m条图像处理指令，所述m为大于1的整数；

根据所述m条图像处理指令和所述目标图像处理模型对所述目标区域进行处理。

在一种可行的实施例中，所述根据所述m条图像处理指令和所述目标图像处理模型对所述目标区域进行处理，包括：

删除所述m条图像处理指令中，功能相同的图像处理指令，以得到n条图像处理指令，所述n为小于所述m的整数；

根据所述n条图像处理指令和所述目标图像处理模型对所述目标区域进行处理。

在一种可行的实施例中，所述接收语音信号和待处理图像之前，所述方法还包括：

对语音指令转换模型进行自适应训练，以得到所述目标语音指令转换模型。

在一种可行的实施例中，所述对所述语音指令转换模型进行自适应训练是离线进行的或者是离线进行的。

在一种可行的实施例中，所述对所述语音指令转换模型进行自适应训练是有监督的或者是无监督的。

在一种可行的实施例中，所述对语音指令转换模型进行自适应训练，以得到所述目标语音指令转换模型，包括：

根据所述语音指令转换模型将所述语音信号换成预测指令；

确定所述预测指令与其对应的指令集合的相关系数；

根据所述预测指令与其对应的指令集合的相关系数优化所述语音指令转换模型，以得到所述目标语音指令转换模型。

在一种可行的实施例中，所述接收语音信号和待处理图像之前，所述方法还包括：

对图像处理模型进行自适应训练，以得到所述目标图像处理模型。

在一种可行的实施例中，所述对所述图像处理模型进行自适应训练是离线进行的或者是离线进行的。

在一种可行的实施例中，所述对所述图像处理模型进行自适应训练是有监督或者无监督的。

在一种可行的实施例中，所述对图像处理模型进行自适应训练，以得到所述目标图像处理模型，包括：

根据所述图像处理模型对所述待处理图像进行处理，以得到预测图像；

确定所述预测图像与其对应的目标图像的相关系数；

根据所述预测图像与其对应的目标图像的相关系数优化所述图像处理模型，以得到所述目标图像处理模型。

第三方面，本发明实施例还提供了一种图像处理芯片，该芯片包括本发明实施例第一方面的所述图像处理装置。

在一种可行的实施例中，上述芯片包括主芯片和协作芯片；

上述协作芯片包括本发明实施例第一方面的所述的装置，上述主芯片用于为上述协作芯片提供启动信号，控制待处理图像和图像处理指令传输至上述协作芯片。

第四方面，本发明实施例提供了一种芯片封装结构，该芯片封装结构包括本发明实施例第三方面所述的图像处理芯片。

第五方面，本发明实施例提供了一种板卡，该板卡包括本发明实施例第四方面所述的芯片封装结构。

第六方面，本发明实施例提供了一种电子设备，该电子设备包括本发明实施例的第五方面所述的板卡。

可以看出，在本发明实施例的方案中，语音采集器采集用户输入的语音信号；指令转换器根据目标语音指令转换模型将所述语音信号转换成图像处理指令和目标区域，所述目标区域为待处理图像的处理区域；图像处理器根据所述图像处理指令和目标图像处理模型对所述目标区域进行处理。与现有的图像处理技术相比，本发明通过语音进行图像处理，节省了用户在进行图像处理前学习图像处理软件的时间，提高了用户体验。

本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种图像处理装置的结构示意图；

图2为本发明实施例提供的另一种图像处理装置的局部结构示意图；

图3为本发明实施例提供的另一种图像处理装置的局部结构示意图；

图4为本发明实施例提供的另一种图像处理装置的局部结构示意图；

图5为本发明实施例提供的一种芯片的结构示意图；

图6为本发明实施例提供的另一种芯片的结构示意图；

图7为本发明实施例提供的一种电子设备的结构示意图；

图8为本发明实施例提供的一种图像处理方法的流程示意图。

具体实施方式

以下分别进行详细说明。

本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

请参见图1，图1为本发明实施例提供的一种图像处理装置的结构示意图。如图1所示，该图像处理装置100包括：

语音采集器101，用于采集用户输入的语音信号。

可选地，上述图像处理装置100还包括噪声过滤器，上述语音采集器101采集到上述语音信号后，上述噪声过滤器对该语音信号进行降噪处理。

可选地，该语音采集器可为语音传感器、麦克风、拾音器获取其他音频采集装置。

具体的，上述语音采集器101在接收上述语音信号时，还接收环境声音信号。上述噪声过滤器根据上述环境声音信号对上述语音信号进行降噪处理。该环境声音信号对上述语音信号来说是噪声。

进一步地，上述该音频采集器101可包括对麦克风阵列，既可用于采集上述语音信号和上述环境声音信号，又实现了降噪处理。

可选地，在一种可行的实施例中，上述图像处理装置还包括第一存储器。上述语音采集器采集到上述语音信号后，上述图像处理装置将上述语音信号存储到第一存储器中。

指令转换器102，用于根据目标语音指令转换模型将所述语音信号转换成图像处理指令和目标区域，所述目标区域为待处理图像的处理区域。

可选地，上述指令转换器102在根据语音识别技术、自然语言处理技术和图像识别技术将所述语音信号转换成图像处理指令和目标区域之前，上述指令转换器102从上述第一存储器中获取上述语音信号。

其中，所述指令转换器102包括：

第一语音识别器1021，用于将所述语音信号通过语音识别技术转换成文本信息；

语音文本转换器1022，用于将所述文本信息通过自然语言处理技术和所述目标语音指令转换模型转换成所述图像处理指令；

第一图像识别器1023，用于根据所述图像处理指令中的语义区域的粒度和图像识别技术对所述待处理图像进行区域划分，获取所述目标区域。

进一步地，上述指令转换器102还包括：

获取模块1026，用于获取上述图像处理指令中的语义区域的粒度。

举例说明上述语义区域，假设上述图像处理装置100根据语音信号确定对上述目标区域为人脸区域时，则上述语义区域为上述待处理图像中的人脸区域，上述图像处理装置以人脸为粒度，获取上述待处理图像中的多个人脸区域；当上述目标区域为背景，上述图像处理装置将上述待处理图像划分为背景区域和非背景区域；当上述目标区域为红颜色区域时，上述图像处理装置将上述待处理图像按照颜色划分为不同颜色的区域。

具体地，本发明中使用的语音识别技术包括但不限于采用人工神经网络(artificialneuralnetwork，ann)、隐马尔科夫模型(hiddenmarkovmodel，hmm)等模型，上述第一语音识别单元可根据上述语音识别技术处理上述语音信号；上述自然语言处理技术包括但不限于利用统计机器学习、ann等方法，上述语义理解单元可根据上述自然语言处理技术提取出语义信息；上述图像识别技术包括但不限于利用基于边缘检测的方法、阈值分割方法、区域生长与分水岭算法、灰度积分投影曲线分析、模板匹配、可变形模板、hough变换、snake算子、基于gabor小波变换的弹性图匹配技术、主动形状模型和主动外观模型等方法等算法，上述图像识别单元可根据上述图像识别技术将上述待处理图像分割成不同的区域。

在一种可行的实施例中，上述第一语音识别器1021将上述语音信号通过上述语音识别技术转换成文本信息，并将该文本信息保存到上述第一存储器中。上述语音文本转换器1022从上述第一存储器中获取上述文本信息，并将该文本信息通过自然语言处理技术和上述目标语音指令转换模型转换成图像处理指令，并将上述图像处理指令保存到上述第一存储器中；上述第一图像识别器1023根据上述图像处理指令中的语义区域的粒度和图像识别技术对上述待处理图像进行区域划分，获取上述目标区域，并将上述划分结果和上述目标区域存储到上述第二存储器中。

在一种可行的实施例中，上述指令转换器102也可以包括：

第二语音识别器1025，用于根据语音识别技术、自然语言处理技术和上述目标语音指令转换模型将上述语音信号直接转化为上述图像处理指令，并将该图像处理指令保存到第一存储器中；

第二图像识别器1026，根据上述图像处理指令对上述待处理图像进行操作的语义区域的粒度，将该待处理图像按照该语义区域的粒度进行划分，获取目标区域，该目标区域为对上述待处理图像进行处理的区域，并将划分后的结果以及上述目标区域存储到第二存储器中。

可选地，在上述语音采集器101接收上述语音信号和上述待处理图像之前，上述指令转换器102对语音指令转换模型进行自适应训练，以得到上述目标语音指令转换模型。

其中，上述对语音指令转换模型进行自适应训练是离线进行的或者是在线进行的。

具体地，上述对语音指令转换模型进行自适应训练是离线进行的具体是上述指令转换器102在其硬件的基础上对上述语音指令转换模型进行自适应训练，以得到目标语音指令转换模型；上述对语音指令转换模型进行自适应训练是在线进行的具体是一个不同于上述指令转换器102的云端服务器对上述语音指令转换模型进行自适应训练，以得到目标语音指令转换模型。上述指令转换器102在需要使用上述目标语音指令转换模型时，该指令转换器102从上述云端服务器中获取该目标语音指令转换模型。

可选地，上述对语音指令转换模型进行自适应训练是有监督的或者是监督的。

具体地，上述对上述语音指令转换模型进行自适应训练是有监督的具体为：

上述指令转换器102根据语音指令转换模型将上述语音信号换成预测指令；然后确定上述预测指令与其对应的指令集合的相关系数，该指令集合为人工根据语音信号得到的指令的集合；上述指令转换器102根据所述预测指令与其对应的指令集合的相关系数优化所述语音指令转换模型，以得到所述目标语音指令转换模型。

在一种可行的实施例中，上述图像处理装置100还包括：

训练器105，用于根据所述语音指令转换模型将所述语音信号换成预测指令；确定所述预测指令与其对应的指令集合的相关系数；根据所述预测指令与其对应的指令集合的相关系数优化所述语音指令转换模型，以得到所述目标语音指令转换模型。

举例说明，上述对语音指令转换模型进行自适应训练是有监督的具体包括：上述指令转换器102或者训练器105接收一段包含相关命令的语音信号，如改变图像的颜色、旋转图片等。每种命令对应一个指令集合。对用于自适应训练的输入的语音信号来说，对应的指令集合是已知的，上述指令转换器102或者训练器105以这些语音信号作为语音指令转换模型的输入数据，获取输出后的预测指令。上述指令转换器102或者训练器105计算上述预测指令与其对应的指令集合的相关系数，并根据该自适应地更新上述语音指令转换模型中的参数(如权值、偏置等等)，以提高上述语音指令转换模型的性能，进而得到上述目标语音指令转换模型。

所述图像处理装置100还包括：

存储器104，用于存储所述文本信息或者所述图像处理指令或者所述目标区域。

在一种可行的实施例中，上述存储器104与上述第一存储模块和第二存储模块可以是同一个存储模块，还可以是不同的存储模块。

图像处理器103，用于根据所述图像处理指令和目标图像处理模型对所述待处理图像进行处理。

其中，所述图像处理器103包括：

取指令模块1031，用于在预设时间窗口内从所述存储模块中获取m条图像处理指令，所述m为大于1的整数；

处理模块1032，用于根据所述m条图像处理指令和所述目标图像处理模型对所述目标区域进行处理。

可选地，所述处理模块1032用于：

删除所述m条图像处理指令中，功能相同的图像处理指令，以得到n条图像处理指令，所述n为小于所述m的整数；

根据所述n条图像处理指令和所述目标图像处理模型对所述目标区域进行处理。

具体地，上述预设时间窗口可以理解成预设时长。在预设时长内上述获取单元1031从上述存储模块104中获取m条图像处理指令后，上述处理模块1032对上述m条图像处理指令进行两两比较，将该m条图像处理指令中功能相同的指令删除，得到n条图像处理指令。上述处理模块1032根据上述n条处理指令和上述目标图像处理模型对上述待处理图像进行处理。

举例说明，上述处理模块1032对上述m条图像处理指令进行两两比较。当图像处理指令a和图像处理指令b一样时，上述处理模块1032删除上述图像处理指令a和b中开销最大的一条；当图像处理指令a和图像处理指令b不一样时，上述处理模块1032获取上述图像处理指令a和上述图像处理指令b的相似系数。当该相似系数大于相似阈值时，确定上述图像处理指令a和上述图像处理指令b功能相同，上述处理模块1032删除上述图像处理指令a和b中开销最大的一条；当上述相似系数小于上述相似阈值时，上述处理模块1032确定上述图像处理指令a和b的功能不同。该图像处理指令a和b为上述m条处理指令中的任意两条。

具体地，针对上述图像处理器103，其输入和输出均为图像。上述图像处理器103可以通过包括但不限定于ann和传统计算机视觉方法对上述待处理图像进行的处理包括但不局限于：美体(例如美腿，隆胸)，换脸、美化脸，换物体(猫换狗、斑马变马，苹果换桔子等)，换背景(后面的森林换成田野)，去遮挡(例如人脸遮住了一个眼睛，重新把眼睛重构出来)，风格转换(一秒钟变梵高画风)，位姿转换(例如站着变坐着，正脸变侧脸)、非油画变油画、更换图像背景的颜色和更换图像中物体所处的季节背景。

可选地，在上述语音采集器101接收上述语音信号之前，上述图像处理器103对图像处理模型进行自适应训练，以得到上述目标图像处理模型。

其中，上述对图像处理模型进行自适应训练是离线进行的或者是在线进行的。

具体地，上述对图像处理模型进行自适应训练是离线进行的具体是上述图像处理器103在其硬件的基础上对上述图像处理模型进行自适应训练，以得到目标语音指令转换模型；上述对图像处理模型进行自适应训练是在线进行的具体是一个不同于上述图像处理器103的云端服务器对上述图像处理模型进行自适应训练，以得到目标图像处理模型。上述图像处理器103在需要使用上述目标图像处理模型时，该图像处理器103从上述云端服务器中获取该目标图像处理模型。

可选地，上述对图像处理模型进行自适应训练是有监督的或者是监督的。

具体地，上述对上述图像处理模型进行自适应训练是有监督的具体为：

上述图像处理器103根据图像处理模型将上述语音信号换成预测图像；然后确定上述预测图像与其对应的目标图像的相关系数，该目标为人工根据语音信号对待处理图像进行处理得到的图像；上述图像处理器103根据所述预测图像与其对应的目标图像的相关系数优化所述图像处理模型，以得到所述目标图像处理模型。

在一种可行的实施例中，上述图像处理装置100还包括：

举例说明，上述对图像处理模型进行自适应训练是有监督的具体包括：上述图像处理器103或者训练器105接收一段包含相关命令的语音信号，如改变图像的颜色、旋转图片等。每种命令对应一张目标图像。对用于自适应训练的输入的语音信号来说，对应的目标图像是已知的，上述图像处理器103或者训练器105以这些语音信号作为图像处理模型的输入数据，获取输出后的预测图像。上述图像处理器103或者训练器105计算上述预测图像与其对应的目标图像的相关系数，并根据该自适应地更新上述图像处理模型中的参数(如权值、偏置等等)，以提高上述图像处理模型的性能，进而得到上述目标图像处理模型。

在一种可行的实施例中，所述图像处理装置100的指令转换器102可以用于对指令转换器102中的语音指令转换模型进行自适应训练，以得到目标语音指令转换模型：所述图像处理装置100的图像处理器103可以用于对图像处理器103中的图像处理模型进行自适应训练，以得到目标图像处理模型。

在一种可行的实施例中，所述图像处理装置100还包括：

训练其105，用于对指令转换器102中的语音指令转换模型和图像处理器103中的图像处理模型分别进行自适应训练，以得到目标语音指令转换模型和目标图像处理模型。

上述训练器105可以通过有监督的方法或者无监督的方法调整上述语音指令转换模型中或者上述图像处理模型中的结构与参数，以提高该语音指令转换模型或者图像处理模型的性能，最终得到目标语音指令转换模型或者目标图像处理模型。

在本实施例中，图像处理装置100是以模块的形式来呈现。这里的“模块”可以指特定应用集成电路(application-specificintegratedcircuit，asic)，执行一个或多个软件或固件程序的处理器和存储器，集成逻辑电路，和/或其他可以提供上述功能的器件。此外，以上语音采集器101、指令转换器102、图像处理器103、存储模块104和训练器105可通过图5、图6、图7、图8所示的人工神经网络芯片来实现。

可选地，上述图像处理装置100的指令转换器102或者图像处理器103的处理模块1032为人工神经网络芯片，即上述指令转换器102和上述图像处理器103的处理模块1032是两块独立的人工神经网络芯片，其结构分别如图5和图6所示。

在本装置中，指令转换器102和图像处理器103既可以串行执行，也可以通过软流水的方式执行，即图像处理器103在处理上一个图像时，指令转换器102可以处理下一个图像，这样可以提高硬件的吞吐率，提高图像处理效率。

参见图5，图5为一种人工神经网络芯片的结构框架示意图。如图5所示，该芯片包括：

控制单元510、存储单元520、输入输出单元530。

其中，上述控制单元510包括：

指令缓存单元511，用于存储待执行的指令，该指令包括神经网络运算指令和通用运算指令。

在一种实施方式中，指令缓存单元511可以是重排序缓存。

指令处理模块512、用于从指令缓存单元获取神经网络运算指令或通用运算指令，并对该指令进行处理并提供给上述神经网络运算单元519。其中，上述指令处理模块512包括：

取指模块513，用于从指令缓存单元中获取指令；

译码模块514，用于对获取的指令进行译码；

指令队列模块515，用于对译码后的指令进行顺序存储。

标量寄存模块516，用于存储上述指令对应的操作码和操作数，包括神经网络运算指令对应的神经网络运算操作码和操作数、以及通用运算指令对应的通用运算操作码和操作数。

处理依赖关系模块517，用于对上述指令处理模块512发来的指令及其对应的操作码和操作数进行判断，判断该指令与前一指令是否访问相同的数据，若是，将该指令存储在存储队列单元518中，待前一指令执行完毕后，将存储队列单元中的该指令提供给上述神经网络运算单元519；否则，直接将该指令提供给上述神经网络运算单元519。

存储队列单元518，用于在指令访问存储单元时，存储访问同一存储空间的连续两条指令。

具体地，为了保证上述连续两条指令执行结果的正确性，当前指令如果被检测到与之前指令的数据存在依赖关系，该连续两条指令必须在上述存储队列单元518内等待至依赖关系被消除，才可将该连续两条指令提供给上述神经网络运算单元。

神经网络运算单元519，用于处理指令处理模块或者存储队列单元传输过来的指令。

存储单元520包括神经元缓存单元521和权值缓存单元522，神经网络数据模型存储于上述神经元缓存单元521和权值缓存单元522中。

输入输出单元530，用于输入语音信号，并输出图像处理指令。

在一个实施方式中，存储单元520可以是高速暂存存储器，输入输出单元530可以是io直接内存存取模块。

具体地，上述芯片500即上述指令转换器102将语音信号转换为图像处理指令具体包括：

步骤501、取指令模块513从指令缓存单元511取出一条用于语音识别的运算指令，并将运算指令送往译码模块514。

步骤502、译码模块514对运算指令译码，并将译码后的指令送往指令队列单元515。

步骤503、从标量寄存模块516中获取所述指令对应的神经网络运算操作码和神经网络运算操作数。

步骤504、指令被送往处理依赖关系模块517；处理依赖关系模块517对指令对应的操作码和操作数进行判断，判断指令与之前尚未执行完的指令在数据上是否存在依赖关系，如果不存在，将所述指令直接送往神经网络运算单元519；如果存在，则指令需要在存储队列单元518中等待，直至其与之前尚未执行完的指令在数据上不再存在依赖关系，然后将所述指令送往神经网络运算单元519。

步骤505、神经网络运算单元519根据指令对应的操作码和操作数确定所需数据的地址和大小，从存储单元520取出所需数据，包括语音指令转换模型数据等。

步骤506、神经网络运算单元519执行所述指令对应的神经网络运算，完成相应处理，得到图像处理指令，并将图像处理指令写回存储单元520。

需要指出的是，上述存储单元520为图5所示的芯片的片上缓存单元。

参见图6，图6为另一种人工神经网络芯片的结构框架示意图。如图6所示，该芯片包括：

控制单元610、存储单元620、输入输出单元630。

其中，上述控制单元610包括：

指令缓存单元611，用于存储待执行的指令，该指令包括神经网络运算指令和通用运算指令。

在一种实施方式中，指令缓存单元611可以是重排序缓存。

指令处理模块612、用于从指令缓存单元获取神经网络运算指令或通用运算指令，并对该指令进行处理并提供给上述神经网络运算单元619。其中，上述指令处理模块612包括：

取指模块613，用于从指令缓存单元中获取指令；

译码模块614，用于对获取的指令进行译码；

指令队列模块615，用于对译码后的指令进行顺序存储。

标量寄存模块616，用于存储上述指令对应的操作码和操作数，包括神经网络运算指令对应的神经网络运算操作码和操作数、以及通用运算指令对应的通用运算操作码和操作数。

处理依赖关系模块617，用于对上述指令处理模块612发来的指令及其对应的操作码和操作数进行判断，判断该指令与前一指令是否访问相同的数据，若是，将该指令存储在存储队列单元618中，待前一指令执行完毕后，将存储队列单元中的该指令提供给上述神经网络运算单元619；否则，直接将该指令提供给上述神经网络运算单元619。

存储队列单元618，用于在指令访问存储单元时，存储访问同一存储空间的连续两条指令。

具体地，为了保证上述连续两条指令执行结果的正确性，当前指令如果被检测到与之前指令的数据存在依赖关系，该连续两条指令必须在上述存储队列单元618内等待至依赖关系被消除，才可将该连续两条指令提供给上述神经网络运算单元。

神经网络运算单元619，用于处理指令处理模块或者存储队列单元传输过来的指令。

存储单元620包括神经元缓存单元621和权值缓存单元622，神经网络数据模型存储于上述神经元缓存单元621和权值缓存单元622中。

输入输出单元630，用于输入图像处理指令和待处理图像，并输出处理后的图像。

在一个实施方式中，存储单元620可以是高速暂存存储器，输入输出单元630可以是io直接内存存取模块。

上述芯片即上述图像处理器103的处理模块1032进行图像处理的具体步骤包括：

步骤601、取指令模块613从指令缓存单元611取出一条指令转换器生成的图像处理的指令，并将运算指令送往译码模块614。

步骤602、译码模块614对运算指令译码，并将译码后的指令送往指令队列单元815。

步骤603、从标量寄存模块616中获取所述指令对应的神经网络运算操作码和神经网络运算操作数。

步骤604、指令被送往处理依赖关系模块617；处理依赖关系模块617对指令对应的操作码和操作数进行判断，判断指令与之前尚未执行完的指令在数据上是否存在依赖关系，如果不存在，将所述指令直接送往神经网络运算单元619；如果存在，则指令需要在存储队列单元618中等待，直至其与之前尚未执行完的指令在数据上不再存在依赖关系，然后将所述指令对应的微指令送往神经网络运算单元619。

步骤605、神经网络运算单元619根据所述指令对应的操作码和操作数确定所需数据的地址和大小，从存储单元620取出所需数据，包括待处理图像、图像处理模型数据等。

步骤606、神经网络运算单元619执行所述指令对应的神经网络运算，完成相应处理，并将处理结果写回存储单元620。

需要指出的是，上述存储单元620为图6所示的芯片的片上缓存单元。

需要说明的是，上述指令转换器102和上述图像处理器103的处理模块1032可均为人工神经网络芯片或者通用处理芯片，或者上述指令转换器102和上述图像处理器103的处理模块1032中，一个为人工神经网络芯片，一个为通用处理芯片。

可选地，上述图像处理装置可为数据处理装置、机器人、电脑、平板电脑、智能终端、手机、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储或者可穿戴设备。

可以看出，在本发明实施例的方案中，语音采集器获取用户输入的语音信号；指令转化器根据目标语音指令转换模型将所述语音信号转换成图像处理指令和对所述待处理图像的待处理区域；图像处理器根据所述图像处理指令和目标图像处理模型对所述待处理图像的处理区域进行处理。与现有的图像处理技术相比，本发明通过语音进行图像处理，节省了用户在进行图像处理前学习图像处理软件的时间，提高了用户体验。

在一种可行的实施例中，一种图像处理芯片包括上述图1所示的图像处理装置。

其中，上述芯片包括主芯片和协作芯片；

其中，上述协作芯片包括上述图5和图6所示的芯片。

可选地，上述图像处理芯片可用于摄像头，手机，电脑，笔记本，平板电脑或者其他图像处理装置。

在一种可行的实施例中，本发明实施例提供了一种芯片封装结构，该芯片封装结构包括上述图像处理芯片。

在一种可行的实施例中，本发明实施例提供了一种板卡，该板卡包括上述芯片封装结构。

在一种可行的实施例中，本发明实施例提供了一种电子设备，该电子设备包括上述板卡。

在一种可行的实施例的中，本发明实施例提供了另一种电子设备，该电子设备包括上述板卡，交互界面、控制单元和语音采集器。

如图7所示，语音采集器用于接收语音，并将语音和待处理图像作为输入数据传递给板卡内部的芯片。

可选地，上述图像处理芯片可为人工神经网络处理芯片。

优选地，语音采集器为麦克风或者多阵列麦克风。

其中板卡内部的芯片的包括同图5和图6所示的实施例，用于得到对应的输出数据(即处理后的图像)，并将其传输至交互界面中。

其中交互界面接收上述芯片(可以看成人工神经网络处理器)的输出数据，并将其转化为合适形式的反馈信息显示给用户。

其中控制单元接收用户的操作或命令，并控制整个图像处理装置的运作。

可选地，上述电子设备可为数据处理装置、机器人、电脑、平板电脑、智能终端、手机、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储或者可穿戴设备。

参见图8，图8为本发明实施例提供的一种图像处理方法的流程示意图。如图8所示，该方法包括：

s801、图像处理装置采集用户输入的语音信号。

s802、所述图像处理装置根据目标语音指令转换模型将所述语音信号转换成图像处理指令和目标区域，所述目标区域为待处理图像的处理区域。

在一种可行的实施例中，所述根据目标语音指令转换模型将所述语音信号转换成图像处理指令和目标区域，包括：

将所述语音信号通过语音识别技术转换成文本信息；

将所述文本信息通过自然语言处理技术和所述目标语音指令转换模型转换成所述图像处理指令；

根据所述图像处理指令中的语义区域的粒度和图像识别技术对所述待处理图像进行区域划分，获取所述目标区域。

在一种可行的实施例中，所述根据目标语音指令转换模型将所述语音信号转换成图像处理指令和目标区域，包括：

将所述语音信号通过语音识别技术、语义理解技术和所述语音指令转换模型转换成所述图像处理指令；

根据所述图像处理指令中的语义区域的粒度和图像识别技术对所述待处理图像进行区域划分，获取所述目标区域。

在一种可行的实施例中，所述方法还包括：

存储所述文本信息或者所述图像处理指令或者所述目标区域。

s803、所述图像处理装置根据所述图像处理指令和目标图像处理模型对所述目标区域进行处理。

在一种可行的实施例中，所述根据所述图像处理指令和目标图像处理模型对所述目标区域进行处理，包括：

在预设时间窗口内从所述存储模块中获取m条图像处理指令，所述m为大于1的整数；

根据所述m条图像处理指令和所述目标图像处理模型对所述目标区域进行处理。

在一种可行的实施例中，所述根据所述m条图像处理指令和所述目标图像处理模型对所述目标区域进行处理，包括：

删除所述m条图像处理指令中，功能相同的图像处理指令，以得到n条图像处理指令，所述n为小于所述m的整数；

根据所述n条图像处理指令和所述目标图像处理模型对所述目标区域进行处理。

在一种可行的实施例中，所述接收语音信号和待处理图像之前，所述方法还包括：

对语音指令转换模型进行自适应训练，以得到目标语音指令转换模型。

在一种可行的实施例中，所述对所述语音指令转换模型进行自适应训练是离线进行的或者是离线进行的。

在一种可行的实施例中，所述对所述语音指令转换模型进行自适应训练是有监督的或者是无监督的。

在一种可行的实施例中，所述对语音指令转换模型进行自适应训练，以得到目标语音指令转换模型，包括：

根据所述语音指令转换模型将所述语音信号换成预测指令；

确定所述预测指令与其对应的指令集合的相关系数；

根据所述预测指令与其对应的指令集合的相关系数优化所述语音指令转换模型，以得到所述目标语音指令转换模型。

在一种可行的实施例中，所述接收语音信号和待处理图像之前，所述方法还包括：

对图像处理模型进行自适应训练，以得到目标图像处理模型。

在一种可行的实施例中，所述对所述图像处理模型进行自适应训练是离线进行的或者是离线进行的。

在一种可行的实施例中，所述对所述图像处理模型进行自适应训练是有监督或者无监督的。

在一种可行的实施例中，所述对图像处理模型进行自适应训练，以得到目标图像处理模型，包括：

根据所述图像处理模型对所述待处理图像进行处理，以得到预测图像；

确定所述预测图像与其对应的目标图像的相关系数；

根据所述预测图像与其对应的目标图像的相关系数优化所述图像处理模型，以得到所述目标图像处理模型。

需要说明的是，图8所示的方法的各个步骤的具体实现过程可参见上述图像处理装置的具体实现过程，在此不再叙述。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元可以采用硬件的形式实现。

以上对本发明实施例进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上上述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：不公告发明人
技术所有人：上海寒武纪信息科技有限公司
我是此专利的发明人

上一篇：一种含醋酸卡泊芬净的冻干组合物及其制备方法与流程
上一篇：一种镜头及终端设备的制作方法