一种人体实例分割方法、终端设备及存储介质

文档序号:26841859发布日期:2021-10-08 23:07阅读:98来源:国知局
一种人体实例分割方法、终端设备及存储介质

1.本发明涉及计算机视觉领域,尤其涉及一种人体实例分割方法、终端设备及存储介质。


背景技术:

2.目前实例分割技术主要分为两类:1)无候选目标框的算法(proposal

free methods),这类算法的核心思想是为每个点学习一个可区分的特征,然后再通过诸如mean

shift等聚类方法来将同一个实例的点聚集到一起。这类方法的问题在于最终聚类到一起的实例目标性比较差。此外,此类方法后处理步骤的时间成本通常较高;2)基于候选目标框的算法(proposal

based methods),这类算法通常先生成大量的候选框,然后再进行第二阶段的优化。但是如果候选框的偏差比较大,此类方法就很难奏效。同时还需要类似于非极大值抑制等操作来对密集的候选框进行选择,缺点是运算量特别大,另外当有高度重叠的物体时,非极大值抑制会将其中一个的候选框认为成重复的候选区域然后删掉。这就意味着基于候选框的实例分割框架很难处理物体高度重叠的情况。


技术实现要素:

3.为了解决上述问题,本发明提出了一种人体实例分割方法、终端设备及存储介质,克服了传统实例分割算法中针对无候选框算法和基于候选框算法的缺点,不需要聚类、候选框和非极大值抑制操作。
4.具体方案如下:
5.一种人体实例分割方法,包括以下步骤:
6.s1:当接收到包含人体的彩色图片时,基于图片的颜色信息,通过不同的距离计算算法进行像素间距离的计算,并将所有距离计算结果串联后,通过卷积层转换为图片特征;
7.s2:将图片划分为多个块,根据每个块对应的像素位置和图片特征,获取每个块对应的块特征,根据每个块对应的块特征和像素位置,得到图片的特征表示向量e;
8.s3:构建transformer编码器解码器网络,通过transformer编码器解码器网络将特征表示向量e转换为优化特征f
d

9.s4:将优化特征f
d
与特征表示向量e连接后得到f
c

10.s5:通过注意力机制对f
c
中的重要特征进行聚合后,将聚合结果输入卷积神经网络中,得到人体实例分割结果。
11.进一步的,距离计算算法包括欧式距离、切比雪夫距离和余弦距离。
12.进一步的,特征表示向量e=[f1+p1,f2+p2,...,f
n
+p
n
],其中,f
n
表示第n个块的块特征,p
n
表示第n个块的像素位置,n表示块的个数。
[0013]
进一步的,步骤s3的实现过程如下:
[0014]
s301:将特征表示向量e输入transformer编码块内,transformer编码块内的多头自注意力机制输出x1后,通过残差连接将多头自注意力机制的输出与特征表示向量e连接
后输出x2;对x2进行归一化处理后输出x3;将x3输入带有激活函数的全连接网络层后输出x4;将x4输入不带激活函数的全连接网络层后输出x5;设定x5为transformer编码块的输出;
[0015]
s302:堆叠多个transformer编码块组成transformer编码器,以使transformer编码器的输出的编码信息矩阵m与特征表示向量e的维度一致;
[0016]
s303:将transformer编码器输出的编码信息矩阵m作为transformer解码器的输入;transformer解码块包含两次多头自注意力机制;
[0017]
第一次自注意力机制的输出为y1;通过残差连接将transformer编码器的输出m和第一次自注意力机制的输出y1连接后输出y2;对y2进行归一化处理后输出y3;
[0018]
第二次自注意力机制中的第一层解码层的输入为特征表示向量e,对应的输出为y4;通过残差连接将第一次自注意力机制的输出y1与第二次自注意力机制的输出y4连接后输出y5;对y5进行归一化处理后输出y6;将y6输入带有激活函数的全连接网络层后输出y7;将y7输入不带激活函数的全连接网络层后输出y8;设定y8为transformer解码块的输出;
[0019]
s304:堆叠多个transformer解码块组成transformer解码器,transformer解码器的输出为优化特征f
d

[0020]
进一步的,步骤s4中通过concat操作将优化特征f
d
与特征表示向量e进行连接。
[0021]
一种人体实例分割终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。
[0022]
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。
[0023]
本发明采用如上技术方案,充分利用了transformer的优势来优化人体实例分割结果,通过多头自注意力机制产生更具可解释性的模型,不需要聚类,候选框和非极大值抑制操作等常规操作。
附图说明
[0024]
图1所示为本发明实施例一的流程图。
具体实施方式
[0025]
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。
[0026]
现结合附图和具体实施方式对本发明进一步说明。
[0027]
实施例一:
[0028]
本发明实施例提供了一种人体实例分割方法,如图1所示,其为本发明实施例所述的人体实例分割方法的流程图,所述方法包括以下步骤:
[0029]
s1:当接收到包含人体的彩色图片时,基于图片的颜色信息,通过不同的距离计算算法进行像素间距离的计算,并将所有距离计算结果串联后,通过卷积层转换为图片特征。
[0030]
该实施例中彩色图片表示为x∈r
3xhxw
,其中,3代表r、g、b三元素,h表示图片的高,w表示图片的宽。
[0031]
距离计算算法包括欧式距离、切比雪夫距离和余弦距离,用于计算两个像素之间的距离,计算公式分别为:
[0032]
欧氏距离
[0033]
切比雪夫距离d2=max(|r1‑
r2|,|g1‑
g2|,|b1‑
b2|);
[0034]
余弦距离
[0035]
其中,r1、g1、b1分别表示第一个像素点的红、绿、蓝三个通道的色度值,r2、g2、b2分别表示第二个像素点的红、绿、蓝三个通道的色度值。
[0036]
在其他实施例中,也可以根据需要选择其他的距离计算算法,在此不做限定。
[0037]
需要说明的是,将所有距离计算结果串联为将像素点与其之外的每个像素点的所有距离计算算法计算的距离均进行串联,假设共有n个像素点,则每个像素点将a*(n

1)个距离进行串联,a表示距离计算算法的个数,该实施例中为3。
[0038]
通过卷积层转换后的图片特征为固定维数,即d维,d的取值本领域技术人员可以自行设定,在此不做限定。
[0039]
s2:将图片划分为多个块(patch),根据每个块对应的像素位置和图片特征,获取每个块对应的特征,根据每个块对应的特征和像素位置,得到图片的特征表示向量e。
[0040]
该实施例中设定块的个数为n,则n的计算公式为:其中,s表示块的面积。
[0041]
特征表示向量e=[f1+p1,f2+p2,...,f
n
+p
n
],其中,f
n
表示第n个块的块特征,p
n
表示第n个块的像素位置。
[0042]
通过将图片卷积与颜色编码相结合,来学习块特征和像素位置,使得构建的特征表示向量可以更好的适用于transformer编码器的输入。
[0043]
s3:构建transformer编码器解码器网络,通过transformer编码器解码器网络将特征表示向量e转换为优化特征f
d

[0044]
该实施例中步骤s3的实现过程如下:
[0045]
s301:将特征表示向量e输入transformer编码块内,transformer编码块内的多头自注意力机制输出x1后,通过残差连接将多头自注意力机制的输出与特征表示向量e连接后输出x2;对x2进行归一化处理后输出x3;将x3输入带有激活函数的全连接网络层后输出x4;将x4输入不带激活函数的全连接网络层后输出x5;设定x5为transformer编码块的输出;
[0046]
s302:堆叠多个transformer编码块组成transformer编码器,以使transformer编码器的输出的编码信息矩阵m与特征表示向量e的维度一致;
[0047]
s303:将transformer编码器输出的编码信息矩阵m作为transformer解码器的输入;transformer解码块包含两次多头自注意力机制;
[0048]
第一次自注意力机制的输出为y1;通过残差连接将transformer编码器的输出m和第一次自注意力机制的输出y1连接后输出y2;对y2进行归一化处理后输出y3;
[0049]
第二次自注意力机制中的第一层解码层的输入为特征表示向量e,对应的输出为y4;通过残差连接将第一次自注意力机制的输出y1与第二次自注意力机制的输出y4连接后
输出y5;对y5进行归一化处理后输出y6;将y6输入带有激活函数的全连接网络层后输出y7;将y7输入不带激活函数的全连接网络层后输出y8;设定y8为transformer解码块的输出;
[0050]
s304:堆叠多个transformer解码块组成transformer解码器,transformer解码器的输出为优化特征f
d

[0051]
上述步骤中,归一化处理用于加快网络收敛。
[0052]
s4:将优化特征f
d
与特征表示向量e连接后得到f
c

[0053]
该实施例中通过concat操作将优化特征f
d
与特征表示向量e进行连接。
[0054]
s5:通过注意力机制对f
c
中的重要特征进行聚合后,将聚合结果f
a
输入卷积神经网络中,得到人体实例分割结果。
[0055]
通过注意力机制可以增强特征图的辨别能力。
[0056]
本发明实施例是对传统的基于候选框算法以及无候选框算法的有效改进,充分利用了transformer的优势来优化人体实例分割结果,通过多头自注意力机制产生更具可解释性的模型,不需要聚类,候选框和非极大值抑制操作等常规操作。
[0057]
实施例二:
[0058]
本发明还提供一种人体实例分割终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。
[0059]
进一步地,作为一个可执行方案,所述人体实例分割终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述人体实例分割终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,上述人体实例分割终端设备的组成结构仅仅是人体实例分割终端设备的示例,并不构成对人体实例分割终端设备的限定,可以包括比上述更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述人体实例分割终端设备还可以包括输入输出设备、网络接入设备、总线等,本发明实施例对此不做限定。
[0060]
进一步地,作为一个可执行方案,所称处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field

programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述人体实例分割终端设备的控制中心,利用各种接口和线路连接整个人体实例分割终端设备的各个部分。
[0061]
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述人体实例分割终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0062]
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。
[0063]
所述人体实例分割终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)以及软件分发介质等。
[0064]
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1