一种图像特征处理方法和装置与流程

文档序号：29793272发布日期：2022-04-23 18:11阅读：150来源：国知局

1.本发明涉及计算机技术领域，尤其涉及一种图像特征处理方法和装置。

背景技术：

2.立体匹配stereo matching，通常也称为视差估计，旨在立体图像中找到一对相关联的匹配点，是自动驾驶视觉技术的重要子类。由于多种多样的实际问题，例如大的弱纹理区域(墙壁，天空和其它背景)、遮挡、反射面以及其他因素，使得立体匹配任务具有挑战性，其难点在于消除匹配图像的歧义性和模糊性。
3.现有通常采用代价聚合方式解决上述难点：gc-net构建了代价聚合体，并使用3d卷积神经网络对代价聚合体进行了信息聚合；psmnet在gc-net的基础上做出了改进，但仍使用前述构建代价聚合体的结构，这种构建代价聚合体并使用3d卷积神经网络来进行聚合的网络框架影响深远，优点是精度极高，截至目前仍然被学者们广泛使用与研究。
4.在实现本发明的过程中，发明人发现现有技术至少存在如下问题：由于构建了庞大的代价聚合体并使用3d卷积神经网络来聚合，因而框架较为庞大(相对于全程均使用2d卷积神经网络而言)，耗时较长。另外，传统采用0～最大视差之间的所有值来构建代价聚合体的方式，虽可以构建足够多的代价信息，使网络具有足够高的精度，但通常也是整个网络推断速度较慢的关键因素。

技术实现要素：

5.有鉴于此，本发明实施例提供一种图像特征处理方法和装置，至少能够解决现有psmnet框架过于庞大，且使用0～最大视差之间的所有值构建代价聚合体，会导致网络推断速度较慢的现象。
6.为实现上述目的，根据本发明实施例的一个方面，提供了一种图像特征处理方法，包括：利用双目相机生成左图像和右图像，使用特征提取网络提取左图像和/或右图像的特征，得到图像特征；其中，所述图像特征为左图像特征和/或右图像特征；以预设代价聚合体缩放因子为步长，从初始值遍历至所述图像特征的最大视差，得到多个视差以构建第一代价聚合体进行聚合处理，生成第一视差图；基于所述图像特征和所述第一视差图，构建第二代价聚合体以进行聚合处理，生成第二视差图；使用二维卷积神经网络，对所述第二视差图进行精炼处理，以生成所述左图像特征和所述右图像特征的目标视差图。
7.可选的，其特征在于，在所述图像特征为左图像特征的情况下，所述基于所述图像特征和所述第一视差图，构建第二代价聚合体以进行聚合处理，包括：对于所述左图像特征中的任一点，获取在所述第一视差图中的粗略视差；其中，粗略视差为对所述任一点进行视差粗估计得到；获取所述任一点的横坐标和纵坐标，计算横坐标减去所述粗略视差的数值后的新横坐标，判断所述右图像特征中是否存在与新横坐标和纵坐标对应的点；若不存在，则进行填充0操作，否则，将点沿横轴正方向平移所述粗略视差个单位；其中，平移后的右图像特征尺寸不变；对平移后的右图像特征与所述第一视差图进行级联，获得匹配张量，之后
将匹配张量在视差维度上逐单位地与所述左图像特征相减并取绝对值，得到第二代价聚合体以进行聚合处理。
8.可选的，在所述图像特征为右图像特征的情况下，所述基于所述图像特征和所述第一视差图，构建第二代价聚合体以进行聚合处理，包括：对于所述左图像特征中的任一点，获取在所述第一视差图中的粗略视差；获取所述任一点的横坐标和纵坐标，计算横坐标加上所述粗略视差的数值后的新横坐标，判断所述左图像特征中是否存在与新横坐标和纵坐标对应的点；若不存在，则进行填充0操作，否则，将点沿横轴负方向平移所述粗略视差个单位；其中，平移后的左图像特征尺寸不变；对平移后的左图像特征与所述第一视差图进行级联，获得匹配张量，之后将匹配张量在视差维度上逐单位地与所述右图像特征相减并取绝对值，得到第二代价聚合体以进行聚合处理。
9.可选的，在所述图像特征包括左图像特征和右图像特征的情况下，所述基于所述图像特征和所述第一视差图，构建第二代价聚合体以进行聚合处理，包括：同时确定左/右图像特征中任一个通道的高度和宽度，创建值为1到宽度的一维矩阵，在垂直方向上重复高度次，以生成一个空二维张量；获取所述任一通道中每个点在所述第一视差图中的粗略视差，将粗略视差按照点位置逐个赋值到所述空二维张量上，得到左/右图像特征的二维张量；以及在右图像特征的二维张量最左侧补0；对所述左图像特征的二维张量取负值并进行激活处理，得到映射值，以所述映射值为横坐标，结合每个点在所述左图像特征的纵坐标，生成映射到所述右图像特征二维张量上的映射坐标；基于映射坐标构建匹配张量，将所述匹配张量在视差维度上与所述左图像特征相减并取绝对值，得到第二代价聚合体以进行聚合处理。
10.可选的，所述方法还包括：基于所述粗略视差、所述预设代价聚合体缩放因子、预设卷积网络适应因子，生成与所述任一点对应的视差区间；以1为步长，从视差区间的最左端开始选取多个视差，统计多个视差的数量，得到第二代价聚合体在视差维度上的长度。
11.可选的，第一代价聚合体在视差维度上的长度，为所述多个视差的数量加1。
12.可选的，所述方法还包括：使用第一三维卷积神经网络对第一代价聚合体进行聚合处理，得到第一张量，进而在视差维度上对所述第一张量进行回归处理；以及使用第二三维卷积神经网络对第二代价聚合体进行聚合处理，得到第二张量，进而在视差维度上对所述第二张量进行回归处理。
13.可选的，所述方法还包括：对于任一视差图上的任一点，获取在所述任一视差图上的视差预测值和视差真实值，以计算两者差值；响应于差值的绝对值小于1，采用预设第一函数计算所述任一点的平滑损失，否则采用预设第二函数计算所述任一点的平滑损失；累加所有点的平滑损失，将总平滑损失与所述任一视差图上的总点数的比值，作为所述任一视差图的损失值，结合每个卷积神经网络的预设权重值，以累加得到所有视差图的总损失；基于所述总损失调整每个卷积神经网络的参数，重复上述迭代过程，直至迭代后的总损失达到预设数值为止。
14.可选的，所述使用二维卷积神经网络，对所述第二视差图进行精炼处理，以生成所述左图像特征和所述右图像特征的目标视差图，包括：使用一次性双线性插值方法，对所述第一视差图和所述第二视差图进行两次上采样处理，得到两次采样结果以进行级联；将级联结果输入到二维卷积神经网络进行处理，并构建残差结构，得到所述左图像特征和所述
右图像特征之间的目标视差图。
15.可选的，在所述生成所述左图像特征和所述右图像特征的目标视差图之后，所述方法还包括：基于所述目标视差图，对所述双目相机中的左图像和右图像进行视差校正。
16.为实现上述目的，根据本发明实施例的另一方面，提供了一种图像特征处理装置，包括：特征提取模块，用于利用双目相机生成左图像和右图像，使用特征提取网络提取左图像和/或右图像的特征，得到图像特征；其中，所述图像特征为左图像特征和/或右图像特征；第一视差图模块，用于以预设代价聚合体缩放因子为步长，从初始值遍历至所述图像特征的最大视差，得到多个视差以构建第一代价聚合体进行聚合处理，生成第一视差图；第二视差图模块，用于基于所述左图像特征、所述右图像特征和所述第一视差图，构建第二代价聚合体以进行聚合处理，生成第二视差图；目标视差图模块，用于使用二维卷积神经网络，对所述第二视差图进行精炼处理，以生成所述左图像特征和所述右图像特征的目标视差图。
17.可选的，在所述图像特征为左图像特征的情况下，所述第二视差图模块，用于：对于所述左图像特征中的任一点，获取在所述第一视差图中的粗略视差；其中，粗略视差为对所述任一点进行视差粗估计得到；获取所述任一点的横坐标和纵坐标，计算横坐标减去所述粗略视差的数值后的新横坐标，判断所述右图像特征中是否存在与新横坐标和纵坐标对应的点；若不存在，则进行填充0操作，否则，将点沿横轴正方向平移所述粗略视差个单位；其中，平移后的右图像特征尺寸不变；对平移后的右图像特征与所述第一视差图进行级联，获得匹配张量，之后将匹配张量在视差维度上逐单位地与所述左图像特征相减并取绝对值，得到第二代价聚合体以进行聚合处理。
18.可选的，在所述图像特征为右图像特征的情况下，所述第二视差图模块，用于：对于所述左图像特征中的任一点，获取在所述第一视差图中的粗略视差；获取所述任一点的横坐标和纵坐标，计算横坐标加上所述粗略视差的数值后的新横坐标，判断所述左图像特征中是否存在与新横坐标和纵坐标对应的点；若不存在，则进行填充0操作，否则，将点沿横轴负方向平移所述粗略视差个单位；其中，平移后的左图像特征尺寸不变；对平移后的左图像特征与所述第一视差图进行级联，获得匹配张量，之后将匹配张量在视差维度上逐单位地与所述右图像特征相减并取绝对值，得到第二代价聚合体以进行聚合处理。
19.可选的，在所述图像特征包括左图像特征和右图像特征的情况下，所述第二视差图模块，用于：同时确定左/右图像特征中任一个通道的高度和宽度，创建值为1到宽度的一维矩阵，在垂直方向上重复高度次，以生成一个空二维张量；获取所述任一通道中每个点在所述第一视差图中的粗略视差，将粗略视差按照点位置逐个赋值到所述空二维张量上，得到左/右图像特征的二维张量；以及在右图像特征的二维张量最左侧补0；对所述左图像特征的二维张量取负值并进行激活处理，得到映射值，以所述映射值为横坐标，结合每个点在所述左图像特征的纵坐标，生成映射到所述右图像特征二维张量上的映射坐标；基于映射坐标构建匹配张量，将所述匹配张量在视差维度上与所述左图像特征相减并取绝对值，得到第二代价聚合体以进行聚合处理。
20.可选的，所述第二视差图模块，还用于：基于所述粗略视差、所述预设代价聚合体缩放因子、预设卷积网络适应因子，生成与所述任一点对应的视差区间；以1为步长，从视差区间的最左端开始选取多个视差，统计多个视差的数量，得到第二代价聚合体在视差维度
上的长度。
21.可选的，第一代价聚合体在视差维度上的长度，为所述多个视差的数量加1。
22.可选的，所述第一视差图模块，用于：使用第一三维卷积神经网络对第一代价聚合体进行聚合处理，得到第一张量，进而在视差维度上对所述第一张量进行回归处理；以及所述第二视差图模块，用于：使用第二三维卷积神经网络对第二代价聚合体进行聚合处理，得到第二张量，进而在视差维度上对所述第二张量进行回归处理。
23.可选的，装置还包括迭代模块，用于：对于任一视差图上的任一点，获取在所述任一视差图上的视差预测值和视差真实值，以计算两者差值；响应于差值的绝对值小于1，采用预设第一函数计算所述任一点的平滑损失，否则采用预设第二函数计算所述任一点的平滑损失；累加所有点的平滑损失，将总平滑损失与所述任一视差图上的总点数的比值，作为所述任一视差图的损失值，结合每个卷积神经网络的预设权重值，以累加得到所有视差图的总损失；基于所述总损失调整每个卷积神经网络的参数，重复上述迭代过程，直至迭代后的总损失达到预设数值为止。
24.可选的，所述目标视差图模块，用于：使用一次性双线性插值装置，对所述第一视差图和所述第二视差图进行两次上采样处理，得到两次采样结果以进行级联；将级联结果输入到二维卷积神经网络进行处理，并构建残差结构，得到所述左图像特征和所述右图像特征之间的目标视差图。
25.可选的，装置还包括校正模块，用于：基于所述目标视差图，对所述双目相机中的左图像和右图像进行视差校正。
26.为实现上述目的，根据本发明实施例的再一方面，提供了一种代价聚合电子设备。
27.本发明实施例的电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一所述的图像特征处理方法。
28.为实现上述目的，根据本发明实施例的再一方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一所述的图像特征处理方法。
29.根据本发明所述提供的方案，上述发明中的一个实施例具有如下优点或有益效果：第一阶段代价聚合使用部分视差构建了较小的第一代价聚合体，并使用3d卷积神经网络聚合，最终获得了一个在较大尺度上较为精确，而在较小尺度上较为不精确的粗略视差图；第二阶段代价聚合则在粗略视差图的基础上，再次扩大一个较小的范围并使用范围内的全部视差构建第二代价聚合体，然后使用3d卷积神经网络聚合，使得网络在最小的尺度上再一次对以粗略视差为中心的视差范围进行聚合，输出更为精确的视差图；最后添加了视差精炼结构以进一步提升网络的精度。
30.上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
31.附图用于更好地理解本发明，不构成对本发明的不当限定。其中：
32.图1是根据本发明实施例的一种图像特征处理方法的主要流程示意图；
33.图2(a)是第一阶段3d卷积网络流程示意图；
34.图2(b)是第一阶段代价聚合的结构示意图；
35.图3是第一阶段和第二阶段的网络流程图；
36.图4是根据本发明实施例的一种可选的图像特征处理方法的流程示意图；
37.图5是根据本发明实施例的另一种可选的图像特征处理方法的流程示意图；
38.图6是根据本发明实施例的又一种可选的图像特征处理方法的流程示意图；
39.图7是根据本发明实施例的一种图像特征处理装置的主要模块示意图；
40.图8是本发明实施例可以应用于其中的示例性系统架构图；
41.图9是适于用来实现本发明实施例的移动设备或服务器的计算机系统的结构示意图。
具体实施方式
42.以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
43.对于本方案所涉及的词语，做解释如下：
44.视差：从具有一定距离的两个点上观察同一个目标所产生的方向差异。比如，当伸出一个手指放在眼前，先闭上右眼，用左眼看它；再闭上左眼，用右眼看它，会发现手指相对远方的物体的位置有了变化，这就是从不同角度去看同一点的视差。
45.感受野：感受器受刺激兴奋时，通过感受器官中的向心神经元将神经冲动(各种感觉信息)传到上位中枢，一个神经元所反应(支配)的刺激区域就叫做神经元的感受野(receptive field)。
46.代价聚合：逐像素匹配不是很精确，为了防止噪声干扰，通过惩罚每个位置的邻域视差变化来加入了平滑性约束。
47.参见图1，示出的是本发明实施例提供的一种图像特征处理方法的主要流程图，包括如下步骤：
48.s101：利用双目相机生成左图像和右图像，使用特征提取网络提取左图像和/或右图像的特征，得到图像特征；其中，所述图像特征为左图像特征和/或右图像特征；
49.s102：以预设代价聚合体缩放因子为步长，从初始值遍历至所述图像特征的最大视差，得到多个视差以构建第一代价聚合体进行聚合处理，生成第一视差图；
50.s103：基于所述图像特征和所述第一视差图，构建第二代价聚合体以进行聚合处理，生成第二视差图；
51.s104：使用二维卷积神经网络，对所述第二视差图进行精炼处理，以生成所述左图像特征和所述右图像特征的目标视差图。
52.上述实施方式中，对于步骤s101～s102，注意到现有使用3d卷积神经网络来聚合代价聚合体，因此代价聚合体的大小对其聚合速度、整个网络的推断速度有着直接的关系。传统构建代价聚合体，在视觉维度上是从0～最大视差(通常是192)的，相当于构建了整个搜索空间，因此，通过缩小代价聚合体的视差维度，即可使得整个网络在速度提升的前提下，仍保持有一定的精度。
53.本方案提供的网络基于psmnet3构建，使用分段的非全程代价聚合方式，替代现有psmnet中的构建代价聚合体与代价聚合方式，以专注于缓解现有3d代价聚合网络框架速度较慢的问题。整体结构与psmnet类似，分为特征提取、第一阶段代价聚合体构建与代价聚合、第二阶段代价聚合体构建与代价聚合、视差精炼四个阶段，其中特征提取阶段与现有psmnet相同，使用特征提取网络提取双目相机左、右图像中的高维特征，得到左右图像特征feature map。
54.第一阶段代价聚合体构建与代价聚合，目的在于对左和/或右feature map进行粗估计，得到对应的粗略视差图(即第一视差图)
55.该阶段首先在[0,d
max
)范围内，以c(代价聚合体缩放因子，需人为根据试验数据统计后指定，通常大于1，例如4)为步长，选取得到多个视差以构建第一代价聚合体，即稀疏代价聚合体；其中，d
max
为feature map层级的最大视差，通常随着网络的降采样，同步倍率地由初始最大视差降低，因而第一代价聚合体的大小约为传统代价聚合体大小的c分之一。
[0056]
另外，由于特征提取网络包含两层下采样层，因而d
max
为四分之一初始最大视差，即为四分之一d，假设所构建的第一代价聚合体在视差维度上共有d1个单位长度，则有：
[0057]
其中，[]表示向下取整。
[0058]
参见图2(a)和(b)所示，每个卷积核对上一层的输出作卷积。假设第一代价聚合体的feature map大小为32
×
0.0625d
×
0.25h
×
0.25w，优先按序使用3dconv0和3dconv1提取卷积特征，输出的feature map大小为32
×
0.0625d
×
0.25h
×
0.25w。
[0059]
之后使用3dstack1对3dconv1输出的feature map进行降维操作，3dstack1包括3d conv和3d conv(stride＝2)，其中，conv(stride＝2)进行降维操作时基本不会损耗特征，是目前常用的降维操作。继续使用3dstack2对3dstack1输出的feature map进行降维操作，得到的feature map大小为64
×
0.015625d
×
0.0625h
×
0.0625w。
[0060]
3dstack3以3dstack2输出的feature map作为输入，进行反卷积，得到反卷积结果，用以验证3dstack1提取到的feature map。同样，3dstack4以3dstack3输出的feature map作为输入进行反卷积，得到反卷积结果，用以验证3dconv1提取到的feature map。
[0061]
3dconv2以3dstack4输出的feature map作为输入进行卷积处理，提取特征，之后使用regression对3dconv2提取的特征进行线性回归处理，得到特征的线性组合为1
×
0.25h
×
0.25w。
[0062]
之后由层数较少、结构较为简单的第一3d卷积神经网络对第一代价聚合体进行聚合处理，最终得到0.0625d
×
0.25h
×
0.25w的第一张量，然后在视差维度上对该第一张量进行softmax操作并回归得到粗略视差图。假定softmax处理的结果用k表示，令di表示前述“多个视差”，则本阶段处理得到的粗略视差图为：
[0063][0064]
对于步骤s103，第二阶段代价聚合体构建与代价聚合，目的在于计算出与左/右feature map对应的精细视差图(即第二视差图)。
[0065]
参见图3所示，第二阶段代价聚合输入为左右两feature map、第一阶段得到的粗略视差图，通过3d cnn(convolutional neural networks，卷积神经网络)构建第二代价聚
合体。第一代价聚合体的大小假设为32
×
0.0625d
×
0.25h
×
0.25w，第二代价聚合体的大小在实验中同样为32
×
0.0625d
×
0.25h
×
0.25w，具体构建过程参见后续图4和图5所示描述，在此不再赘述。其中，cost-volume特指计算机视觉的立体匹配问题中的一种左右视差搜索空间。神经网络的权值共享weight sharing指从一个局部区域学习到的信息应用到图像的其它地方。上采样upsampling目的是放大图像，以显示在更高分辨率的显示设备上。
[0066]
由第二3d卷积神经网络对第二代价聚合体进行聚合处理，得到0.0625d
×
0.25h
×
0.25w的第二张量。此处的第二3d卷积神经网络与psmnet中的3d卷积神经网络几乎相同，唯一不同之处在于，第一个3d卷积核的输入通道在本方案中为32、各层输出feature map大小不同(本方案代价聚合体的视差维度仅有psmnet的四分之一)。或者为psmnet的一个stack(约为psmnet的3d网络的三分之一)。同第一阶段处理，之后在视觉维度上对第二张量进行softmax操作并回归得到精细视差图。
[0067]
另外，该阶段也可采取将非卷积神经网络的算法结合至卷积神经网络中的方式来计算粗略的左/右feature map的视差图，本方案也对其进行了探索，首先由简单的2d卷积层将输入feature map的通道降低至1，然后仍与传统的代价聚合体构建方式一样构建全程的代价聚合体，由于通道数为1，因此此处构建代价聚合体所消耗的时间较低，之后探索了两种方式来计算出视差图，分别为:1，对视差维度进行softmax操作后取softargmin；2.参考半全局立体匹配算法sgbm所介绍的方式计算视差图。
[0068]
需要说明的是，此处虽可以建立右feature map的精细视差图，但经过试验验证，左feature map的精细视差图相比右feature map的精细视差图的精度要高，因而可以仅计算出左feature map的精细视差图。
[0069]
对于步骤s104，视差精炼：使用轻量的2d卷积神经网络，对第二阶段所得精细视差图，进行进一步的视差精炼以提升网络的精度，该结构参考借鉴了deeppruner的视差精炼结构。3d卷积神经网络所得精细视差图的大小为1
×
0.25h
×
0.25w，需要通过两次上采样后，得到1
×h×
w的目标视差图(与真实视差图同大小)。
[0070]
首先使用一次双线性插值上采样两倍，将特征提取网络第一层降采样层卷积层的输出、第二阶段的3d卷积神经网络的最终代价值上采样两倍后的结果级联，输入至轻量的2d卷积神经网络，并在最后构建残差结构(加上输入的上采样一倍后的视差图)得到精炼后的视差图，之后再次通过双线性插值得到1
×h×
w的目标视差图。与deeppruner不同的是，本方案并未在第一次双线性插值后通过一层简单的2d卷积层聚合信息，轻量的2d卷积网络结构如表1所示：
[0071]
表1
[0072]
名称层设置输出feature map大小输入 45
×
0.50h
×
0.50w2dconv03
×3×
3,4545
×
0.50h
×
0.50w2dconvl3
×3×
3,4545
×
0.50h
×
0.50w2dconv23
×3×
3,4545
×
0.50h
×
0.50w2dconv33
×3×
3,45,dila＝245
×
0.50h
×
0.50w2dconv43
×3×
3,45,dila＝445
×
0.50h
×
0.50w2dconv53
×3×
3,4545
×
0.50h
×
0.50w
2dconv63
×3×
3,11
×
0.50h
×
0.50w
[0073]
双目相机中的立体视觉系统，在机器人导航、智能监控、自动驾驶等应用领域有着广泛的应用。因此，准确、快速的双目立体匹配对于立体视觉系统在移动设备的实时部署具有重要意义，如消除匹配图像的歧义性和模糊性。因而，在得到双目相机左图像特征和右图像特征之间的目标视差图后，可以使用该目标视差图对左右图像进行视差校正，或者判断该双目相机是否合格。
[0074]
上述实施例所提供的方法，基于由粗到精的两段非全程代价聚合体并聚合的方法，计算左右图像特征的视差图，解决了现有3d代价聚合网络的速度较慢的问题，同时能够保持有足够的精度。
[0075]
参见图4，示出了根据本发明实施例的一种可选的图像特征处理方法流程示意图，包括如下步骤：
[0076]
s401：对于左图像特征中的任一点，获取在第一视差图中的粗略视差；其中，粗略视差为对所述任一点进行视差粗估计得到；
[0077]
s402：获取所述任一点的横坐标和纵坐标，计算横坐标减去所述粗略视差的数值后的新横坐标，判断所述右图像特征中是否存在与新横坐标和纵坐标对应的点；
[0078]
s403：若不存在，则进行填充0操作，否则，将点沿横轴正方向平移所述粗略视差个单位；其中，平移后的右图像特征尺寸不变；
[0079]
s404：对平移后的右图像特征与所述第一视差图进行级联，获得匹配张量，之后将匹配张量在视差维度上逐单位地与所述左图像特征相减并取绝对值，得到第二代价聚合体以进行聚合处理。
[0080]
上述实施方式中，对于步骤s401～s404，此处描述构建第二代价聚合体的具体过程，仅需生成与左featuremap对应的粗略视差图和精细视差图。
[0081]
左featuremap上每一个像素点所可能取到的粗略视差均有可能不同。假设左featuremap上的某一点p(x,y)，在粗略视差图上的粗略视差为d，则第二代价聚合体中点p的视差区间为(d-(c+σ),d+(c+σ))；其中，c为前述代价聚合体缩放因子，σ为自然数，表示卷积网络适应因子，也需人为定义。为使得后续3d卷积神经网络中feature map在视差维度上的尺寸不小于卷积核的尺寸，避免网络运行错误或是偏离预期，应当设置σ尽可能的小，如2。
[0082]
以1为步长，从视差区间(d-(c+σ),d+(c+σ))的最左端开始逐步选取多个视差，以确定第二代价聚合体的长度。假设第二代价聚合体在视差维度上共有d2个单位长度，则有：d2＝2
×
(c+σ)。由此可知，第一段的代价聚合网络在较大的尺度下聚合信息，第二段的代价聚合的视差区间覆盖第一阶段的两次步长，以1为步长聚合较小尺度下的信息。
[0083]
假设点p(x,y)需要以粗略视差d来构建第二代价聚合体，则需要将右feature map上的点(x-d,y)向右平移d个单位长度。与传统构建代价聚合体方式不同的是，同一时间左feature map上的各点，均可能需要以不同的粗略视差来构建代价聚合体，这可能会为代价聚合体的构建带来问题。例如，左feature map上有些点的横坐标小于其粗略视差d，因而在右feature map中找不到对应的点来进行平移，此时需要填充0，而有些点则无需填充，超过最大值的部分丢弃，以保持平移后的右feature map的尺寸不变。
[0084]
将平移后的右feature map与粗略视差图进行级联，获得匹配张量，之后将匹配张
量在视差维度上逐单位地与左feature map相减并取绝对值，得到第二代价聚合体。
[0085]
上述仅为依据左featuremap的粗略视差图计算第二代价聚合体的方式，实际也可以仅依据右featuremap的粗略视差图计算，其操作步骤与上述步骤大致相同，仅存在一些步骤不同，如：将左feature map上的点(x+d,y)向左平移d个单位长度，无点位置补0；将平移后的左feature map与粗略视差图进行级联；与右feature map相减并取绝对值，最终得到的是与右feature map对应的精细视差图，在此不再赘述。
[0086]
上述实施例所提供的方法，将第一阶段所得到的粗略视差图，重新扩大至一定的范围并重新进行匹配代价聚合，以进一步得到更为精锐的视差图，且所得代价聚合体相对于现有技术较小。
[0087]
参见图5，示出了根据本发明实施例的另一种可选的图像特征处理方法流程示意图，包括如下步骤：
[0088]
s501：同时确定左/右图像特征中任一个通道的高度和宽度，创建值为1到宽度的一维矩阵，在垂直方向上重复高度次，以生成一个空二维张量；
[0089]
s502：获取所述任一通道中每个点在第一视差图中的粗略视差，将粗略视差按照点位置逐个赋值到所述空二维张量上，得到左/右图像特征的二维张量；以及在右图像特征的二维张量最左侧补0；
[0090]
s503：对所述左图像特征的二维张量取负值并进行激活处理，得到映射值，以所述映射值为横坐标，结合每个点在所述左图像特征的纵坐标，生成映射到所述右图像特征二维张量上的映射坐标；
[0091]
s504：基于映射坐标构建匹配张量，将所述匹配张量在视差维度上与所述左图像特征相减并取绝对值，得到第二代价聚合体以进行聚合处理。
[0092]
上述实施方式中，对于步骤s501～s504，此处描述构建第二代价聚合体的具体过程，但需分别生成与左featuremap对应的粗略视差图和精细视差图，与右featuremap对应的粗略视差图。
[0093]
根据图4描述，使用遍历的方式能够很好地解决前述无对应点的问题，但在python中多重遍历运行较慢，所花时间成本较大且不应当，因此提出了一种巧妙的方式来完成第二代价聚合体的构建，具体地：
[0094]
假设feature map中每一通道的尺寸为h*w，在每一个feature map通道上同时进行代价聚合体的构建。首先创建值为1～w的一维矩阵，并在垂直方向上重复h次，得到h*w的二维张量t，此处的二维张量t为空。基于左feature map上每个点的粗略视差，构建一个h*w的二维张量m；基于右feature map上每个点的粗略视差，构建另一个h*w的二维张量，并在最左端补0以形成一个h*(w+1)的二维张量r。
[0095]
计算二维向量t-m的差值，对差值进行relu操作后，其左图像特征中各点的值即为：最终构建的匹配张量在当前视差维度、当前通道下，各点所对应的粗略视差在二维张量r横轴方向上的坐标。假设最终构建的匹配张量，在当前视差维度、当前通道下的某一点p
*
(x
*
,y
*
)，对t-m的结果进行relu操作后，(x
*
,y
*
)的值为v，则点p
*
(x
*
,y
*
)的值等于映射到r上的映射坐标点(v,y
*
)，可视为是m和r之间的映射关系。将基于映射坐标构建的匹配张量，在视差维度上逐单位地与左feature map相减并取绝对值，即可获得最终构建的第二代价聚合体。
[0096]
需要说明的是，第二阶段的匹配代价聚合相当于将第一阶段所得到的粗略视差图，重新扩大至一定的范围并重新进行匹配代价聚合，即认为最终的视差在以粗略视差为中心的一定范围内，是具有高可信度的。因此，第一阶段计算到的粗略视差在较大的尺度下应当具有较高的精准度，而在较小的尺度无需具有较高的精准度的特点。
[0097]
上述实施例所提供的方法，使用矩阵赋值代替了部分遍历，遍历部分仅仅需要遍历视差区间即可完成第二代价聚合体的构建。
[0098]
参见图6，示出了根据本发明实施例的又一种可选的图像特征处理方法流程示意图，包括如下步骤：
[0099]
s601：对于任一视差图上的任一点，获取在所述任一视差图上的视差预测值和视差真实值，以计算两者差值；
[0100]
s602：响应于差值的绝对值小于1，采用预设第一函数计算所述任一点的平滑损失，否则采用预设第二函数计算所述任一点的平滑损失；
[0101]
s603：累加所有点的平滑损失，将总平滑损失与所述任一视差图上的总点数的比值，作为所述任一视差图的损失值，结合每个卷积神经网络的预设权重值，以累加得到所有视差图的总损失；
[0102]
s604：基于所述总损失调整每个卷积神经网络的参数，重复上述迭代过程，直至迭代后的总损失达到预设数值为止。
[0103]
上述实施方式中，对于步骤s601～s603，损失函数应用在3d卷积神经网络的训练阶段，网络的训练阶段共有4个输出，而用于推断时仅只有一个，针对每个输出均构建一个损失函数，其中三个损失函数与现有psmnet一致。
[0104]
假设3d卷积神经网络中不同层次的输出损失，分别用o1、o2、o3表示，与现有psmnet不同的是，本网络输出了粗略视差图并对其构建了损失函数，使用o0表示。所有4个损失函数均采用l1表示，则有：
[0105][0106][0107]
其中，n表示视差图上的总点数，di表示点i的视差真实值，表示点i的视差预测值。
[0108]
假定最终损失由l表示，则有：l＝μ0o0+μ1o1+μ2o2+μ3o3；其中，μ0、μ1、μ2、μ3表示权重参数，μ1、μ2、μ3与现有psmnet的设置一致，分别为0.5、0.7、1(实际可调)，μ0优选设置为1。
[0109]
对于步骤s604，根据损失l可以调整3d卷积神经网络和2d卷积神经网络的参数，以重复上述过程，不断测试，直至总损失达到预设数值为止。
[0110]
上述实施例所提供的方法，为使反向传播的梯度随误差的变化更加平滑，使用smoothloss函数作为优化目标。
[0111]
本发明实施例提供一种由粗到精的两段3d代价聚合网络，称作分段的非全程代价聚合网络，即每一段代价聚合均只使用0到最大视差的一部分来构建代价聚合体，具体做法是：
[0112]
1、第一阶段从0开始到最大视差截止，每间隔c取一次视差以构建第一代价聚合体，使用层数较少的3d代价聚合网络对其进行聚合优化，得到粗略视差图；计算时间复杂度约为原方法的c分之1；
[0113]
2、第二阶段以第一阶段所得粗略视差图为基础，假设左feature map中的某一点p，在粗略视差图上的视差为d，则视差范围为(d-(c+σ),d+(c+σ))，然后通过3d卷积神经网络计算出精细视差图；计算时间复杂度约为原代价聚合方法的48分之2*(c+σ)。
[0114]
3、第一阶段的匹配代价聚合网络与第二阶段的匹配代价聚合网络均包含两次下采样且卷积核尺寸最小为3，因此从一定意义上而言，第二阶段的feature map具有在视差维度上的全局感受野，而psmnet在视差维度上的感受野则要小于最大视差。
[0115]
参见图7，示出了本发明实施例提供的一种图像特征处理装置700的主要模块示意图，包括：
[0116]
特征提取模块701，用于利用双目相机生成左图像和右图像，使用特征提取网络提取左图像和/或右图像的特征，得到图像特征；其中，所述图像特征为左图像特征和/或右图像特征；
[0117]
第一视差图模块702，用于以预设代价聚合体缩放因子为步长，从初始值遍历至图像特征的最大视差，得到多个视差以构建第一代价聚合体进行聚合处理，生成第一视差图；其中，所述图像特征为左图像特征和/或右图像特征；
[0118]
第二视差图模块703，用于基于所述左图像特征、所述右图像特征和所述第一视差图，构建第二代价聚合体以进行聚合处理，生成第二视差图；
[0119]
目标视差图模块704，用于使用二维卷积神经网络，对所述第二视差图进行精炼处理，以生成所述左图像特征和所述右图像特征的目标视差图。
[0120]
本发明实施装置中，在所述图像特征为左图像特征的情况下，所述第二视差图模块703，用于：对于所述左图像特征中的任一点，获取在所述第一视差图中的粗略视差；获取所述任一点的横坐标和纵坐标，计算横坐标减去所述粗略视差的数值后的新横坐标，判断所述右图像特征中是否存在与新横坐标和纵坐标对应的点；若不存在，则进行填充0操作，否则，将点沿横轴正方向平移所述粗略视差个单位；其中，平移后的右图像特征尺寸不变；对平移后的右图像特征与所述第一视差图进行级联，获得匹配张量，之后将匹配张量在视差维度上逐单位地与所述左图像特征相减并取绝对值，得到第二代价聚合体以进行聚合处理。
[0121]
本发明实施装置中，在所述图像特征为右图像特征的情况下，所述第二视差图模块703，用于：对于所述左图像特征中的任一点，获取在所述第一视差图中的粗略视差；获取所述任一点的横坐标和纵坐标，计算横坐标加上所述粗略视差的数值后的新横坐标，判断所述左图像特征中是否存在与新横坐标和纵坐标对应的点；若不存在，则进行填充0操作，否则，将点沿横轴负方向平移所述粗略视差个单位；其中，平移后的左图像特征尺寸不变；对平移后的左图像特征与所述第一视差图进行级联，获得匹配张量，之后将匹配张量在视差维度上逐单位地与所述右图像特征相减并取绝对值，得到第二代价聚合体以进行聚合处理。
[0122]
本发明实施装置中，在所述图像特征包括左图像特征和右图像特征的情况下，所述第二视差图模块703，用于：同时确定左/右图像特征中任一个通道的高度和宽度，创建值
为1到宽度的一维矩阵，在垂直方向上重复高度次，以生成一个空二维张量；获取所述任一通道中每个点在所述第一视差图中的粗略视差，将粗略视差按照点位置逐个赋值到所述空二维张量上，得到左/右图像特征的二维张量；以及在右图像特征的二维张量最左侧补0；对所述左图像特征的二维张量取负值并进行激活处理，得到映射值，以所述映射值为横坐标，结合每个点在所述左图像特征的纵坐标，生成映射到所述右图像特征二维张量上的映射坐标；基于映射坐标构建匹配张量，将所述匹配张量在视差维度上与所述左图像特征相减并取绝对值，得到第二代价聚合体以进行聚合处理。
[0123]
本发明实施装置中，所述第二视差图模块703，还用于：基于所述粗略视差、所述预设代价聚合体缩放因子、预设卷积网络适应因子，生成与所述任一点对应的视差区间；以1为步长，从视差区间的最左端开始选取多个视差，统计多个视差的数量，得到第二代价聚合体在视差维度上的长度。
[0124]
本发明实施装置中，第一代价聚合体在视差维度上的长度，为所述多个视差的数量加1。
[0125]
本发明实施装置中，所述第一视差图模块702，用于：使用第一三维卷积神经网络对第一代价聚合体进行聚合处理，得到第一张量，进而在视差维度上对所述第一张量进行回归处理；以及所述第二视差图模块703，用于：使用第二三维卷积神经网络对第二代价聚合体进行聚合处理，得到第二张量，进而在视差维度上对所述第二张量进行回归处理。
[0126]
本发明实施装置还包括迭代模块，用于：对于任一视差图上的任一点，获取在所述任一视差图上的视差预测值和视差真实值，以计算两者差值；响应于差值的绝对值小于1，采用预设第一函数计算所述任一点的平滑损失，否则采用预设第二函数计算所述任一点的平滑损失；累加所有点的平滑损失，将总平滑损失与所述任一视差图上的总点数的比值，作为所述任一视差图的损失值，结合每个卷积神经网络的预设权重值，以累加得到所有视差图的总损失；基于所述总损失调整每个卷积神经网络的参数，重复上述迭代过程，直至迭代后的总损失达到预设数值为止。
[0127]
本发明实施装置中，所述目标视差图模块703，用于：使用一次性双线性插值装置，对所述第一视差图和所述第二视差图进行两次上采样处理，得到两次采样结果以进行级联；将级联结果输入到二维卷积神经网络进行处理，并构建残差结构，得到所述左图像特征和所述右图像特征之间的目标视差图。
[0128]
本发明实施装置还包括校正模块，用于：基于所述目标视差图，对所述双目相机中的左图像和右图像进行视差校正。
[0129]
另外，在本发明实施例中所述装置的具体实施内容，在上面所述方法中已经详细说明了，故在此重复内容不再说明。
[0130]
图8示出了可以应用本发明实施例的示例性系统架构800，包括终端设备801、802、803，网络804和服务器805(仅仅是示例)。
[0131]
终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备，安装有各种通讯客户端应用，用户可以使用终端设备801、802、803通过网络804与服务器805交互，以接收或发送消息等。
[0132]
网络804用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
[0133]
服务器805可以是提供各种服务的服务器，用于执行图特征提取，粗略视差图、精细视差图以及目标视差图生成操作。
[0134]
需要说明的是，本发明实施例所提供的方法一般由服务器805执行，相应地，装置一般设置于服务器805中。
[0135]
应该理解，图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。
[0136]
下面参考图9，其示出了适于用来实现本发明实施例的终端设备的计算机系统900的结构示意图。图9示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
[0137]
如图9所示，计算机系统900包括中央处理单元(cpu)901，其可以根据存储在只读存储器(rom)902中的程序或者从存储部分908加载到随机访问存储器(ram)903中的程序而执行各种适当的动作和处理。在ram 903中，还存储有系统900操作所需的各种程序和数据。cpu 901、rom 902以及ram 903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。
[0138]
以下部件连接至i/o接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至i/o接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。
[0139]
特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(cpu)901执行时，执行本发明的系统中限定的上述功能。
[0140]
需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的
程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
[0141]
附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0142]
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括特征提取模块、第一视差图模块、第二视差图模块、目标视差图模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，目标视差图模块还可以被描述为“精炼视差图模块”。
[0143]
作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：
[0144]
利用双目相机生成左图像和右图像，使用特征提取网络提取左图像和/或右图像的特征，得到图像特征；其中，所述图像特征为左图像特征和/或右图像特征；
[0145]
以预设代价聚合体缩放因子为步长，从初始值遍历至所述图像特征的最大视差，得到多个视差以构建第一代价聚合体进行聚合处理，生成第一视差图；
[0146]
基于所述图像特征和所述第一视差图，构建第二代价聚合体以进行聚合处理，生成第二视差图；
[0147]
使用二维卷积神经网络，对所述第二视差图进行精炼处理，以生成所述左图像特征和所述右图像特征的目标视差图。
[0148]
根据本发明实施例的技术方案，第一阶段代价聚合使用部分视差构建了较小的第一代价聚合体，并使用3d卷积神经网络聚合，最终获得了一个在较大尺度上较为精确，而在较小尺度上较为不精确的粗略视差图；第二阶段代价聚合则在粗略视差图的基础上，再次扩大一个较小的范围并使用范围内的全部视差构建第二代价聚合体，然后使用3d卷积神经网络聚合，使得网络在最小的尺度上再一次对以粗略视差为中心的视差范围进行聚合，输出更为精确的视差图；最后添加了视差精炼结构以进一步提升网络的精度。
[0149]
上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐鑫
技术所有人：京东鲲鹏(江苏)科技有限公司
我是此专利的发明人

上一篇：一种具有氧气阻隔性能的包装阻隔膜结构的制作方法
上一篇：以太网帧安全传输方法、装置和系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。