视频分割方法、装置、计算机设备和存储介质与流程

文档序号：33035589发布日期：2023-01-24 19:40阅读：26来源：国知局

1.本技术涉及视频处理技术领域，特别是涉及一种视频分割方法、装置、计算机设备和存储介质。

背景技术：

2.随着计算机技术和多媒体技术的不断发展，交互式的视频分割方法广泛应用于视频编辑中的视频抠像功能，其主要任务是用户选取视频中的部分静态的参考帧进行交互以选择需要抠像的物体，分割算法则可以根据用户的交互信息生成的交互图自动对参考帧进行分割。其中，目前的分割算法一般是直接将参考帧以及交互图拼接后送入图像分割网络进行预测，得到分割掩码。但是，采用上述方法得到的分割掩码的边缘比较粗糙，从而影响视频分割的准确性。

技术实现要素：

3.基于此，有必要针对上述技术问题，提供一种能够提高视频分割的准确性的视频分割方法、装置、计算机设备和存储介质。
4.第一方面，本技术提供了一种视频分割方法。所述方法包括：
5.响应于针对视频帧序列中的参考帧的交互操作，获取针对参考帧的参考帧交互点；
6.根据参考帧和参考帧交互点对参考帧进行粗分割，得到参考帧的粗分割掩码；
7.确定参考帧的精细化特征；精细化特征是针对参考帧的图像细节进行特征提取所得到的特征；
8.根据精细化特征和粗分割掩码对参考帧进行精细分割，得到参考帧的分割掩码；
9.根据参考帧的分割掩码分别对视频帧序列中各视频帧进行分割预测，得到各视频帧分别对应的分割掩码。
10.第二方面，本技术还提供了一种视频分割装置。所述装置包括：
11.获取单元，用于响应于针对视频帧序列中的参考帧的交互操作，获取针对参考帧的参考帧交互点；
12.粗分割单元，用于根据参考帧和参考帧交互点对参考帧进行粗分割，得到参考帧的粗分割掩码；
13.确定单元，用于确定参考帧的精细化特征；精细化特征是针对参考帧的图像细节进行特征提取所得到的特征；
14.细分割单元，用于根据精细化特征和粗分割掩码对参考帧进行精细分割，得到参考帧的分割掩码；
15.预测单元，用于根据参考帧的分割掩码分别对视频帧序列中各视频帧进行分割预测，得到各视频帧分别对应的分割掩码。
16.在一些实施例中，粗分割单元还用于将参考帧交互点转换为交互点距离图；对参
考帧和交互点距离图进行特征融合，得到第一融合特征；根据第一融合特征对参考帧进行粗分割，得到参考帧的粗分割掩码。
17.在一些实施例中，粗分割单元还用于分别提取第一融合特征的深层特征和浅层特征；根据深层特征和浅层特征进行解码处理，得到参考帧的粗分割掩码。
18.在一些实施例中，粗分割单元还用于使用多个不同感受野的卷积对深层特征进行特征提取，得到多个感受野特征；将多个感受野特征进行特征拼接，得到感受野拼接特征；将感受野拼接特征和浅层特征进行特征融合，得到第二融合特征；对第二融合特征进行解码得到参考帧的粗分割掩码。
19.在一些实施例中，粗分割掩码是通过解码模块对第二融合特征进行解码得到的；细分割单元还用于将粗分割掩码和解码模块的最后一层特征进行特征拼接，得到第一拼接特征；将精细化特征和对第一拼接特征进行深层特征提取所得到的特征进行特征拼接，得到第二拼接特征；根据第二拼接特征预测得到参考帧的分割掩码。
20.在一些实施例中，预测单元还用于将参考帧和参考帧的分割掩码进行特征编码，得到参考帧特征；将参考帧对应的参考帧特征存储至预设的存储库队列；确定每个视频帧的查询帧特征；查询帧特征是针对各视频帧进行特征提取所得到的特征；针对每个视频帧的查询帧特征，通过存储库队列中存储的参考帧特征对查询帧特征进行特征匹配，得到查询帧匹配特征；根据每个视频帧的查询帧匹配特征，预测得到各视频帧分别对应的分割掩码。
21.在一些实施例中，本技术的视频分割模块还包括队列更新模块，队列更新模块用于在存储库队列的队列长度超过队列长度阈值的情况下，按照预设间隔从存储库队列中提取需要保留的参考帧所对应的参考帧特征；根据需要保留的参考帧所对应的参考帧特征对存储库队列进行更新。
22.在一些实施例中，本技术的获取单元还用于响应于针对视频帧序列的选中操作，将被选中的视频帧确定为参考帧；根据预设提取规则从视频帧序列中确定出参考帧。
23.第三方面，本技术还提供了一种计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述视频分割方法中的步骤。
24.第四方面，本技术还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述视频分割方法中的步骤。
25.第五方面，本技术还提供了一种计算机程序产品，计算机程序产品包括计算机程序，该计算机程序被处理器执行时实现上述视频分割方法中的步骤。
26.上述视频分割方法、装置、计算机设备、存储介质和计算机程序产品，获取包括多个视频帧的视频帧序列；响应于针对从多个视频帧中所确定的参考帧的交互操作，获取针对参考帧的参考帧交互点，能够在参考帧上支持更局部的分割微调，根据参考帧交互点对参考帧进行粗分割，得到参考帧的粗分割掩码；为了得到更为精细的分割效果，还可以提取参考帧中更精细的、且富含图像细节的精细化特征，根据参考帧的精细化特征和粗分割掩码，对参考帧进行精细分割，得到参考帧的分割掩码，从而使得在粗分割掩码的基础上，通过上述精细化分割处理提升分割掩码的精度，从而使基于准确的分割掩码对多个视频帧进行分割预测所得到的分割掩码更为准确。
附图说明
27.图1为本技术实施例提供的第一种视频分割方法的流程示意图；
28.图2为本技术实施例提供的交互图像分割模块的结构示意图；
29.图3为本技术实施例提供的对各视频帧进行分割预测的流程示意图；
30.图4为本技术实施例提供的第二种视频分割方法的流程示意图；
31.图5为本技术实施例提供的一种视频分割装置的结构框图；
32.图6为本技术实施例提供的第一种计算机设备的内部结构图；
33.图7为本技术实施例提供的第二种计算机设备的内部结构图。
具体实施方式
34.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
35.在一些实施例中，如图1所示，提供了一种视频分割方法，本实施例以该方法应用于计算机设备进行举例说明，可以理解的是，该计算机设备可以是服务器或终端，该方法可以由服务器或终端单独实现，也可以通过服务器和终端之间的交互来实现，本技术的视频分割指的是对视频帧序列中的各个视频帧进行图像分割。本实施例中，该方法包括以下步骤：
36.步骤102，响应于针对视频帧序列中的参考帧的交互操作，获取针对参考帧的参考帧交互点。
37.其中，视频帧序列就是将指定的视频用一帧一帧的图像进行表示的图像序列，参考帧指的是视频帧序列中某一帧的图像。
38.参考帧交互点，指的是用户对参考帧进行交互操作过程中在参考帧中所形成的交互点。可以理解，若用户点击参考帧上的某个像素点，那么就可以认为该像素点是参考帧的参考帧交互点。
39.具体地，用户可通过本技术的前端交互模块对视频帧序列确定的参考帧进行交互操作，计算机设备则响应于该交互操作，获取用户对参考帧进行交互操作过程中在参考帧中所形成的交互点。
40.在一些实施例中，若交互操作指的是手势操作，则前端交互模块接收视频帧序列和手势操作两个输入。其中，手势操作包括从视频帧中对参考帧的选中操作、缩放操作、划线操作或点击操作等至少一种。
41.在一些实施例中，参考帧可由用户从视频帧序列中选定，也可以根据预设的规则自动地从视频帧序列中选定，本技术对此不做限定。可以理解，在参考帧是由用户从视频帧序列中选定的情况下，用户可以从总帧数为t的视频帧序列中选择任一时刻的某一视频帧，或者选择不同时刻的多个视频帧，计算机设备则响应于用户的选中操作，将用户所选中的视频帧记为交互帧，也可以记为参考帧。
42.在一些实施例中，在用户确定参考帧的情况下，用户还可以对参考帧进行缩放操作，例如进行放大操作，计算机设备则响应于用户的放大操作将显示界面的画布中所显示的参考帧的全部内容转变为参考帧的局部区域。
43.在一些实施例中，本技术的前端交互模块还包括添加选区或删除选区功能中的至少一种，用户可在显示界面上选择添加分割区域或者删除分割区域，并且对参考帧进行划线或者点击等交互，计算机设备则根据用户的交互信息转换成交互点，并记为参考帧交互点。
44.步骤104，根据参考帧交互点对参考帧进行粗分割，得到参考帧的粗分割掩码。
45.其中，粗分割指的是对参考帧的抠图区域进行初步划分的图像分割操作。
46.粗分割掩码，指的是对参考帧进行粗分割所得到的图像掩码。图像掩码(mask)，指的是用选定的图像、图形或物体对处理的图像进行遮挡，来控制图像处理的区域或处理过程，用于覆盖的特定图像或物体称为图像掩码。
47.具体地，计算机设备可直接根据参考帧交互点对参考帧进行粗分割，得到参考帧的粗分割掩码。或者，计算机设备先根据参考帧交互点对参考帧进行裁剪后得到裁剪区域图像，再根据参考帧交互点对裁剪区域图像进行粗分割，得到参考帧的粗分割掩码。可以理解，裁剪区域图像可以是rgb图像。其中，rgb通过对红、绿、蓝三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色。
48.在一些实施例中，对从参考帧进行裁剪的过程为：当用户结束针对参考帧的交互操作时，计算机设备根据显示界面的画布区域所显示的图像信息，得到参考帧的裁剪区域坐标，并根据参考帧的裁剪区域坐标对参考帧进行裁剪处理，得到裁剪区域图像。
49.可以理解，在前端交互模块确定出参考帧的参考帧交互点后，可以将参考帧和对应的参考帧交互点一并作为前端交互模块的输出，还可以将对参考帧进行裁剪得到的裁剪区域图像和对应的参考帧交互点一并作为前端交互模块的输出。本技术的交互分割模块则可以将前端交互模块的输出作为输入，直接根据参考帧交互点对参考帧进行粗分割，得到参考帧的图像掩码，或者根据参考帧交互点对裁剪区域图像进行粗分割，得到参考帧的图像掩码。
50.步骤106，确定参考帧的精细化特征。
51.其中，精细化特征是针对参考帧的图像细节进行特征提取所得到的特征。
52.具体地，计算机设备可直接获取预先确定好的参考帧的精细化特征，还可以对参考帧特征进行多层卷积处理，得到参考帧的精细化特征。
53.在一些实施例中，计算机设备可将参考帧输入到多个卷积层进行多层卷积，例如，有多个卷积层，每个卷积层有3
×
3的卷积核，从而可以将参考帧输入多个卷积层中，进行多层的3
×
3卷积处理，以从中提取富含更精细的边缘纹理细节的精细化特征，该精细化特征可以在对参考帧进行粗分割的基础上，进一步对参考帧进行精细分割。
54.步骤108，根据精细化特征和粗分割掩码对参考帧进行精细分割，得到参考帧的分割掩码。
55.其中，精细分割指的是在对参考帧进行粗分割的基础上，结合参考帧的精细化特征对参考帧进行进一步的图像分割操作。
56.具体地，计算机设备可以对参考帧的粗分割掩码进一步进行编解码以挖掘更深层的特征，并将针对粗分割掩码挖掘的深层的特征与参考帧的精细化特征进行特征融合，并基于融合后的特征进一步对参考帧进行精细分割，从而预测出参考帧最终的分割掩码。
57.在一些实施例中，在交互图像分割模块对参考帧进行粗分割之后，结合参考帧的
精细化特征在粗分割的基础上对参考帧进行精细化分割，以进一步提升参考帧中物体边缘以及发丝细节部位的分割精细度，以最终预测出参考帧的分割掩码。
58.步骤110，根据参考帧的分割掩码分别对视频帧序列中各视频帧进行分割预测，得到各视频帧分别对应的分割掩码。
59.其中，分割预测指的是通过参考帧的分割掩码来对各视频帧的分割区域进行预测的操作。
60.具体地，计算机设备将参考帧的分割掩码作为对视频序列中各视频帧进行分割预测的参考依据，来预测出各个视频帧所对应的分割区域，基于各个视频帧所对应的分割区域，得到各个视频帧分别对应的分割掩码。
61.在一些实施例中，可将参考帧和对参考帧进行粗分割和精细分割所得到的分割掩码输入至视频目标分割模块，通过视频目标分割模块对所有的视频帧进行分割预测，得到所有视频帧的分割掩码。
62.在一些实施例中，在预测出所有视频帧的分割掩码之后，计算机设备可将所有视频帧的分割掩码显示到显示界面上，用户可判断所有视频帧的分割掩码是否符合预期的分割效果，若用户不满意当前的视频分割效果，则用户可以继续选择分割效果不好的视频帧作为参考帧并返回执行步骤102以重新进行视频分割，直到所有视频帧都能够达到用户满意的分割效果为止，此时计算机设备则可以输出最终的各个视频帧的分割掩码，从而完成视频分割的过程。在另一种情况下，若用户满意当前的视频分割效果，则计算机设备可以直接输出当前的各个视频帧的分割掩码，从而完成视频分割的过程。
63.上述视频分割方法，获取包括多个视频帧的视频帧序列；响应于针对从多个视频帧中所确定的参考帧的交互操作，获取针对参考帧的参考帧交互点，能够在参考帧上支持更局部的分割微调，根据参考帧交互点对参考帧进行粗分割，得到参考帧的粗分割掩码；为了得到更为精细的分割效果，还可以提取参考帧中更精细的、且富含图像细节的精细化特征，根据参考帧的精细化特征和粗分割掩码，对参考帧进行精细分割，得到参考帧的分割掩码，从而使得在粗分割掩码的基础上，通过上述精细化分割处理提升分割掩码的精度，从而使基于准确的分割掩码对多个视频帧进行分割预测所得到的分割掩码更为准确。
64.在一些实施例中，步骤104具体包括但不限于包括：将参考帧交互点转换为交互点距离图；对参考帧和交互点距离图进行特征融合，得到第一融合特征；根据第一融合特征对参考帧进行粗分割，得到参考帧的粗分割掩码。
65.其中，参考帧交互点包括正交互点或负交互点中的至少一种，正交互点用于指示参考帧中需要进行分割的区域，负交互点用于指示参考帧中不需要进行分割的区域。
66.在一些实施例中，在用户针对参考帧进行添加分割区域或删除分割区域中至少一种的交互分割操作的情况下，计算机设备将用户针对参考帧进行的添加分割区域的交互信息转换成正交互点，该正交互点代表用户想要添加该交互点所在的物体。此外，计算机设备还可以将用户针对参考帧进行的删除分割区域的交互信息转换成负交互点，该负交互点代表用户想要删除该交互点所在的物体。
67.对应的，交互点距离图包括正交互距离图或负交互距离图中的至少一种，正交互距离图中各像素点的像素值由各像素点到正交互点的距离确定，负交互距离图中各像素点的像素值由各像素点到负交互点的距离确定。
68.可以理解，正交互距离图中各像素点的像素值由各像素点到正交互点的距离可以指；正交互距离图中各像素点的像素值由各像素点到所有正交互点的最短欧几里得距离所确定。负交互距离图中各像素点的像素值由各像素点到负交互点的距离可以指；负交互距离图中各像素点的像素值由各像素点到所有负交互点的最短欧几里得距离所确定。其中，正交互距离图和负交互距离图中的像素值的取值范围都位于0到255之间。
69.具体地，计算机设备将参考帧交互点转换为正交互距离图或负交互距离图中的至少一种，得到交互点距离图。接着，计算机设备对参考帧和交互点距离图进行特征融合，得到第一融合特征。最后，计算机设备根据第一融合特征对参考帧进行粗分割，得到参考帧的粗分割掩码。本技术通过借助交互点距离图能够更明确得知用户想要进行抠图的区域以及不想要进行抠图的区域，从而保证粗分割得到更为精确的分割区域。
70.在一些实施例中，如图2所示，为本技术实施例提供的交互图像分割模块的结构示意图，交互图像分割模块包括融合模块。在得到参考帧的交互点距离图之后，计算机设备将交互点距离图和参考帧送入融合模块进行特征融合，得到第一融合特征。具体地，融合模块对在通道维度所拼接的参考帧和交互距离图连续使用1
×
1卷积、激活函数、批归一化以及1
×
1卷积进行特征融合得到第一融合特征。其中，激活函数可以是线性整流函数(linear rectification function，relu函数)，relu函数是一种人工神经网络中常用的激活函数，通常指代以斜坡函数及其变种为代表的非线性函数。
71.在一些实施例中，步骤“根据第一融合特征对参考帧进行粗分割，得到参考帧的粗分割掩码”具体包括但不限于包括：分别提取第一融合特征的深层特征和浅层特征；根据深层特征和浅层特征进行解码处理，得到参考帧的粗分割掩码。
72.其中，第一融合特征的深层特征和浅层特征主要取决于卷积层的数量，浅层特征的感受野较小，感受野重叠区域也较小，所以保证网络捕获更多细节，而深层特征则代表有更大的感受域。
73.具体地，计算机设备提取第一融合特征中侧重于全局的深层特征，并提取第一融合特征中更为细节的浅层特征，并根据深层特征和浅层特征进行解码处理，得到参考帧的粗分割掩码。本技术通过同时提取第一融合特征中全局以及更为细节的特征，结合更为全面的深层特征和浅层特征进行解码处理，能够得到分割效果更好的粗分割掩码。
74.在一些实施例中，如图2所示，交互图像分割模块还包括主干模块(backbone)该主干网络包括两个残差块，backbone指的是提取特征的网络，其作用是提取图像中的信息以供后续的网络使用。在得到第一融合特征之后，可以使用resnet-50作为backbone提取第一融合特征的深层特征和浅层特征。其中，resnet-50是一种卷积神经网络，包括50个网络层。
75.需要说明的是，计算机设备还可以将主干模块中的第一个残差块所输出的特征确定为第一融合特征的浅层特征，而将主干模块的输出，即将主干模块中第二个残差块的输出确定为深层特征。
76.在一些实施例中，还可以将本技术的主干网络的backbone替换为其他有深层特征提取能力的网络模型，只要能够实现对第一融合特征进行深层特征提取即可，本技术对此不做具体限制。
77.在一些实施例中，步骤“根据深层特征和浅层特征进行解码处理，得到参考帧的粗分割掩码”具体包括但不限于包括：使用多个不同感受野的卷积对深层特征进行特征提取，
得到多个感受野特征；将多个感受野特征进行特征拼接，得到感受野拼接特征；将感受野拼接特征和浅层特征进行特征融合，得到第二融合特征；对第二融合特征进行解码得到参考帧的粗分割掩码。
78.其中，在卷积神经网络中，感受野(receptive field)是指特征图上的某个点能看到的输入图像的区域，即特征图上的点是由输入图像中感受野大小区域的计算得到的。神经元感受野的值越大表示其能接触到的原始图像范围就越大，也意味着它可能蕴含更为全局，语义层次更高的特征；相反，神经元感受野的值越小则表示其所包含的特征越趋向局部和细节。
79.具体地，计算机设备使用卷积神经网络中的多个不同的感受野对深层特征进行特征提取，得到多个不同感受野的感受野特征。接着，计算机设备将多个不同的感受野特征进行特征拼接，得到感受野拼接特征，将感受野特征和第一融合特征的浅层特征进行特征融合，得到第二融合特征，以达到深层特征和浅层特征进行融合的目的。最后，计算机设备对第二融合特征进行解码，得到分割效果更好的参考帧的粗分割掩码。
80.在一些实施例中，如图2所示，本技术的交互图像分割模块还包括多尺度空洞卷积模块(atrous spatial pyramid pooling，aspp)，计算机设备则通过aspp对深层特征使用多个不同感受野的卷积进行特征提取，并将不同感受野的感受野特征进行拼接，然后使用跳跃连接将aspp的输出特征与主干模块中第一个残差块的输出特征进行拼接或融合，达到浅层特征和深层特征融合的目的，从而能够进一步提高视频分割的准确性。其中，残差块可构建残差网络，该残差网络是一种非常有效的可以缓解梯度消失问题的网络。
81.在一些实施例中，粗分割掩码是通过解码模块对第二融合特征进行解码得到的，步骤108具体包括但不限于包括：将粗分割掩码和解码模块的最后一层特征进行特征拼接，得到第一拼接特征；将精细化特征和对第一拼接特征进行深层特征提取所得到的特征进行特征拼接，得到第二拼接特征；根据第二拼接特征预测得到参考帧的分割掩码。
82.其中，解码模块包括多个卷积层，解码模块的最后一层特征指的是解码模块的最后一个靠近其输出的卷积层对应的特征。
83.在一些实施例中，如图2所示，本技术的交互图像分割模块还包括解码模块，通过解码模块对第二融合特征进行解码的过程可以为：通过解码模块的两个深度可分离卷积对多尺度空洞卷积模块输出的特征进行特征提取和融合，然后使用1
×
1卷积将通道个数减少为1，并使用双线性差值进行上采样得到图像的原始尺寸，并利用激活函数，例如利用sigmoid函数得到最终的分割概率图。其中，该分割概率图即为对参考帧进行粗分割所得到的粗分割掩码。其中，sigmoid函数是一个在生物学中常见的s型函数，也称为s型生长曲线，sigmoid函数常被用作神经网络的激活函数，可以将变量映射到0至1之间。
84.具体地，计算机设备将粗分割掩码和解码模块的最后一层特征进行特征拼接，得到第一拼接特征。接着，计算机设备对第一拼接特征进行深层特征提取，即对第一拼接特征进行多次编码和多次解码处理得到第一拼接特征的深层特征。随后，计算机设备将精细化特征和第一拼接特征的深层特征进行特征拼接，得到第二拼接特征。最后，计算机设备根据第二拼接特征进行预测得到参考帧的分割掩码。
85.在一些实施例中，如图2所示，本技术的交互图像分割模块还包括精细化分割模块。其中，精细化分割模块接收参考帧、粗分割掩码和解码模块最后一层特征作为输入。计
算机设备通过精细化分割模块的3
×
3卷积对参考帧进行特征提取，得到精细化特征。其次，计算机设备将粗分割掩码与解码模块最后一层特征进行特征拼接，得到第一拼接特征。接着，计算机设备将第一拼接特征输入至三层编码层和三层解码层分别进行编码和解码处理，得到编码特征和解码特征。然后，计算机设备将编码特征和对应的解码特征通过元素加法操作进行融合，得到第一拼接特征的深层特征。最后，将第一拼接特征的深层特征与精细化特征进行特征拼接，得到第二拼接特征，第二拼接特征则经过一层3
×
3卷积和sigmoid函数预测出最终的精细化分割的分割掩码，将精细化分割的分割掩码按照裁剪区域坐标贴回原图，即贴回原本的参考帧，得到参考帧经过粗分割和精细分割所得到的最终的分割掩码。
86.在一些实施例中，步骤110具体包括但不限于包括：将参考帧和参考帧的分割掩码进行特征编码，得到参考帧特征；将参考帧对应的参考帧特征存储至预设的存储库队列；确定每个视频帧的查询帧特征；针对每个视频帧的查询帧特征，通过存储库队列中存储的参考帧特征对查询帧特征进行特征匹配，得到查询帧匹配特征；根据每个视频帧的查询帧匹配特征，预测得到各视频帧分别对应的分割掩码。
87.其中，查询帧特征是针对各视频帧进行特征提取所得到的特征。
88.存储库队列指的是将视频帧序列中各参考帧的分割掩码按照队列形式进行存储的存储库。
89.具体地，计算机设备将参考帧和参考帧的分割掩码进行特征编码，得到参考帧特征，并将参考帧特征存储至预设的存储库队列。其次，计算机设备针对各视频帧进行特征提取得到每个视频帧的查询帧匹配特征。接着，计算机设备读取视频帧序列中每个视频帧，并将当前读取的视频帧记为查询帧。对每个查询帧进行分割预测时，需要提取存储库队列当前存储的全部参考帧特征，并将提取到的全部参考帧特征进行特征拼接，得到第三拼接特征。然后，计算机设备根据第三拼接特征对查询帧特征进行特征匹配，得到查询帧匹配特征。最后，计算机设备根据每个视频帧各自对应的查询帧匹配特征，预测得到各视频帧分别对应的分割掩码。
90.在一些实施例中，如图3所示，本技术还包括视频目标分割模块，该视频目标分割模块包括但不限于包括：参考帧特征编码器、存储库队列、查询帧特征编码器、特征匹配器、以及查询帧特征解码器。
91.具体地，参考帧特征编码器对参考帧和参考帧的分割掩码进行特征编码，并将编码后得到的参考帧特征加入到存储库队列中。其次，计算机设备获取参考帧的索引，得到参考帧索引，并从参考帧索引开始同时向视频帧序列前后两个索引方向读取视频帧序列中的视频帧，记为查询帧，该查询帧可通过查询帧特征编码器进行特征编码，得到查询帧特征。对每个查询帧进行分割预测时，需要提取存储库队列当前存储的全部参考帧特征，并将提取到的全部参考帧特征进行特征拼接，得到第三拼接特征，通过特征匹配器将第三拼接特征对查询帧特征进行特征匹配，将匹配到的特征进行组合得到查询帧匹配特征。通过查询帧特征解码器对查询帧匹配特征进行解码，并与查询帧特征编码器的特征进行融合，通过最终的1
×
1卷积和激活函数，例如通过的1
×
1卷积和sigmoid函数得到查询帧的分割掩码。
92.其中，参考帧特征编码器由残差网络构成，该残差网络具体可以是resnet18网络，包括17个卷积层和1个全连接层，而特征匹配器则可以由时空全局注意力组成。
93.在一些实施例中，本技术实施例的视频分割方法具体还包括但不限于包括：在存
储库队列的队列长度超过队列长度阈值的情况下，按照预设间隔从存储库队列中提取需要保留的参考帧所对应的参考帧特征；根据需要保留的参考帧所对应的参考帧特征对存储库队列进行更新。
94.其中，队列长度阈值指的是存储库队列最多能够存储参考帧特征的数量。需要保留的参考帧所对应的参考帧特征指的是在进行队列更新的过程中，仍然可以保存在存储库队列的那部分参考帧特征。
95.可以理解，一般的视频分割算法都是逐帧进行分割预测，传统方法通常采用固定帧间隔存储的方式对参考帧进行缓存，并与当前的视频帧进行匹配，由于外部存储占用大小和视频处理速度与视频帧数呈正相关，因此，采用传统方法难以满足实际应用。例如，传统方法每隔5帧或10帧，则将对应视频帧的帧特征存储到参考值特征队列中。但是，随着视频总帧数增加，参考帧队列越来越长，所占存储越来越大。由于特征匹配需要将当前的查询帧和所有参考帧存储队列中的参考帧特征进行匹配计算，所以参考帧越多，特征匹配速度也越慢。
96.因此，为了提升特征提取匹配的速度和计算存储库队列的存储占用，本技术考虑采用预设的存储库更新策略对存储库队列进行更新，该存储库更新策略相比于传统方法，其特征提取匹配的速度和存储占用均不会受到视频帧队列总帧数长度的影响。
97.在一些实施例中，存储库更新策略可以是按照预设间隔从存储库队列中提取需要保留的参考帧特征，并基于需要保留的参考帧特征对存储库队列进行更新。
98.具体地，在存储库队列的队列长度超过队列长度阈值的情况下，计算机设备则按照预设间隔，例如每间隔1帧从存储库队列中提取需要保留的参考帧所对应的参考帧特征。接着，计算机设备将需要保留的参考帧所对应的参考帧特征保存至新的存储库队列中，并使用新的存储库队列替换掉原来的存储库队列，能够有效减少计算资源的消耗，提高视频分割的整体精度和运算推理速度，同时提升用户的交互体验。
99.为了便于理解，现举例说明，假设存储库队列的最大容量为10，且原存储库队列为[n0,n1,n2,n3,n4,n5,n6,n7,n8,n9],其队列长度为10。若新的参考帧n10直接加入原参考帧队列，则加入参考帧n10后的参考帧队列为[n0,n1,n2,n3,n4,n5,n6,n7,n8,n9,n10],此时的队列长度超过最大容量，为了减少存储库占用的内存，此时需要根据存储库更新策略，例如每间隔1帧从存储库队列中提取需要保留的参考帧特征，并根据需要保留的参考帧特征进行队列更新，则存储库队列可以更新为[n0,n2,n4,n6,n8,n10]。
[0100]
可以理解，由于视频中的各个相邻的视频帧之间差别不大，所以采用传统方法进行视频分割所使用的存储库队列中的参考帧特征通常携带很多冗余信息，而这些冗余信息并不会提升视频分割效果，反而增加计算量和存储量。
[0101]
基于此，本技术通过采用新的存储库更新策略，并经过对比实验调整，得到最终的队列长度阈值和预设间隔。例如，在算法运行过程中，每隔20帧将参考帧特征添加到存储库队列中，在存储库队列中的参考帧特征超过队列最大长度10的情况下，则按照每隔1帧的方式重新将旧的存储库队列中的参考帧特征保存到新的存储库队列，在保证不会影响分割效果的前提下，提升算法运行速度，减少存储占用，达到速度和精度的均衡。
[0102]
在一些实施例中，本技术实施例的视频分割方法具体还包括但不限于包括：响应于针对视频帧序列的选中操作，将被选中的视频帧确定为参考帧；根据预设提取规则从视
频帧序列中确定出参考帧。
[0103]
具体地，计算机可以响应于用户针对视频帧序列的选中操作，将被选中的视频帧确定为参考帧。此外，计算机设备还可以根据预设提取规则，从视频帧序列中提取一定间隔的视频帧作为参考帧，或者从视频帧序列中提取与当前查询帧相邻的视频帧作为参考帧。
[0104]
可以理解，在计算机设备读取视频帧序列的过程中，可以每隔20帧将读取到的视频帧以及视频帧对应的分割掩码作为参考帧。假设当前的查询帧的索引为t，除了将每隔20帧，例如将索引为t-20和t-40等对应的视频帧作为参考帧外，查询帧的前一帧索引t-1或者t+1的特征也可以作为临时参考帧加入存储库队列中，这样可以提升视频分割的稳定性和连续性，减少相邻帧分割结果的抖动。需要说明的是，在预测得到所有视频帧对应的分割掩码后，将临时参考帧从存储库队列中删除，以节约存储空间。
[0105]
在一些实施例中，如图4所示，本技术的视频分割方法具体可以包括步骤：首先将用户手势和视频帧序列输入至前端交互模块，由前端交互模块进行处理后输出参考帧交互点和参考帧的rgb图像，即参考帧rgb。接着，交互图像分割模块根据参考帧交互点和参考帧rgb对参考帧进行粗分割和精细分割，得到参考帧rgb和参考帧mask，其中参考帧mask就是参考帧掩码。视频目标分割模块根据参考帧rgb和参考帧mask对视频帧序列中的各个视频帧进行分割预测，得到所有视频帧的分割掩码，即所有帧mask。最后，若用户满意视频分割效果，则输出所有视频帧的分割掩码，即视频分割mask，若用户不满意视频分割效果，则将需要进行分割的视频帧重新输入至前端交互模块，以重新执行视频分割的过程，直到用户满意视频分割效果。
[0106]
在一些实施例中，本技术的视频分割方法具体还包括参考帧获取步骤、粗分割步骤、细分割步骤和预测步骤。其中：
[0107]
参考帧获取步骤，响应于针对视频帧序列的选中操作，将被选中的视频帧确定为参考帧，或者根据预设提取规则从视频帧序列中确定出参考帧。响应于针对视频帧序列中的参考帧的交互操作，获取针对参考帧的参考帧交互点。
[0108]
粗分割步骤，将参考帧交互点转换为交互点距离图；对参考帧和交互点距离图进行特征融合，得到第一融合特征；分别提取第一融合特征的深层特征和浅层特征；使用多个不同感受野的卷积对深层特征进行特征提取，得到多个感受野特征；将多个感受野特征进行特征拼接，得到感受野拼接特征；将感受野拼接特征和浅层特征进行特征融合，得到第二融合特征；对第二融合特征进行解码得到参考帧的粗分割掩码。
[0109]
细分割步骤，将粗分割掩码和解码模块的最后一层特征进行特征拼接，得到第一拼接特征；将精细化特征和对第一拼接特征进行深层特征提取所得到的特征进行特征拼接，得到第二拼接特征；根据第二拼接特征预测得到参考帧的分割掩码；根据精细化特征和粗分割掩码对参考帧进行精细分割，得到参考帧的分割掩码。
[0110]
预测步骤，将参考帧和参考帧的分割掩码进行特征编码，得到参考帧特征；将参考帧对应的参考帧特征存储至预设的存储库队列；确定每个视频帧的查询帧特征；针对每个视频帧的查询帧特征，通过存储库队列中存储的参考帧特征对查询帧特征进行特征匹配，得到查询帧匹配特征；根据每个视频帧的查询帧匹配特征，预测得到各视频帧分别对应的分割掩码。
[0111]
在一些实施例中，在存储库队列的队列长度超过队列长度阈值的情况下，按照预
设间隔从存储库队列中提取需要保留的参考帧所对应的参考帧特征；根据需要保留的参考帧所对应的参考帧特征对存储库队列进行更新。
[0112]
需要说明的是，采用本技术的图像分割方法，能够在提升视频分割掩码精细度的同时，有效减少计算资源的消耗，提高交互式视频分割整体精度和运算推理速度，提升用户体验。
[0113]
应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0114]
基于同样的发明构思，本技术实施例还提供了一种用于实现上述所涉及的图像分割方法的图像分割装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个图像分割装置实施例中的具体限定可以参见上文中对于图像分割方法的限定，在此不再赘述。
[0115]
在一些实施例中，如图5所示，提供了一种图像分割装置，包括：获取单元502、粗分割单元504、确定单元506、细分割单元508和预测单元510，其中：
[0116]
获取单元502，用于响应于针对视频帧序列中的参考帧的交互操作，获取针对参考帧的参考帧交互点；
[0117]
粗分割单元504，用于根据参考帧交互点对参考帧进行粗分割，得到参考帧的粗分割掩码；
[0118]
确定单元506，用于确定参考帧的精细化特征；精细化特征是针对参考帧的图像细节进行特征提取所得到的特征；
[0119]
细分割单元508，用于根据精细化特征和粗分割掩码对参考帧进行精细分割，得到参考帧的分割掩码；
[0120]
预测单元510，用于根据参考帧的分割掩码分别对视频帧序列中各视频帧进行分割预测，得到各视频帧分别对应的分割掩码。
[0121]
上述视频分割装置，获取包括多个视频帧的视频帧序列；响应于针对从多个视频帧中所确定的参考帧的交互操作，获取针对参考帧的参考帧交互点，能够在参考帧上支持更局部的分割微调，根据参考帧和参考帧交互点对参考帧进行粗分割，得到参考帧的粗分割掩码；为了得到更为精细的分割效果，还可以提取参考帧中更精细的、且富含图像细节的精细化特征，根据参考帧的精细化特征和粗分割掩码，对参考帧进行精细分割，得到参考帧的分割掩码，从而使得在粗分割掩码的基础上，通过上述精细化分割处理提升分割掩码的精度，从而使基于准确的分割掩码对多个视频帧进行分割预测所得到的分割掩码更为准确。
[0122]
在一些实施例中，粗分割单元504还用于将参考帧交互点转换为交互点距离图；对参考帧和交互点距离图进行特征融合，得到第一融合特征；根据第一融合特征对参考帧进行粗分割，得到参考帧的粗分割掩码。
[0123]
在一些实施例中，粗分割单元504还用于分别提取第一融合特征的深层特征和浅层特征；根据深层特征和浅层特征进行解码处理，得到参考帧的粗分割掩码。
[0124]
在一些实施例中，粗分割单元504还用于使用多个不同感受野的卷积对深层特征进行特征提取，得到多个感受野特征；将多个感受野特征进行特征拼接，得到感受野拼接特征；将感受野拼接特征和浅层特征进行特征融合，得到第二融合特征；对第二融合特征进行解码得到参考帧的粗分割掩码。
[0125]
在一些实施例中，粗分割掩码是通过解码模块对第二融合特征进行解码得到的；细分割单元508还用于将粗分割掩码和解码模块的最后一层特征进行特征拼接，得到第一拼接特征；将精细化特征和对第一拼接特征进行深层特征提取所得到的特征进行特征拼接，得到第二拼接特征；根据第二拼接特征预测得到参考帧的分割掩码。
[0126]
在一些实施例中，预测单元510还用于将参考帧和参考帧的分割掩码进行特征编码，得到参考帧特征；将参考帧对应的参考帧特征存储至预设的存储库队列；确定每个视频帧的查询帧特征；查询帧特征是针对各视频帧进行特征提取所得到的特征；针对每个视频帧的查询帧特征，通过存储库队列中存储的参考帧特征对查询帧特征进行特征匹配，得到查询帧匹配特征；根据每个视频帧的查询帧匹配特征，预测得到各视频帧分别对应的分割掩码。
[0127]
在一些实施例中，本技术的视频分割模块还包括队列更新模块，队列更新模块用于在存储库队列的队列长度超过队列长度阈值的情况下，按照预设间隔从存储库队列中提取需要保留的参考帧所对应的参考帧特征；根据需要保留的参考帧所对应的参考帧特征对存储库队列进行更新。
[0128]
在一些实施例中，本技术的获取单元502还用于响应于针对视频帧序列的选中操作，将被选中的视频帧确定为参考帧；根据预设提取规则从视频帧序列中确定出参考帧。
[0129]
上述图像分割装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
[0130]
在一些实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储与图像分割相关的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像分割方法。
[0131]
在一些实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间
交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种图像分割方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
[0132]
本领域技术人员可以理解，图6和图7中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0133]
在一些实施例中，还提供了一种计算机设备，计算机设备包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0134]
在一些实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0135]
在一些实施例中，提供了一种计算机程序产品，计算机程序产品包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0136]
需要说明的是，本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。
[0137]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory，mram)、铁电存储器(ferroelectric random access memory，fram)、相变存储器(phase change memory，pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器等。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。
[0138]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0139]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术专利范围的限制。应当指出的是，对于本领域的普通技术人员
来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙启超刘挺刘洛麒
技术所有人：厦门美图之家科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。