基于图像跟踪的视频渲染方法及装置与流程

文档序号：30797647发布日期：2022-07-19 20:54阅读：94来源：国知局

1.本发明涉及数字图像处理领域，特别是指一种基于图像跟踪的视频渲染方法及装置。

背景技术：

2.渲染是三维计算机图形学中的最重要的研究课题之一，在实践领域它与其他技术密切相关。在图形流水线中，渲染是最后一个步骤，通过它得到模型与动画最终显示效果。渲染的应用领域有：建筑、视频游戏、模拟、电影或者电视特效以及可视化设计，每一种应用都是特性与技术的综合考虑。
3.基于图像跟踪的视频渲染技术主要分为两部分，跟踪定位技术和动画渲染技术。
4.跟踪定位技术是计算机视觉领域的核心技术之一，具有广泛的应用：人机交互，监控和增强现实。平面物体跟踪算法一般分为两类：基于模板匹配的方法和基于关键点匹配的方法。基于模板匹配的方法直接应用像素的表征而不是提取特征，然后通过类似牛顿法的算法来优化模板和捕捉图像的相似度，进而决定平面的姿态。这类方法对扰动敏感，比如亮度的改变、部分遮挡和快速运动。基于关键点匹配的方法是将平面物体建模为一系列关键点，然后通过匹配关键点的描述子找到关键点的对应关系，这种方法对于各种抖动因素的不变性，包括旋转、缩放和视角变换。
5.动画渲染技术在选择合适的跟踪算法之后，得到匹配的目标图像就可以对目标图像进行渲染。渲染将会在上面添加图纹理或者程序纹理、照明、凸凹纹理映射以及相对于其他物体的位置。
6.现有的图像跟踪技术中，基于模板匹配的方法直接应用像素的表征，然后通过类似牛顿法的算法来优化模板和捕捉图像的相似度，进而决定平面的姿态，这类方法对扰动敏感，比如照度的改变，部分遮挡和快速运动；基于关键点的方法对于各种抖动因素具有不变性，包括旋转，缩放和视角变换。而且，它们很自然地适用于部分遮挡，因为点集之间的部分匹配对于大部分跟踪场景已经足够了。这些运动方法使用描述子来储存每一个关键点的明显特征，这些明显特征具有针对不同几何和光学变换的不变性，然后对这些描述子进行算法匹配，通常采用最近邻算法。
7.现有的基于关键点的方法被广泛地用于平面物体跟踪，但是，现有的基于关键点的方法只考虑了物体结构而忽视了物体结构在跟踪算法的实际应用中不具有很好的鲁棒性，而且极度依赖关键点检测子，当这些方法在较差的照度和运动模糊的情况下时，就很难检测到可靠的关键点，此类方法就会失效。

技术实现要素：

8.本发明要解决的技术问题是提供一种基于图像跟踪的视频渲染方法及装置，能够对视频中的场景或者画面进行3d渲染，可以使得视觉效果更加生动,实现增强现实的功能。
9.为解决上述技术问题，本发明的实施例提供技术方案如下：
10.一方面，提供一种基于图像跟踪的视频渲染方法，包括：
11.获取候选图像的关键点，根据所述关键点对所述候选图像进行建模；
12.确定目标图像和所述候选图像的最佳映射关系，根据所述最佳映射关系识别出目标图像；
13.基于所述关键点将预先设计的渲染动画叠加到所述目标图像上。
14.一些实施例中，所述获取候选图像的关键点，根据所述关键点对所述候选图像进行建模包括：
15.给定在候选图像中目标对象的初始区域r；
16.对每个r计算像素的尺度不变特征变换sift响应，将r等分为n个网格，从每个网格中选取sift响应值最大的点作为该网格的关键点，n为大于1的整数；
17.将所选取的关键点建模为图的节点，计算关键点的描述子作为节点的属性，并使用狄洛尼三角剖分构建的图的边。
18.一些实施例中，所述确定目标图像和所述候选图像的最佳映射关系包括：
19.利用最大后验概率估计跟踪图像的单个部件，对当前帧图像t
t
进行部件提取，得到至少一个部件其中，p
ti
是提取出的第i个部件，i，n为正整数；
20.通过最大化评价函数ε(x,τ)，寻找当前帧图像中的部件与初始帧图像部件的最优的匹配结果，进而得到最优的x
*
和τ
*
：
[0021][0022]
xln≤lm，x
t
lm≤l
n，
[0023]
其中，x是匹配可能性，x
*
是最佳匹配结果，τ是映射关系，τ
*
是最佳映射关系，ln表示长度为n的列向量，lm表示长度为m的列向量，其中每个元素值为1，优化约束条件保证每个部件至多只能被匹配一次。
[0024]
一些实施例中，
[0025]
对于给定的目标图像gm和候选图像g
t
，利用如下公式计算全局一致性：
[0026][0027]
其中c
i，a
x
i，a
测量gm中的第i个顶点和g
t
的第a个顶点的一致性，d
i，j，a，b
x
i，a
x
j，b
测量gm中的边(i，j)和g
t
中的边(a，b)的一致性；
[0028]
通过几何和光学约束为图像每一个顶点构造一个候选匹配集构造一个候选匹配集
[0029]
其中，表示gm中的第i个顶点的位置，表示g
t
中的第a个顶点的位置，f
im
和分别是gm中的第i个顶点和g
t
的第a个顶点的光学描述子，εg和εa分别是几何和表征变化的容差；
[0030]
运用先前帧图像的解来预测匹配x和变换τ，保持其中一项不变去优化另一项，直到收敛或达到最大迭代次数。
[0031]
一些实施例中，还包括：
[0032]
利用时间t时的映射关系τ
t
预测时间t+1时的映射关系τ
t+
1：
[0033]
τ
t+1
＝τ
t
+
▽
τ
t
+h.o.t.
[0034]
其中
▽
τ
t
表示τ在时间t的梯度，h.o.t.是展开式中的更高阶，
[0035]
对每一次时间i(1≤i＜t)的梯度取近似
▽
τi＝τ
i+1-τi，然后用下列公式估计
▽
τ
t
：
[0036][0037]
其中k控制预测的滑动窗口；利用前一帧的x*和τ*进行匹配预测，然后用预测结果作为ipfp算法的初始输入，对于每一输入帧t，τ
t-1
表示从上一帧得到的变换，其中，
[0038][0039]
对于每一个候选匹配(i,a)∈c
t
，初始化对应概率为：
[0040][0041]
其中，表示gm中的第i个顶点的位置，表示g
t
中的第a个顶点的位置，表示g
t
中的第b个顶点的位置，表示gm中的第j个顶点的位置；
[0042]
给定对应矩阵x，针对变换τ的优化表述为：
[0043][0044]
其中，β为预设系数。
[0045]
一些实施例中，τ为线性函数，参数为斜率和截距。
[0046]
本发明的实施例还提供了一种基于图像跟踪的视频渲染装置，包括：
[0047]
建模模块，用于获取候选图像的关键点，根据所述关键点对所述候选图像进行建模；
[0048]
处理模块，用于确定目标图像和所述候选图像的最佳映射关系，根据所述最佳映射关系识别出目标图像；
[0049]
渲染模块，用于基于所述关键点将预先设计的渲染动画叠加到所述目标图像上。
[0050]
一些实施例中，所述建模模块具体用于：
[0051]
给定在候选图像中目标对象的初始区域r；
[0052]
对每个r计算像素的尺度不变特征变换sift响应，将r等分为n个网格，从每个网格中选取sift响应值最大的点作为该网格的关键点，n为大于1的整数；
[0053]
将所选取的关键点建模为图的节点，计算关键点的描述子作为节点的属性，并使用狄洛尼三角剖分构建的图的边。
[0054]
一些实施例中，所述处理模块具体用于：
[0055]
利用最大后验概率估计跟踪图像的单个部件，对当前帧图像t
t
进行部件提取，得到至少一个部件其中，p
ti
是提取出的第i个部件，i，n为正整数；
[0056]
通过最大化评价函数ε(x,τ)，寻找当前帧图像中的部件与初始帧图像部件的最优的匹配结果，进而得到最优的x
*
和τ
*
：
[0057][0058]
xln≤lm，x
t
lm≤ln,
[0059]
其中，x是匹配可能性，x
*
是最佳匹配结果，τ是映射关系，τ
*
是最佳映射关系，ln表示长度为n的列向量，lm表示长度为m的列向量，其中每个元素值为1，优化约束条件保证每个部件至多只能被匹配一次。
[0060]
一些实施例中，
[0061]
对于给定的目标图像gm和候选图像g
t
，利用如下公式计算全局一致性：
[0062][0063]
其中c
i，a
x
i，a
测量gm中的第i个顶点和g
t
的第a个顶点的一致性，d
i，j，a，b
x
i，a
x
j，b
测量gm中的边(i，j)和g
t
中的边(a，b)的一致性；
[0064]
通过几何和光学约束为图像每一个顶点构造一个候选匹配集构造一个候选匹配集
[0065]
其中，表示gm中的第i个顶点的位置，表示g
t
中的第a个顶点的位置，f
im
和分别是gm中的第i个顶点和g
t
的第a个顶点的光学描述子，εg和εa分别是几何和表征变化的容差；
[0066]
运用先前帧图像的解来预测匹配x和变换τ，保持其中一项不变去优化另一项，直到收敛或达到最大迭代次数。
[0067]
一些实施例中，还包括：
[0068]
利用时间t时的映射关系τ
t
预测时间t+1时的映射关系τ
t+1
：
[0069]
τ
t+1
＝τ
t
+
▽
τ
t
+h.o.t.
[0070]
其中
▽
τ
t
表示τ在时间t的梯度，h.o.t.是展开式中的更高阶，
[0071]
对每一次时间i(1≤i＜t)的梯度取近似
▽
τi＝τ
i+1-τi，然后用下列公式估计
▽
τ
t
：
[0072][0073]
其中k控制预测的滑动窗口；利用前一帧的x*和τ*进行匹配预测，然后用预测结果作为ipfp算法的初始输入，对于每一输入帧t，τ
t-1
表示从上一帧得到的变换，其中，
[0074][0075]
对于每一个候选匹配(i,a)∈c
t
，初始化对应概率为：
[0076][0077]
其中，表示gm中的第i个顶点的位置，表示g
t
中的第a个顶点的位置，表示g
t
中的第b个顶点的位置，表示gm中的第j个顶点的位置；
[0078]
给定对应矩阵x，针对变换τ的优化表述为：
[0079][0080]
其中，β为预设系数。
[0081]
一些实施例中，τ为线性函数，参数为斜率和截距。
[0082]
本发明的实施例还提供了一种图像跟踪的视频渲染装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器执行所述程序时实现如上所述的基于图像跟踪的视频渲染方法。
[0083]
一些实施例中，所述处理器用于获取候选图像的关键点，根据所述关键点对所述候选图像进行建模；确定目标图像和所述候选图像的最佳映射关系，根据所述最佳映射关系识别出目标图像；基于所述关键点将预先设计的渲染动画叠加到所述目标图像上。
[0084]
一些实施例中，所述处理器具体用于：
[0085]
给定在候选图像中目标对象的初始区域r；
[0086]
对每个r计算像素的尺度不变特征变换sift响应，将r等分为n个网格，从每个网格中选取sift响应值最大的点作为该网格的关键点，n为大于1的整数；
[0087]
将所选取的关键点建模为图的节点，计算关键点的描述子作为节点的属性，并使用狄洛尼三角剖分构建的图的边。
[0088]
一些实施例中，所述处理器具体用于：利用最大后验概率估计跟踪图像的单个部件，对当前帧图像t
t
进行部件提取，得到至少一个部件其中，p
ti
是提取出的第i个部件，i，n为正整数；
[0089]
通过最大化评价函数ε(x,τ)，寻找当前帧图像中的部件与初始帧图像部件的最优的匹配结果，进而得到最优的x
*
和τ
*
：
[0090][0091]
xln≤lm，x
t
lm≤ln，
[0092]
其中，x是匹配可能性，x
*
是最佳匹配结果，τ是映射关系，τ
*
是最佳映射关系，ln表示长度为n的列向量，lm表示长度为m的列向量，其中每个元素值为1，优化约束条件保证每
个部件至多只能被匹配一次。
[0093]
一些实施例中，
[0094]
对于给定的目标图像gm和候选图像g
t
，利用如下公式计算全局一致性：
[0095][0096]
其中c
i，a
x
i，a
测量gm中的第i个顶点和g
t
的第a个顶点的一致性，d
i，j，a，b
x
i，a
x
j，b
测量gm中的边(i，j)和g
t
中的边(a，b)的一致性；
[0097]
通过几何和光学约束为图像每一个顶点构造一个候选匹配集构造一个候选匹配集
[0098]
其中，表示gm中的第i个顶点的位置，表示g
t
中的第a个顶点的位置，f
im
和分别是gm中的第i个顶点和g
t
的第a个顶点的光学描述子，εg和εa分别是几何和表征变化的容差；
[0099]
运用先前帧图像的解来预测匹配x和变换τ，保持其中一项不变去优化另一项，直到收敛或达到最大迭代次数。
[0100]
一些实施例中，还包括：
[0101]
利用时间t时的映射关系τ
t
预测时间t+1时的映射关系τ
t+1
：
[0102]
τ
t+1
＝τ
t
+
▽
τ
t
+h.o.t.
[0103]
其中
▽
τ
t
表示τ在时间t的梯度，h.o.t.是展开式中的更高阶，
[0104]
对每一次时间i(1≤i＜t)的梯度取近似
▽
τi＝τ
i+1-τi，然后用下列公式估计
▽
τ
t
：
[0105][0106]
其中k控制预测的滑动窗口；利用前一帧的x*和τ*进行匹配预测，然后用预测结果作为ipfp算法的初始输入，对于每一输入帧t，τ
t-1
表示从上一帧得到的变换，其中，
[0107][0108]
对于每一个候选匹配(i,a)∈c
t
，初始化对应概率为：
[0109][0110]
其中，表示gm中的第i个顶点的位置，表示g
t
中的第a个顶点的位置，表示g
t
中的第b个顶点的位置，表示gm中的第j个顶点的位置；
[0111]
给定对应矩阵x，针对变换τ的优化表述为：
[0112][0113]
其中，β为预设系数。
[0114]
一些实施例中，τ为线性函数，参数为斜率和截距。
[0115]
本发明的实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的基于图像跟踪的视频渲染方法中的步骤。
[0116]
本发明的实施例具有以下有益效果：
[0117]
上述方案中，通过单个图像的关键区域检测得到关键点以及将目标图像和候选图像进行匹配，最后将设计好的动画叠加到目标图像上达到视频渲染的效果，本发明通过将图像的关键点检测看作关键部位检测，从而能够更好的进行图匹配，而且利用合适的优化方法，使得结果更加精确，得到更加鲁棒而且准确的跟踪效果，使得视频渲染的效果更加合理有效。
附图说明
[0118]
图1-图3为本发明实施例基于图像跟踪的视频渲染方法的流程示意图；
[0119]
图4-图9为本发明实施例提供的基于gracker方法所得到的图像跟踪检测结果；
[0120]
图10为本发明实施例基于图像跟踪的视频渲染装置的结构示意图；
[0121]
图11为本发明实施例基于图像跟踪的视频渲染装置的组成示意图。
具体实施方式
[0122]
为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。
[0123]
现有的渲染技术利用opengl技术实现渲染技术，opengl作为一种流线型、独立于硬件的接口，可以在不同的硬件平台上实现。opengl是通过具体的窗口系统来控制opengl应用程序所使用的具体硬件，开发人员需要根据几种基本的几何图元通过组合的方式来创建所需要的复杂模型，opengl有七个主要功能：建模、变换、颜色模式设置、光照和材质设置、纹理映射、位图显示和增强图像以及双缓存区。
[0124]
还可以利用webgl技术实现渲染技术，webgl是一种3d绘图协议，这种绘图技术标准允许把javascript和opengl es 2.0结合在一起，通过增加opengl es 2.0的一个javascript绑定，webgl可以为html5 canvas提供硬件3d加速渲染，这样web开发人员就可以借助系统显卡来在浏览器里更流畅地展示3d场景和模型了，还能创建复杂的导航和数据视觉化。webgl完美地解决了现有的web交互式三维动画的两个问题：第一，它通过html脚本本身实现web交互式三维动画的制作，无需任何浏览器插件支持；第二，它利用底层的图形硬件加速功能进行的图形渲染，是通过统一的、标准的、跨平台的opengl接口实现的。
[0125]
unity3d是由unity technologies开发的一个让玩家轻松创建诸如三维视频游戏、建筑可视化、实时三维动画等类型互动内容的多平台的综合型游戏开发工具，是一个全面整合的专业游戏引擎。unity中有高性能、超灵活的着色器系统，广阔茂盛的植被被景观
在低端硬件上也可以流畅运行，这为搭建ar技术的虚拟对象提供了良好的技术支持。另外，在unity3d中内置的物理引擎能够带给用户真实的互动感受。unity的场景是一个类似于现实的虚拟世界，场景中的对象通过camera来呈现给使用者，通过改变camera的视角来改变场景中现实的对象，就像转动人的眼睛看到的画面一样。
[0126]
关键点技术被广泛地用于平面物体跟踪，但是存在两个主要的问题。首先，单纯考虑物体特征而忽视物体结构不能保证跟踪算法的鲁棒性。其次，现存基于关键点的跟踪方法极度依赖关键点检测子，然而这些方法在较差的照度和运动模糊的情况下失效，很难找到可靠的关键点。
[0127]
本发明的实施例提供一种基于图像跟踪的视频渲染方法及装置，能够对视频中的场景或者画面进行3d渲染，可以使得视觉效果更加生动,实现增强现实的功能。
[0128]
本发明的实施例提供一种基于图像跟踪的视频渲染方法，如图1所示，包括：
[0129]
步骤101：获取候选图像的关键点，根据所述关键点对所述候选图像进行建模；
[0130]
步骤102：确定目标图像和所述候选图像的最佳映射关系，根据所述最佳映射关系识别出目标图像；
[0131]
步骤103：基于所述关键点将预先设计的渲染动画叠加到所述目标图像上。
[0132]
其中，候选图像可以包括初始帧图像、当前帧图像等。
[0133]
一些实施例中，所述获取候选图像的关键点，根据所述关键点对所述候选图像进行建模包括：
[0134]
给定在候选图像中目标对象的初始区域r；
[0135]
对每个r计算像素的尺度不变特征变换sift响应，将r等分为n个网格，从每个网格中选取sift响应值最大的点作为该网格的关键点，n为大于1的整数；
[0136]
将所选取的关键点建模为图的节点，计算关键点的描述子作为节点的属性，并使用狄洛尼三角剖分构建的图的边，其中，该图是指一种数据结构。
[0137]
一些实施例中，所述确定目标图像和所述候选图像的最佳映射关系包括：
[0138]
利用最大后验概率估计跟踪图像的单个部件，对当前帧图像t
t
进行部件提取，得到至少一个部件其中，p
ti
是提取出的第i个部件，i，n为正整数；
[0139]
通过最大化评价函数ε(x,τ)，寻找当前帧图像中的部件与初始帧图像部件的最优的匹配结果，进而得到最优的x
*
和τ
*
：
[0140][0141]
xln≤lm，x
t
lm≤ln,
[0142]
其中，x是匹配可能性，x
*
是最佳匹配结果，τ是映射关系，τ
*
是最佳映射关系，ln表示长度为n的列向量，lm表示长度为m的列向量，其中每个元素值为1，优化约束条件保证每个部件至多只能被匹配一次。
[0143]
一些实施例中，
[0144]
对于给定的目标图像gm和候选图像g
t
，利用如下公式计算全局一致性：
[0145][0146]
其中c
i，a
x
i，a
测量gm中的第i个顶点和g
t
的第a个顶点的一致性，d
i，j，a，b
x
i，a
x
j，b
测量gm中的边(i，j)和g
t
中的边(a，b)的一致性；
[0147]
通过几何和光学约束为图像每一个顶点构造一个候选匹配集构造一个候选匹配集
[0148]
其中，表示gm中的第i个顶点的位置，表示g
t
中的第a个顶点的位置，f
im
和分别是gm中的第i个顶点和g
t
的第a个顶点的光学描述子，εg和εa分别是几何和表征变化的容差；
[0149]
运用先前帧图像的解来预测匹配x和变换τ，保持其中一项不变去优化另一项，直到收敛或达到最大迭代次数。
[0150]
一些实施例中，还包括：
[0151]
利用时间t时的映射关系τ
t
预测时间t+1时的映射关系τ
t+1
：
[0152]
τ
t+1
＝τ
t
+
▽
τ
t
+h.o.t.
[0153]
其中
▽
τ
t
表示τ在时间t的梯度，h.o.t.是展开式中的更高阶，
[0154]
对每一次时间i(1≤i＜t)的梯度取近似
▽
τi＝τ
i+1-τi，然后用下列公式估计
▽
τ
t
：
[0155][0156]
其中k控制预测的滑动窗口；利用前一帧的x*和τ*进行匹配预测，然后用预测结果作为ipfp算法的初始输入，对于每一输入帧t，τ
t-1
表示从上一帧得到的变换，其中，
[0157][0158]
对于每一个候选匹配(i,a)∈c
t
，初始化对应概率为：
[0159][0160]
其中，表示gm中的第i个顶点的位置，表示g
t
中的第a个顶点的位置，表示g
t
中的第b个顶点的位置，表示gm中的第j个顶点的位置；
[0161]
给定对应矩阵x，针对变换τ的优化表述为：
[0162]
[0163]
其中，β为预设系数。
[0164]
一些实施例中，τ为线性函数，参数为斜率和截距。
[0165]
本技术实施例在以往的视频渲染技术的基础上进行改进和创新，其建模如下：第一，在背景信息辅助跟踪的基础上，提出了图模型作为背景模型，运用图匹配的两两二元约束条件实现关键点对应；第二，将平面物体跟踪更具体的划分为结构感知跟踪算法，将预测物体姿态和关键点对应整合，用以寻找最优解；第三，基于关键点的匹配，将3d渲染的增强现实的动画在目标图像上进行叠加。
[0166]
具体地说，基于图的跟踪算法gracker，首先用图对平面物体建模，图的顶点由自动选择机制生成，这种方法可以使图结构更加稳定，实现对极端环境变量的鲁棒性。其次，把特征对应的姿态估计集成在一个同意的几何图匹配框架中，使得gracker算法对各种几何和光学变换有更高的精确性。unity中有高性能、超灵活的着色器系统，广阔茂盛的植被被景观在低端硬件上也可以流畅运行，这为搭建ar技术的虚拟对象提供了良好的技术支持。另外，在unity3d中内置的物理引擎能够带给用户真实的互动感受。
[0167]
其中，所述方法包括以下步骤：
[0168]
步骤s11，利用最大后验概率(map)来估计跟踪单个部件，并视为匹配问题。通过对当前帧t
t
的部件提取，得到一系列部件
[0169]
步骤s12，通过最大化评价函数ε(x,τ)，寻找最优的匹配结果，进而得到最优的x
*
和τ
*
：
[0170][0171]
s.t.xln≤lm,x
t
lm≤ln,
[0172]
其中ln表示长度为n的列向量，lm表示长度为m的列向量，其中每个元素值为1。优化约束条件保证每个部件至多只能被匹配一次。
[0173]
如图2所示，确定目标图像和所述候选图像的最佳映射关系包括：
[0174]
步骤s21，构建图，首先对每个r的像素计算sift响应，随后将r等分为n个网格，从每个网格中取最大的sift响应作为这个网格的关键点。将所选取的关键点建模为图的节点，然后计算它们的描述子作为这个节点的属性，并使用狄洛尼三角剖分构建图的边。
[0175]
步骤s22，几何图匹配：通过匹配间的一致性来描述图匹配问题。对于给定的目标图像gm和候选图g
t
，利用如下的全局一致性：
[0176][0177]
其中c
i,a
测量gm中的第i个顶点和g
t
的第a个顶点的一致性，d
i,j,a,b
测量gm中的边(i，j)和g
t
中的边(a，b)的一致性。
[0178]
步骤s23，候选匹配滤波：通过一种运用连续性原则过滤候选匹配的方法，来缩减k(τ)的大小，这种连续性原则禁止相邻帧匹配的跳跃。对于任意顶点和我们用和表示它们的位置。对于任何输入帧t，通过采用几何和光学约束为每一个顶点
构造一个候选匹配集
[0179][0180]
其中f
im
和分别是gm中的第i个顶点和g
t
的第a个顶点的光学描述子，εg和εa分别是几何和表征变化的容差。
[0181]
步骤s24，优化：构建预测-优化的框架，如图3，在对输入帧进行了图构造和匹配过滤后，首先运用先前帧的解来预测匹配x和变换τ，然后保持其中一项不变去优化另一项。这种迭代优化过程直到收敛或达到最大迭代次数。
[0182]
其中，所述步骤21构建图，包括：
[0183]
步骤211：给定在第一帧中对象的初始区域r；
[0184]
步骤212：生成顶点，提取每一帧的关键点来表示局部部分，然后建模为图的顶点。首先对每个r的像素计算sift响应，随后将r等分为n个网格，从每个网格中取最大的sift响应作为这个网格的关键点。将所选取的关键点建模为图的节点，然后计算它们的描述子作为这个节点的属性。
[0185]
步骤213：生成边，使用狄洛尼三角剖分构建图的边。
[0186]
其中，所述步骤24优化，包括：
[0187]
步骤241：姿态预测，运用时间t时的运动参数τ
t
来预测时间t+1时的运动参数τ
t+1
。采用τ
t+1
的泰勒展开式来更精确地解决问题：
[0188]
τ
t+1
＝τ
t
+
▽
τ
t
+h.o.t.
[0189]
其中
▽
τ
t
表示τ在时间t的梯度，h.o.t.是展开式中的更高阶，可以忽略不计。对每一次时间i(1≤i＜t)的梯度取近似
▽
τi＝τ
i+1-τi，然后用下列公式估计
▽
τ
t
：
[0190][0191]
其中k控制预测的滑动窗口。
[0192]
步骤242：含预测的图匹配，引入整数投影不动点(ipfp)算法，ipfp首先采用一个连续或者离散的解作为初始化，然后通过迭代快速找到服从初始离散约束的解。这种算法与特征向量的幂方法是弱相关的，考虑如下公式：
[0193][0194]
匹配预测，在跟踪问题中，可以利用前一帧的结果进行匹配预测，然后用预测结果作为ipfp算法的初始输入。对于每一输入帧t，τ
t-1
表示从上一帧得到的变换。每一个候选匹配(i,a)∈c
t
，初始化对应概率为：
[0195][0196]
其中和分别表示顶点和的位置。预测的直观假设在于模型顶点更可能跟相邻帧的附近位置匹配。将预测x归一化后作为ipfp的输入。
[0197]
步骤243：变换的优化，给定对应矩阵x，针对变换τ的优化可以重新表述为：
[0198]
在给定对应矩阵x的情况下，针对变换τ的优化问题就简化为最小化距离和。对于平面物体跟踪，因为常约束变换τ为线性函数，所以这个优化问题就变成了一个线性最小二乘问题，可以通过线性拟合求解。
[0199]
本发明提供了一种基于图像匹配算法的视频渲染技术，主要描述通过单个图像的关键区域检测得到关键点以及将目标图像和候选图进行匹配，最后将设计好的动画叠加到目标图像上达到视频渲染的效果。本发明通过将图像的关键点检测看作关键部位检测，从而能够更好的进行图匹配，而且利用合适的优化方法，使得结果更加精确，得到更加鲁棒而且准确的跟踪效果，使得视频渲染的效果更加合理有效。
[0200]
更加具体的说，本实施例用图对平面物体建模，图的顶点由可靠的自然选择自动选择机制生成而不是传统的基于hog的检测子。这种机制使得图结构更加稳定，因此本方法对极端环境变量具有鲁棒性；本实施例把特征对应和姿态估计集成在一个统一的几何图匹配框架中。几何图中的两两二元限制条件能够对全面的信息编码，这样gracker算法对各种几何和光学变换更具有鲁棒性和精确性。
[0201]
unity中有高性能、超灵活的着色器系统，在unity3d中内置的物理引擎比opengl和webgl技术能够带给用户更真实的互动感受，而且unity的场景是一个类似于现实的虚拟世界，场景中的对象通过camera来呈现给使用者，通过改变camera的视角来改变场景中现实的对象，就像转动人的眼睛看到的画面一样。在渲染设计时，unity丰富的场景和脚本资源库，使得使用渲染更加灵活和方便。
[0202]
图4-图9为本发明实施例提供的基于gracker方法所得到的图像跟踪检测结果，图4中，改变弱纹理落日图片的缩放，其中的框架表示算法的跟踪结果，当不存在框架时表明算法丢失目标。同样的框架被应用于图5,6,7,8和9中。图5中，为了图示方便，将每一帧裁剪，只显示了对象物体周围的一个区域。对图6,7,9也进行了同样处理。图6为盒子图案的平移和旋转。图7为书的遮挡，图7(a)为正常光照条件，图7(b)为黑暗光照条件，图8为杂志物体,运动模糊的示意图。图9为信封物体复合变换的示意图。
[0203]
本发明的实施例还提供了一种基于图像跟踪的视频渲染装置，如图10所示，包括：
[0204]
建模模块21，用于获取候选图像的关键点，根据所述关键点对所述候选图像进行建模；
[0205]
处理模块22，用于确定目标图像和所述候选图像的最佳映射关系，根据所述最佳映射关系识别出目标图像；
[0206]
渲染模块23，用于基于所述关键点将预先设计的渲染动画叠加到所述目标图像上。
[0207]
一些实施例中，所述建模模块21具体用于：
[0208]
给定在候选图像中目标对象的初始区域r；
[0209]
对每个r计算像素的尺度不变特征变换sift响应，将r等分为n个网格，从每个网格
中选取sift响应值最大的点作为该网格的关键点，n为大于1的整数；
[0210]
将所选取的关键点建模为图的节点，计算关键点的描述子作为节点的属性，并使用狄洛尼三角剖分构建的图的边。
[0211]
一些实施例中，所述处理模块22具体用于：
[0212]
利用最大后验概率估计跟踪图像的单个部件，对当前帧图像t
t
进行部件提取，得到至少一个部件其中，p
ti
是提取出的第i个部件，i，n为正整数；
[0213]
通过最大化评价函数ε(x,τ)，寻找当前帧图像中的部件与初始帧图像部件的最优的匹配结果，进而得到最优的x
*
和τ
*
：
[0214][0215]
xln≤lm，x
t
lm≤ln，
[0216]
其中，x是匹配可能性，x
*
是最佳匹配结果，τ是映射关系，τ
*
是最佳映射关系，ln表示长度为n的列向量，lm表示长度为m的列向量，其中每个元素值为1，优化约束条件保证每个部件至多只能被匹配一次。
[0217]
一些实施例中，
[0218]
对于给定的目标图像gm和候选图像g
t
，利用如下公式计算全局一致性：
[0219][0220]
其中c
i，a
x
i，a
测量gm中的第i个顶点和g
t
的第a个顶点的一致性，d
i，j，a，b
x
i，a
x
j，b
测量gm中的边(i，j)和g
t
中的边(a，b)的一致性；
[0221]
通过几何和光学约束为图像每一个顶点构造一个候选匹配集
[0222][0223]
其中，表示gm中的第i个顶点的位置，表示g
t
中的第a个顶点的位置，f
im
和分别是gm中的第i个顶点和g
t
的第a个顶点的光学描述子，εg和εa分别是几何和表征变化的容差；
[0224]
运用先前帧图像的解来预测匹配x和变换τ，保持其中一项不变去优化另一项，直到收敛或达到最大迭代次数。
[0225]
一些实施例中，还包括：
[0226]
利用时间t时的映射关系τ
t
预测时间t+1时的映射关系τ
t+1
：
[0227]
τ
t+1
＝τ
t
+
▽
τ
t
+h.o.t.
[0228]
其中
▽
τ
t
表示τ在时间t的梯度，h.o.t.是展开式中的更高阶，
[0229]
对每一次时间i(1≤i＜t)的梯度取近似
▽
τi＝τ
i+1-τi，然后用下列公式估计
▽
τ
t
：
[0230]
[0231]
其中k控制预测的滑动窗口；利用前一帧的x*和τ*进行匹配预测，然后用预测结果作为ipfp算法的初始输入，对于每一输入帧t，τ
t-1
表示从上一帧得到的变换，其中，
[0232][0233]
对于每一个候选匹配(i,a)∈c
t
，初始化对应概率为：
[0234][0235]
其中，表示gm中的第i个顶点的位置，表示g
t
中的第a个顶点的位置，表示g
t
中的第b个顶点的位置，表示gm中的第j个顶点的位置；
[0236]
给定对应矩阵x，针对变换τ的优化表述为：
[0237][0238]
其中，β为预设系数。
[0239]
一些实施例中，τ为线性函数，参数为斜率和截距。
[0240]
本发明的实施例还提供了一种图像跟踪的视频渲染装置，如图11所示，包括存储器31、处理器32及存储在所述存储器31上并可在所述处理器32上运行的计算机程序；所述处理器32执行所述程序时实现如上所述的基于图像跟踪的视频渲染方法。
[0241]
一些实施例中，所述处理器32用于获取候选图像的关键点，根据所述关键点对所述候选图像进行建模；确定目标图像和所述候选图像的最佳映射关系，根据所述最佳映射关系识别出目标图像；基于所述关键点将预先设计的渲染动画叠加到所述目标图像上。
[0242]
一些实施例中，所述处理器32具体用于：
[0243]
给定在候选图像中目标对象的初始区域r；
[0244]
对每个r计算像素的尺度不变特征变换sift响应，将r等分为n个网格，从每个网格中选取sift响应值最大的点作为该网格的关键点，n为大于1的整数；
[0245]
将所选取的关键点建模为图的节点，计算关键点的描述子作为节点的属性，并使用狄洛尼三角剖分构建的图的边。
[0246]
一些实施例中，所述处理器32具体用于：利用最大后验概率估计跟踪图像的单个部件，对当前帧图像t
t
进行部件提取，得到至少一个部件其中，p
ti
是提取出的第i个部件，i，n为正整数；
[0247]
通过最大化评价函数ε(x,τ)，寻找当前帧图像中的部件与初始帧图像部件的最优的匹配结果，进而得到最优的x
*
和τ
*
：
[0248][0249]
xln≤lm，x
t
lm≤ln，
[0250]
其中，x是匹配可能性，x
*
是最佳匹配结果，τ是映射关系，τ
*
是最佳映射关系，ln表示长度为n的列向量，lm表示长度为m的列向量，其中每个元素值为1，优化约束条件保证每个部件至多只能被匹配一次。
[0251]
一些实施例中，
[0252]
对于给定的目标图像gm和候选图像g
t
，利用如下公式计算全局一致性：
[0253][0254]
其中c
i，a
x
i，a
测量gm中的第i个顶点和g
t
的第a个顶点的一致性，d
i，j，a，b
x
i，a
x
j，b
测量gm中的边(i，j)和g
t
中的边(a，b)的一致性；
[0255]
通过几何和光学约束为图像每一个顶点构造一个候选匹配集
[0256][0257]
其中，表示gm中的第i个顶点的位置，表示g
t
中的第a个顶点的位置，f
im
和分别是gm中的第i个顶点和g
t
的第a个顶点的光学描述子，εg和εa分别是几何和表征变化的容差；
[0258]
运用先前帧图像的解来预测匹配x和变换τ，保持其中一项不变去优化另一项，直到收敛或达到最大迭代次数。
[0259]
一些实施例中，还包括：
[0260]
利用时间t时的映射关系τ
t
预测时间t+1时的映射关系τ
t+1
：
[0261]
τ
t+1
＝τ
t
+
▽
τ
t
+h.o.t.
[0262]
其中
▽
τ
t
表示τ在时间t的梯度，h.o.t.是展开式中的更高阶，
[0263]
对每一次时间i(1≤i＜t)的梯度取近似
▽
τi＝τ
i+1-τi，然后用下列公式估计
▽
τ
t
：
[0264][0265]
其中k控制预测的滑动窗口；利用前一帧的x*和τ*进行匹配预测，然后用预测结果作为ipfp算法的初始输入，对于每一输入帧t，τ
t-1
表示从上一帧得到的变换，其中，
[0266][0267]
对于每一个候选匹配(i,a)∈c
t
，初始化对应概率为：
[0268][0269]
其中，表示gm中的第i个顶点的位置，表示g
t
中的第a个顶点的位置，表示g
t
中的第b个顶点的位置，表示gm中的第j个顶点的位置；
[0270]
给定对应矩阵x，针对变换τ的优化表述为：
[0271][0272]
其中，γ为预设系数。
[0273]
一些实施例中，τ为线性函数，参数为斜率和截距。
[0274]
本发明的实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的基于图像跟踪的视频渲染方法中的步骤。
[0275]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
[0276]
以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周佳俊
技术所有人：中国移动通信集团有限公司
我是此专利的发明人

上一篇：带机载除尘装置的除尘导烟车的制作方法
上一篇：一种中医科敷贴药丸大批量制作成型装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。