联合深度估计的制作方法

文档序号：6596123阅读：309来源：国知局

专利名称：联合深度估计的制作方法
技术领域：
描述涉及编码系统的实现方式。多种具体的实现方式涉及联合深度估计。
背景技术：
三维视频(3DV)是针对在接收器侧产生高质量3D呈现的框架。这使能了利用自动立体显示器、自由视点应用、和立体显示器进行3D视觉体验。在3DV应用中，由于在传输带宽中的限制和/或存储约束而传送或存储降低数量的视频视图和对应的深度图(典型地被称为多视图加深度(MVD))。在接收器侧，使用可用的视图和深度图来呈现附加的视图。

发明内容
根据总的方面，估计用于第一视图中的位置的第一视图深度指示值，以及估计用于第二视图中的对应位置的第二视图深度指示值。基于约束来进行第一视图深度指示值和第二视图深度指示值中的一个或多个的估计。该约束提供了用于对应位置的第一视图深度指示值和第二视图深度指示值之间的关系。在附图和以下描述中提出了一种或多种实现方式的细节。即使以一种特定方式描述，也应清楚可以以多种方式来配置或体现多种实现方式。例如，可以将实现方式执行为方法、或者可以将其体现为装置(诸如，例如被配置为执行一组操作的装置、或存储用于执行一组操作的指令的装置)、或者可以将其体现在信号中。结合附图和权利要求书来考虑以下描述，其它方面和特征将变得明显。

图1是来自左参考视图的左深度图的示例。图2是来自右参考视图的右深度图的示例。图3是深度估计器的实现方式的图。图4是视频传输系统的实现方式的图。图5是视频接收系统的实现方式的图。图6是视频处理设备的实现方式的图。图7是第一深度估计处理的实现方式的图。图8是第二深度估计处理的实现方式的图。
具体实施方式
在许多3DV应用中，可以产生中间视图(虚拟视图)，并且这样的产生典型地被称为呈现。可以使用例如基于深度图像的呈现(DIBR)技术来执行呈现，所述基于深度图像的呈现(DIBR)技术采用所传送/所存储的视图(参考视图)和相关联的每像素深度图作为输入。这样的输入例如可以由MVD格式来提供。可以使用多种技术中的任一种来捕获深度。然而，经常仅提供视频，而估计深度。为了获得深度图，经常使用深度估计技术来找到各不同视图之间的对应性。尤其在使用深度估计来获得输入深度图时，生成虚拟视图可能是有挑战的任务。即，由于所估计的深度图可能是有噪声的(不准确的)，并且可能没有其它的场景信息(诸如，场景的3D表面属性)可用。有噪声的深度图可能是不准确的，这是因为它们不具有正确的深度值。另外，有噪声的深度图的序列可能具有不是一致性地(consistently)不准确的不准确值。例如，处于恒定实际深度处的对象可能在第一画面中利用低深度被不准确地估计，而在第二画面中利用高深度被不准确地估计。如果更多参考视图可用于DIBR，则典型地可以实现较佳的视图呈现质量。例如，可以使用两个参考视图来呈现中间视图。在多参考视图的情况下，如果不是已经知道每个参考视图的深度图，则估计每个参考视图的深度图。然而，不同视图的多深度图典型地是被彼此独立地估计的。如所提及的，DIBR方法的挑战之一在于以下事实在各视图间所估计的深度图经常不一致。在利用两个或多个不一致的深度图来呈现虚拟视图时，这可能导致差的呈现质量。在至少一种实现方式中，我们提出利用联合深度估计来估计参考视图的深度图。联合深度估计在联合处理中而不是独立地执行对于多参考视图的深度估计。联合深度估计获得更一致的不同视图的深度图，导致了在DIBR呈现的视图中较佳的质量。在至少一种实现方式中，基于中间视图产生两个深度图。该实现方式发展了以下约束提供两个深度图中对应位置之间的关系。可以以多种方式使用该约束来提供两个深度图之间的一致性。在至少一种实现方式中，联合深度估计涉及对用于两个或多个视图中对应像素位置之间的视差的各视差估计成本(失真)执行的求和操作。在至少一种实现方式中，联合深度估计涉及使用基于照相机距离的求和操作。在至少一种实现方式中，基于照相机距离来对求和操作进行加权。图1示出了根据本原理实施例的为与被已知为“Leavingjaptop”的MPEG测试序列对应的左参考视图产生的示例的左深度图，可以向其应用本原理。图2示出了根据本原理实施例的为与被已知为“Leavingjaptop”的MPEG测试序列对应的右参考视图产生的示例的右深度图，可以向其应用本原理。尽管依据所述图不是显而易见的，但是可以观察到对于一些具体区域，深度图对中的深度级可能有很大区别。具体地，在图1和2的示例中，区别可能大于40。在这些情况下，理想的区别是零，但是所观察到的区别为例如大于40。这是不具有一致的深度图的视图的示例。关于估计一个深度图所需的输入视图的数量，可以典型地将深度估计算法划分为以下种类单视图；立体视图；以及多视图。所有这三种种类都假设深度图是未知的，并且都使用来自一个或多个视图的视频来产生深度图。在典型实现方式中，在仅一个单视图作为输入的情况下，照相机焦距被考虑为深度估计的平均。可以使用被称为“依据焦距的深度(cbpth from focus)”的方法，基于散焦或模糊的量来估计深度。该方法可能不是非常可靠，这是因为例如焦距估计经常不会提供很好的结果。立体视图方法可以使用一对视图作为输入来估计用于所述视图之一的深度图。对于基于区域的立体匹配方法，这样的方法典型地在两个图像之间匹配一窗口内的相邻像素值。选择适当的窗口大小典型地是关键的。在一些应用中，可以基于局部亮度变化和当前深度估计来迭代地改变窗口大小和形状。可以应用一些全局约束来产生稠密深度图，即，具有唯一值并且几乎在任何位置都连续的深度图。随着出现多视图内容，已经探索使用多视图作为输入来进行深度估计。一种可能的方法是使用三个视图作为输入(左视图、中间视图、和右视图)来估计用于中间视图的深度。在本领域的典型方法中，目标是产生单个稠密深度图序列。当需要估计多于一个深度图序列时，无论深度估计算法是什么种类，都独立地对每个目标视图执行深度估计。因此，很有可能出现各视图间的不一致性。图3示出了依据本原理实施例的可以向其应用本原理的示例性深度估计器300。深度估计器300接收目标视图1、目标视图2、以及一个或多个参考视图作为输入。深度估计器300提供目标视图1的估计深度和目标视图2的估计深度作为输出。下面将更详细地描述深度估计器300的操作。更一般地，深度估计器300提供用于目标视图1的估计深度指示值和用于目标视图2的估计深度指示值。深度指示值可以是深度值、或整个深度图。但是深度指示值可以替代地是例如视差值、或整个视差图。在接下来的实现方式和描述中对深度的引用意图包括其它深度指示值，诸如例如视差。深度指示值可以提供用于例如整个目标视图或目标视图中一位置的深度指示。该位置可以是例如具体像素、部分、子宏块、宏块、码片或场。图4示出了依据本发明实现方式的可以向其应用本原理的示例视频传输系统 400。视频传输系统400可以是例如用于使用多种介质(诸如例如卫星、电缆、电话线、或地面广播)中任一种来传送信号的前端或传输系统。可以在因特网或某些其它网络上提供传输。视频传输系统400能够产生并传递具有深度的压缩视频。这通过产生包括深度信息或能够被用来在(可能例如具有解码器的)接收器端合成深度信息的信息的(多个)编码信号来实现。视频传输系统400包括编码器410和能够传送编码信号的发射器420。编码器410 接收视频信息并且产生具有深度的(多个)编码信号。编码器410可以包括子模块，包括例如用于接收并组装多个信息为用于存储或传输的构造格式的组装单元。多个信息可以包括例如编码或未编码的视频、编码或未编码的深度信息、以及编码或未编码的元素(诸如例如运动向量、编码模式指示值、和语法元素)。发射器420可以例如被适配为传送具有一个或多个比特流的节目信号，其表示编码画面和/或与其有关的信息。典型的发射器执行以下功能中的一个或多个，诸如例如提供纠错编码、将数据交织在信号中、将信号中的能量随机化、以及将信号调制到一个或多个载波上。发射器可以包括天线(未示出)、或者与天线(未示出)接口。相应地，发射器420的实现方式可以包括或被限于调制器。视频传输系统400还可以被全部或部分地包括在多种用户设备中。这样的设备包括例如蜂窝电话、膝上型或其它计算机、和摄像机。图5示出了依据本原理实施例的可以向其应用本原理的示例性视频接收系统 500。视频接收系统500可以被配置为在多种介质(诸如例如卫星、电缆、电话线、或地面广播)上接收信号。可以在因特网或某些其它网络上接收信号。视频接收系统500可以是例如蜂窝电话、计算机、机顶盒、电视机、或接收编码视频并提供例如解码视频以供向用户显示或存储的其它设备。因此，视频接收系统500可以将其输出提供至例如电视机的屏幕、计算机监视器、计算机(以供存储、处理、或显示)、或者某些其它存储、处理或显示设备。视频接收系统500能够接收并处理包括视频信息的视频内容。视频接收系统500 包括能够接收编码信号(诸如例如在本申请实现方式中描述的信号)的接收器510、以及能够解码所接收的信号的解码器520。接收器510可以例如被配置为接收具有多个比特流的节目信号，其表示编码画面。典型的接收器执行以下功能中的一个或多个，诸如例如接收调制且编码的数据信号、从一个或多个载波中解调数据信号、将信号中的能量去随机化、将信号中的数据去交织、以及对信号进行纠错解码。接收器510可以包括天线(未示出)、或者可以与天线(未示出)接口。接收器510的实现方式可以包括或被限于解调器。解码器520输出包括例如视频信息和深度信息的视频信号。图6示出了依据本原理实施例的可以向其应用本原理的示例性视频处理设备 600。视频处理设备600可以是例如机顶盒、或接收编码视频并提供例如解码视频以供向用户显示或存储的其它设备。因此，视频处理设备600可以将其输出提供到电视机、计算机监视器、或者计算机或其它处理设备。视频处理设备600包括前端(FE)设备605和解码器610。前端设备605可以是例如被适配为接收具有多个表示编码画面的比特流的节目信号、并从多个比特流中选择要解码的一个或多个比特流的接收器。典型的接收器执行以下功能中的一个或多个，诸如例如接收调制且编码的数据信号、解调数据信号、对数据信号的一个或多个编码(例如，信道编码和/或源编码)进行解码、以及/或者对信号进行纠错。前端设备605可以从例如天线 (未示出)接收节目信号。前端设备605将所接收的数据信号提供至解码器610。解码器610接收数据信号620。数据信号620可以包括例如一个或多个兼容高级视频编码(AVC)、可缩放视频编码(SVC)、或多视图视频编码(MVC)的流。AVC更具体地指代现有的国际标准化组织/国际电工委员会(IS0/IEC)运动画面专家组-4(MPEG-4)第10部分高级视频编码(AVC)标准/国际电信联盟电信分部(ITU-T) H. 264建议(以下称为“H. 264/MPEG-4AVC标准”或其变型，诸如“AVC标准”或简单地 “AVC”)。MVC更具体地指代AVC标准的多视图视频编码(“MVC” )扩展(附录H)，被称为 H. 264/MPEG-4AVC MVC 扩展(“MVC 扩展”或简单地 “MVC，，)。SVC更具体地指代AVC标准的可缩放视频编码(“SVC” )扩展(附录G)，被称为 H. 264/MPEG-4AVC SVC 扩展(“SVC 扩展”或简单地 “SVC”)。
解码器610对所接收的信号620的全部或部分进行解码，并且提供解码视频信号 630作为输出。解码视频630被提供给选择器650。设备600还包括接收用户输入670的用户接口 660。用户接口 660基于用户输入670将画面选择信号680提供给选择器650。画面选择信号680和用户输入670指示用户期望显示多画面、序列、可缩放版本、视图、或可用解码数据的其它选择中的哪个。选择器650提供所选择的画面作为输出690。选择器650 使用画面选择信号680来选择提供解码视频630中的哪个画面作为输出690。在各种实现方式中，选择器650包括用户接口 660，而在其它实现方式中，由于选择器650直接接收用户输入670而不执行单独的接口功能，因而不需要用户接口 660。例如，选择器650可以以软件形式实现，或者可以实现为集成电路。在一种实现方式中，选择器650与解码器610合并，而在另一实现方式中，解码器610、选择器650和用户接口 660全部被集成。在一个应用中，前端605接收各种电视节目(show)的广播，并选择一个用于处理。一个节目的选择基于期望观看频道的用户输入。尽管在图6中未示出对前端设备605的用户输入，但前端设备605接收用户输入670。前端设备605接收广播，并且通过解调广播频谱的相关部分并对解调节目的任何外部编码进行解码来处理期望节目。前端设备605将解码节目提供给解码器610。解码器610是包括设备660和650的集成单元。因此，解码器610接收用户输入，该用户输入是用户提供的对节目中期望观看的视图的指示。解码器 610对所选择的视图进行解码，以及从其它视图中解码任何需要的参考画面，并且提供解码视图690以供在电视(未示出)上显示。继续以上应用，用户可能期望切换被显示的视图，并且然后可能向解码器610提供新的输入。在从用户接收到“视图改变”之后，解码器610解码老视图和新视图两者、以及介于老视图和新视图之间的任何视图。即，解码器610对从物理地位于拍摄老视图的照相机和拍摄新视图的照相机之间的照相机拍摄的任何视图进行解码。前端设备605还接收标识老视图、新视图、以及中间视图的信息。这种信息可以由例如具有关于各视图的位置的信息的控制器(图6中未示出)、或者解码器610来提供。其它实现方式可以使用具有与前端设备集成在一起的控制器的前端设备。解码器610提供所有这些解码视图作为输出690。后处理器(图6中未示出)在各视图之间进行内插以便提供从老视图到新视图的平滑过渡，并且向用户显示该过渡。在过渡到新视图之后，后处理器(通过未示出的一个或多个通信链路)向解码器610和前端设备605通知仅需要新视图。此后，解码器610仅提供新视图作为输出690。可以使用系统600来接收图像序列的多视图，呈现用于显示的单个视图，并且以平滑的方式在多个视图之间进行切换。平滑的方式可以包含在各视图之间进行内插以便移到另一视图。另外，系统600可以允许用户旋转对象或场景、或者不同地看到对象或场景的三维表示。对象的旋转例如可以对应于从一视图移到另一视图、以及在各视图之间进行内插以便获得各视图之间的平滑过渡或简单地获得三维表示。即，用户可以“选择”内插视图作为要显示的“视图”。在至少一种所描述的实现方式中，提出了以联合方式而不是独立地执行用于目标视图的深度估计。对于照相机几何学，使用以下公式可转换两个视图之间的视差(d)和对象深度
权利要求
1.一种方法，包括估计用于第一视图中的位置的第一视图深度指示值、以及用于第二视图中的对应位置的第二视图深度指示值，基于提供了用于对应位置的第一视图深度指示值和第二视图深度指示值之间的关系的约束来进行第一视图深度指示值和第二视图深度指示值中的一个或多个的估计。
2.如权利要求1所述的方法，其中，该约束基于一个或多个照相机参数。
3.如权利要求2所述的方法，其中，一个或多个照相机参数包括以下至少一项第一视图照相机的位置、第二视图照相机的位置、第三视图照相机的位置、第一视图照相机的像主点偏移、第二视图照相机的像主点偏移、或第三视图照相机的像主点偏移。
4.如权利要求1所述的方法，其中，第一视图深度指示值基于来自第一视图的视频和来自第三视图的视频，以及第二视图深度指示值基于来自第二视图的视频和来自第三视图的视频。
5.如权利要求1所述的方法，其中，估计第一视图深度指示值和第二视图深度指示值包括确定用于第一视图深度指示值的初始值；确定用于第二视图深度指示值的初始值；以及在用于第一视图深度指示值的初始值和用于第二视图深度指示值的初始值在满足该约束的给定阈值内的情况下，基于该约束来更新第一视图深度指示值和第二视图深度指示值中的至少一个。
6.如权利要求5所述的方法，其中，确定用于第一视图深度指示值的初始值包括执行多个用于第一视图的视频和用于第三视图的视频的基于块的比较，每个基于块的比较基于用于第一视图深度指示值的不同值并导致失真；在多个基于块的比较中，确定在多个基于块的比较中具有最低失真的基于块的比较中导致用于第一视图深度指示值的使失真最小化的值；以及将用于第一视图深度指示值的初始值设置为所确定的使失真最小化的值。
7.如权利要求5所述的方法，其中，更新包括将第一视图深度指示值设置为基于用于第一视图深度指示值的初始值的幅度和用于第二视图深度指示值的初始值的幅度的平均值而更新的值。
8.如权利要求1所述的方法，还包括比较第一视图深度指示值和第二视图深度指示值；以及基于该比较，向第一视图深度指示值和第二视图深度指示值分配置信度的测量，其中，在深度指示值相似时置信度的测量较高，而在深度指示值不相似时置信度的测量较低。
9.如权利要求1所述的方法，其中，估计第一视图深度指示值和第二视图深度指示值包括依据由该约束提供的关系，确定各深度指示值具有相差多于深度指示值阈值的值；确定用于第一视图深度指示值的第一视图失真；确定用于第二视图深度指示值的第二视图失真；在第一视图失真比第二视图失真大失真阈值的情况下，将第一视图中的位置标记为孔洞；以及在第二视图失真比第一视图失真大该失真阈值的情况下，将第二视图中的对应位置标记为孔洞。
10.如权利要求9所述的方法，还包括使用用于在与所标记的位置相邻的各位置中指示最大深度的、与所标记的位置相邻的位置的深度指示值来填充该孔洞。
11.如权利要求1所述的方法，其中，估计第一视图深度指示值和第二视图深度指示值包括确定用于第一视图深度指示值的初始值；以及基于用于第一视图深度指示值的初始值以及基于该约束，确定用于第二视图深度指示值的初始值。
12.如权利要求11所述的方法，其中，对于用于第一视图深度指示值的初始值和用于第二视图深度指示值的初始值，确定联合失真；以及基于该联合失真，确定是否选择用于第一视图深度指示值的初始值作为所估计的第一视图深度指示值、以及是否选择用于第二视图深度指示值的初始值作为所估计的第二视图深度指示值。
13.如权利要求12所述的方法，其中，确定联合失真包括将用于第一视图深度指示值的初始值的失真和用于第二视图深度指示值的初始值的失真求和。
14.如权利要求12所述的方法，其中，确定联合失真包括计算用于第一视图深度指示值的初始值的失真和用于第二视图深度指示值的初始值的失真加权和，其中，权重基于包括第一视图照相机、第二视图照相机和第三视图照相机的组中各照相机之间的至少一个距罔。
15.如权利要求1所述的方法，其中，该方法在视频编码器或视频解码器的至少一个中实现。
16.如权利要求1所述的方法，其中，第一视图深度指示值包括以下的一个或多个用于第一视图中位置的深度值、或用于第一视图中位置和另一视图中对应位置之间的视差的视差值。
17.如权利要求1所述的方法，还包括基于第一视图深度指示值或第二视图深度指示值中的一个或多个，呈现附加视图。
18.如权利要求1所述的方法，其中，第一视图中的位置是以下之一第一视图中的像素、第一视图中的部分、第一视图中的子宏块、第一视图中的宏块、第一视图中的码片、或第一视图中的场。
19.一种装置，包括用于估计用于第一视图中的位置的第一视图深度指示值、以及用于第二视图中的对应位置的第二视图深度指示值的部件，基于提供了用于对应位置的第一视图深度指示值和第二视图深度指示值之间的关系的约束来进行第一视图深度指示值和第二视图深度指示值中的一个或多个的估计。
20.一种在其中存储了指令的处理器可读介质，所述指令用于使得处理器至少执行以下操作估计用于第一视图中的位置的第一视图深度指示值、以及用于第二视图中的对应位置的第二视图深度指示值，基于提供了用于对应位置的第一视图深度指示值和第二视图深度指示值之间的关系的约束来进行第一视图深度指示值和第二视图深度指示值中的一个或多个的估计。
21.一种包括处理器的装置，该处理器被配置为至少执行以下操作估计用于第一视图中的位置的第一视图深度指示值、以及用于第二视图中的对应位置的第二视图深度指示值，基于提供了用于对应位置的第一视图深度指示值和第二视图深度指示值之间的关系的约束来进行第一视图深度指示值和第二视图深度指示值中的一个或多个的估计。
22.一种装置，包括深度估计器，用于估计用于第一视图中的位置的第一视图深度指示值、以及用于第二视图中的对应位置的第二视图深度指示值，基于提供了用于对应位置的第一视图深度指示值和第二视图深度指示值之间的关系的约束来进行第一视图深度指示值和第二视图深度指示值中的一个或多个的估计。
23.一种装置，包括深度估计器，用于估计用于第一视图中的位置的第一视图深度指示值、以及用于第二视图中的对应位置的第二视图深度指示值，基于提供了用于对应位置的第一视图深度指示值和第二视图深度指示值之间的关系的约束来进行第一视图深度指示值和第二视图深度指示值中的一个或多个的估计；以及调制器，用于调制包括第一视图深度指示值或第二视图深度指示值中的一个或多个的编码的信号。
24.—种装置，包括解调器，用于解调包括来自第一视图的视频和来自第二视图的视频的信号；以及深度估计器，用于估计用于第一视图中的位置的第一视图深度指示值、以及用于第二视图中的对应位置的第二视图深度指示值，基于提供了用于对应位置的第一视图深度指示值和第二视图深度指示值之间的关系的约束来进行第一视图深度指示值和第二视图深度指示值中的一个或多个的估计。
25.一种方法，包括基于照相机位置，利用一个或多个约束来估计用于给定像素位置的一对深度，其中，使用来自第一视图的视频和来自第三视图的视频来估计用于第一视图中给定像素位置的深度，而使用来自第二视图的视频和来自第三视图的视频来估计用于第二视图中给定像素位置的深度。
全文摘要
描述了多种实现方式。几种实现方式涉及对于多深度图的联合深度估计。在一种实现方式中，估计用于第一视图中的位置的第一视图深度指示值，并估计用于第二视图中的对应位置的第二视图深度指示值。基于约束来进行第一视图深度指示值和第二视图深度指示值中的一个或多个的估计。该约束提供了用于对应位置的第一视图深度指示值和第二视图深度指示值之间的关系。
文档编号G06K9/36GK102272778SQ200980153983
公开日2011年12月7日申请日期2009年12月16日优先权日2009年1月7日
发明者P-L.莱, 田栋申请人:汤姆森特许公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：田栋
技术所有人：汤姆森特许公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。