专利名称:用于2d视频数据到3d视频数据的转换的深度图产生技术的制作方法
技术领域:
本发明涉及视频译码,及二维QD)视频数据到三维(3D)视频数据的转换。
背景技术:
可将数字多媒体能力并入到广泛范围的装置中,包括数字电视、数字直播系统、 无线通信装置、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、数码相机、数字记录装置、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、数字媒体播放器及其类似者。数字多媒体装置可实施视频译码技术,例如MPEG-2、ITU-H. 263, MPEG-4或 ITU-H. 264/MPEG-4第10部分(高级视频译码(AVC)),以更有效率地发射及接收或存储及检索数字视频数据。视频编码技术可经由空间及时间预测来执行视频压缩,以减少或移除视频序列中所固有的冗余。大多数常规视频序列是按二维QD)检视格式编码及解码。然而,三维(3D)序列也是可能的,在所述情况下,视频序列具有与每一视频帧相关联的两个或两个以上视图。在此情况下,可在3D显示上组合所述两个或两个以上视图以再现3D视频。在一些情况下,两个或两个以上视图可由不同相机俘获,且编码成包括多个视图的3D序列。或者,可基于原始2D视频帧合成视频帧的一个或一个以上二级视图。为了有助于2D到3D转换,可使用深度图将深度值指派到视频帧的像素。可在一视图合成过程中将用于给定视频帧的深度图应用于所述视频帧,以便产生视频帧的二级视图或多个额外视图。
发明内容
本发明描述用于产生用于视频单元(例如,视频帧、视频帧的片段或视频帧的其它部分)的深度图的技术。所述技术可由视频编码器执行,以便将二维OD)视频转换到三维(3D)视频。所述技术可或者由视频解码器执行,以便将所接收的2D视频转换到3D视频。本发明的技术可包括深度图初始化过程。为了深度图初始化,可基于相对于视频序列的先前视频单元的对应像素的与一视频单元的像素相关联的运动将初始深度值指派到所述像素。接着可调整满足阈值的初始深度值,其中所述所调整的深度值是基于与所述像素相关联的色彩。接着可产生用于所述视频单元的初始化的深度图,其中所述初始化的深度图包含用于所述像素的第一子集的初始深度值及用于所述像素的第二子集的所调整的深度值。在一些情况下,可将初始化的深度图用作最终深度图而无进一步处理,且在其它情况下,可关于初始化的深度图应用额外技术,以便定义最终深度图。举例来说,所述技术可确定视频单元是否对应于相对于先前视频单元的场景改变。如果视频单元对应于场景改变,则所述技术可选择初始化的深度图作为用于视频单元的最终深度图。然而,如果视频单元不对应于场景改变,则所述技术可确定视频单元是否表示相对于先前视频单元的低级别的运动。如果视频单元不表示低级别的运动,则所述技术可基于用于视频单元的初始化的深度图的深度值与用于先前视频单元的先前深度图的深度值的加权平均值而定义最终深度图。如果视频单元表示低级别的运动,则所述技术可基于用于视频单元的初始化的深度图的深度值与用于先前视频单元的先前深度图的深度值中的最大者而定义最终深度图。在一个实例中,本发明描述一种方法,其包含基于相对于视频序列的先前视频单元的对应像素的与一视频单元的像素相关联的运动将初始深度值指派到所述像素;识别所述初始深度值是否满足阈值;将所调整的深度值指派到所述视频单元的所述像素中的一者或一者以上,所述像素中的一者或一者以上的所述初始深度值满足所述阈值,其中所述所调整的深度值是基于与所述像素相关联的色彩;及产生用于所述视频单元的深度图,其中所述深度图包含用于所述像素的第一子集的所述初始深度值及用于所述像素的第二子集的所述所调整的深度值。在另一实例中,一种视频译码器设备可包含深度图产生单元,所述深度图产生单元基于相对于视频序列的先前视频单元的对应像素的与一视频单元的像素相关联的运动将初始深度值指派到所述像素;识别所述初始深度值是否满足阈值;将所调整的深度值指派到所述视频单元的所述像素中的一者或一者以上,所述像素中的一者或一者以上的所述初始深度值满足所述阈值,其中所述所调整的深度值是基于与所述像素相关联的色彩;及产生用于所述视频单元的深度图,其中所述深度图包含用于所述像素的第一子集的所述初始深度值及用于所述像素的第二子集的所述所调整的深度值。在另一实例中,一种装置可包含用于基于相对于视频序列的先前视频单元的对应像素的与一视频单元的像素相关联的运动将初始深度值指派到所述像素的装置;用于识别所述初始深度值是否满足阈值的装置;用于将所调整的深度值指派到所述视频单元的所述像素中的一者或一者以上的装置,所述像素中的一者或一者以上的所述初始深度值满足所述阈值,其中所述所调整的深度值是基于与所述像素相关联的色彩;及用于产生用于所述视频单元的深度图的装置,其中所述深度图包含用于所述像素的第一子集的所述初始深度值及用于所述像素的第二子集的所述所调整的深度值。本发明中所描述的技术可实施于硬件、软件、固件或其任何组合中。如果实施于软件中,则可在一个或一个以上处理器中执行软件,例如微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或数字信号处理器(DSP)。执行所述技术的软件可最初存储于计算机可读媒体中且加载并执行于处理器中。因此,本发明也涵盖一种计算机可读存储媒体,其包含在由处理器执行后即刻使所述处理器进行以下操作的指令基于相对于视频序列的先前视频单元的对应像素的与一视频单元的像素相关联的运动将初始深度值指派到所述像素;识别所述初始深度值是否满足阈值;将所调整的深度值指派到所述视频单元的所述像素中的一者或一者以上,所述像素中的一者或一者以上的所述初始深度值满足所述阈值,其中所述所调整的深度值是基于与所述像素相关联的色彩;及产生用于所述视频单元的深度图,其中所述深度图包含用于所述像素的第一子集的所述初始深度值及用于所述像素的第二子集的所述所调整的深度值。
在深度图初始化之后,与本发明一致,接着可应用额外技术以便定义最终深度图。 在这些实例中,原始产生的深度图可被称作初始化的深度图。在此情况下,一种方法可进一步包含确定视频单元是否对应于相对于先前视频单元的场景改变;如果所述视频单元对应于相对于所述先前视频单元的场景改变,则选择所述初始化的深度图作为用于所述视频单元的最终深度图;如果所述视频单元不对应于相对于所述先前视频单元的场景改变,则确定所述视频单元是否表示相对于所述先前视频单元的低级别的运动;如果所述视频单元不表示所述低级别的运动,则基于用于所述视频单元的所述初始化的深度图的所述深度值与用于所述先前视频单元的先前深度图的深度值的加权平均值而定义所述最终深度图;及如果所述视频单元表示所述低级别的运动,则基于用于所述视频单元的所述初始化的深度图的所述深度值与用于所述先前视频单元的所述先前深度图的所述深度值中的最大者而定义所述最终深度图。在随附图式及以下描述中阐述本发明的一个或一个以上方面的细节。本发明中所描述的技术的其它特征、目标及优点将从描述及图式及从权利要求书变得显而易见。
图1为说明可实施本发明的技术的示范性视频编码及解码系统的框图。图2为说明可执行作为视频编码过程的部分的本发明的技术的示范性视频编码器的框图。图3为说明可执行作为视频解码过程的部分的本发明的技术的示范性视频解码器的框图。图4为说明深度估计及视图合成的过程的流程图。图5为说明初始化深度图的过程的流程图。图6为说明产生完成的深度图的过程的流程图。图7为说明深度图初始化及完成的深度图的产生的流程图。
具体实施例方式本发明描述用于产生用于视频单元(例如,视频帧或片段视频帧)的深度图的技术。所述技术可由视频编码器执行以将二维OD)视频转换到三维(3D)视频。所述技术可或者由视频解码器执行以将所接收的2D视频转换到3D视频。术语“译码”在本文中经定义以指代视频编码或视频解码。类似地,短语“视频译码器”指代视频编码器或视频解码器。 一般来说,与本发明一致,深度图初始化及产生可由编码器或解码器执行。本发明的技术可包括深度图初始化过程。为了深度图初始化,可基于相对于视频序列的先前视频单元的对应像素的与一视频单元的像素相关联的运动而将初始深度值指派到所述像素。接着可调整满足一阈值的初始深度值,其中所述所调整的深度值是基于与像素相关联的色彩。接着可产生用于视频单元的深度图(其可被称作初始化的深度图),其中所述深度图包含用于像素的第一子集的初始深度值及用于像素的第二子集的所调整的深度值。可接着应用额外技术,以便基于在初始化期间所产生的深度图(其可称为初始化的深度图)而定义最终深度图。举例来说,所述技术可确定视频单元是否对应于相对于先前视频单元的场景改变。如果视频单元对应于场景改变,则所述技术可选择初始化的深度图作为用于视频单元的最终深度图。然而,如果视频单元不对应于场景改变,则所述技术可确定视频单元是否表示相对于先前视频单元的低级别的运动。如果视频单元不表示低级别的运动,则所述技术可基于用于视频单元的初始化的深度图的深度值与用于先前视频单元的先前深度图的深度值的加权平均值而定义最终深度图。如果视频单元表示低级别的运动,则所述技术可基于用于视频单元的初始化的深度图的深度值与用于先前视频单元的先前深度图的深度值中的最大者而定义最终深度图。图1为说明可实施本发明的技术的示范性视频编码及解码系统10的框图。如图 1中所示,系统10包括源装置12,源装置12经由通信信道15将经编码的视频发射到目的地装置16。源装置12及目的地装置16可包含广泛范围的装置中的任一者,包括移动装置或大体固定装置。在一些情况下,源装置12及目的地装置16包含无线通信装置,例如无线手持机、所谓的蜂窝式或卫星无线电电话、个人数字助理(PDA)、移动媒体层,或可经由通信信道15 (其可能或可能不是无线的)而传达视频信息的任何装置。然而,涉及用于2D到3D 视频转换的深度图的产生及应用的本发明的技术可用于许多不同系统及设定中,包括用于无线、有线或混合系统中。图1仅为此系统的一个实例。在图1的实例中,源装置12可包括视频源20、视频编码器22、调制器/解调器(调制解调器)23及发射器M。目的地装置16可包括接收器沈、调制解调器27、视频解码器 28及显示装置30。根据本发明,源装置12的视频编码器22或接收装置的视频解码器观可经配置以产生用于2D到3D视频转换的深度图。源装置12可编码视频信息且将其发射到目的地装置16。目的地装置16可接收且解调从源装置12接收的无线信号。源装置12及目的地装置16为译码装置的实例。举例来说,源装置12可包括产生用于发射到目的地装置16的经译码的视频数据的译码装置。 在一些情况下,装置12、16可按实质上对称的方式操作,使得装置12、16中的每一者包括视频编码及解码组件。因此,系统10可支持视频装置12、16之间的单向或双向视频发射,例如,用于视频串流、视频重放、视频广播或视频电话。源装置12的视频源20可包括视频俘获装置,例如摄像机、含有先前俘获的视频的视频档案,或来自视频内容提供者的视频馈送。作为另一替代,视频源20可产生基于计算机图形的数据作为源视频,或实况视频、归档视频与计算机产生的视频的组合。在一些情况下,如果视频源20为摄像机,则源装置12及目的地装置16可形成所谓的相机电话或视频电话。在每一情况下,经俘获、预俘获或计算机产生的视频可由视频编码器22编码。经编码的视频信息可接着由调制解调器23根据通信标准(例如,码分多址(CDMA)、全球移动通信系统(GSM)、频分多址(FDMA)、时分多址(TDMA)、“wifi”、蓝牙、任何宽带通信,或任何其它通信技术、标准或其组合)调制。接着可经由发射器M将经调制的信息发射到目的地装置16。调制解调器23可包括各种混频器、滤波器、放大器,或经设计以用于信号调制的其它组件。发射器M可包括经设计以用于发射数据的电路,包括放大器、滤波器及一个或一个以上天线。目的地装置16的接收器沈经由信道15接收信息,且调制解调器27解调所述信息。在不同实例中,源装置12的视频编码过程或目的地装置16的视频解码过程可实施本文中所描述的技术中的一者或一者以上以产生深度图。在一些情况下,经由信道15所传达的信息可包括由源装置12产生的深度图,且在其它情况下,可基于从源装置12传达的2D 视频帧而在目的地装置16处产生深度图。显示装置30对用户显示经解码的视频数据,且可包含多种显示装置中的任一者,例如阴极射线管、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器,或另一类型的显示装置。显示装置30可具有用于多视图再现的3D能力。在图1的实例中,通信信道15可包含任何无线或有线通信媒体,例如射频(RF)频谱或一个或一个以上物理发射线,或无线与有线媒体的任何组合。因此,调制解调器23及发射器M可支持许多可能的无线协议、有线协议或有线及无线协议。通信信道15可形成例如局域网(LAN)、广域网(WAN)或包含一个或一个以上网络的互连的全球网络(例如,因特网)等基于包的网络的部分。通信信道15 —般表示用于将视频数据从源装置12发射到目的地装置16的任何合适的通信媒体,或不同通信媒体的集合。通信信道15可包括路由器、交换器、基站,或对于促进从源装置12到目的地装置16的通信可为有用的任何其它设备。本发明的技术未必需要经编码的数据从一个装置到另一者的通信,且可应用于无互逆解码的编码情形。又,本发明的方面可应用于无互逆编码的解码情形。视频编码器22及视频解码器28可实质上与一视频压缩标准(例如,ITU-T H. 264 标准,或者描述为MPEG-4第10部分(高级视频译码(AVC))) —致地操作。然而,本发明的技术不限于任何特定译码标准或其扩展。尽管在图1中未图示,但在一些方面中,视频编码器 22及视频解码器观可各自与音频编码器及解码器整合,且可包括适当的MUX-DEMUX单元或其它硬件及软件,以处置在共同数据流或单独数据流中的音频及视频两者的编码。如果适用,则MUX-DEMUX单元可遵照ITU H. 223多路复用器协议,或例如用户数据报协议(UDP)等其它协议。ITU-T H. 264/MPEG-4(AVC)标准由 ITU-T视频译码专家组(VCEG)与 IS0/IEC动画专家组(MPEG) —起制定,作为称为联合视频团队(JVT)的共同合作伙伴关系的产品。H. 264 标准由ITU-T研究组且日期为2005年3月描述于ITU-T国际标准H.沈4(用于一般视听服务的高级视频译码)中,其在本文中可被称作H. 264标准或H. 264规范,或H. 264/AVC标准或规范。联合视频团队(JVT)继续致力于对HJ64/MPEG-4AVC的扩展。在ITU-T的各种论坛(例如,关键技术领域(KTA)论坛)中已开始致力于推进 H. 264/MPEG-4AVC标准。KTA论坛部分地设法开发出展现比通过H. 264/AVC标准所展现的译码效率高的译码效率的译码技术。本发明中所描述的技术可提供相对于H. ^4/AVC标准的译码改进,特别对于3D视频及2D到3D视频转换。视频编码器22及视频解码器观各自可实施为一个或一个以上微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑电路、在微处理器或其它平台上执行的软件、硬件、固件或其任何组合。视频编码器22及视频解码器观中的每一者可包括于一个或一个以上编码器或解码器中,其中任一者可整合为相应移动装置、订户装置、广播装置、服务器或其类似者中的组合的编码器/解码器(CODEC)的部分。视频序列通常包括一系列视频帧。视频编码器22及视频解码器观可对个别视频帧内的视频块操作,以便编码及解码视频数据。视频块可具有固定或变化的大小,且大小可根据所指定的译码标准而不同。每一视频帧可包括一系列片段或其它可独立解码的单元。 每一片段可包括一系列宏块,所述块可布置成子块。作为一实例,ITU-T H. 264标准支持各种块大小(例如,对于亮度分量,16乘16、8乘8或4乘4,及对于色度分量,8乘8)中的帧内预测,以及各种块大小(例如,对于亮度分量,16乘16、16乘8、8乘16、8乘8、8乘4、4乘 8及4乘4,及对于色度分量的对应的按比例缩放的大小)中的帧间预测。视频块可包含残余像素数据的块或变换系数的块,例如,遵循例如离散余弦变换等变换过程或概念上类似的变换过程。较小的视频块可提供更好的分辨率,且可用于包括高细节级别的视频帧的位置。 一般来说,可将宏块及各种子块或分割区均考虑为视频块。另外,可将片段考虑为一系列视频块,例如宏块及/或子块或分割区。一般来说,宏块可指界定16乘16像素区域的一组色度及亮度值。亮度块可包含16乘16值集合,但可进一步分割成更小的视频块,例如8乘8 块、4乘4块、8乘4块、4乘8块或其它大小。两个不同色度块可界定用于宏块的色彩,且可各自包含与16乘16像素区域相关联的色彩值的8乘8子取样的块。宏块可包括语法信息以定义应用于宏块的译码模式及/或译码技术。可将宏块或其它视频块分组成可解码单元,例如片段、帧或其它独立单元。每一片段可为视频帧的可独立解码的单元。或者,帧自身可为可解码单元,或可将帧的其它部分定义为可解码单元。在本发明中,术语“经译码的单元”指视频帧的任何可独立解码单元,例如整个帧、帧的一片段、图片群组(GOP),或根据所使用的译码技术所定义的另一可独立解码的单元。在基于帧内或帧间的预测性编码之后且在任何变换(例如,用于H. 264/AVC中的 4X4或8X8整数变换或离散余弦变换或DCT)之后,可执行量化。量化一般指系数经量化以可能地减少用以表示系数的数据的量的过程。量化过程可减小与所述系数中的一些或全部相关联的位深度。举例来说,在量化期间可将16位值向下舍入到15位值。在量化之后, 可执行熵译码,例如,根据内容适应性可变长度译码(CAVLC)、内容适应性二进制算术译码 (CABAC)或另一熵译码方法。3D视频可能需要与每一原始编码的帧相关联的一个或一个以上额外视频帧(例如,额外视图)。举例来说,可使用两个不同视图来界定视频帧的立体3D再现。可包含两个视图、三个视图或三个以上视图的多个视图也可支持多视图3D再现。3D视频的不同视图可具有类似的时序或同步,使得与两个或两个以上视图相关联的视频帧或片段对应于一视频序列的相同的时间实例。以此方式,两个或两个以上视图可大体界定两个或两个以上2D序列,所述两个或两个以上2D序列一起形成可共同再现以提供3D视频的3D序列。为了支持基于初始2D视频序列的3D视频再现,本发明描述深度图的产生。深度图可包括用于一视频单元(例如,帧或片段)的不同像素的深度值。可在编码器处产生深度图,在所述情况下,可将深度图传达到解码器作为位流的部分,或应用于在编码器处的视图合成过程中以产生可在位流中传达的一个或一个以上额外视图。或者,可在解码器处产生深度图,在所述情况下,编码器装置可仅将2D位流发送到解码器装置,解码器装置产生深度图。如本发明中所描述的深度图初始化及最终深度图产生技术可完全在编码器中、完全在解码器中,或部分在编码器中且部分在解码器中执行。一旦产生,则深度图可用于视图合成过程中,以便产生用于2D序列的一个或一个以上二级视图,使得可按3D再现2D序列。图2为说明可执行作为视频编码过程的部分的与本发明一致的技术的视频编码器50的一实例的框图。在图2的实例中,深度图可产生且作为视频位流的部分来传达。然而,如所提及,本发明也涵盖在编码器处的深度图的产生及应用,在所述情况下,可将深度图或所产生的3D序列从视频编码器50传达到另一装置。视频编码器50可对应于源装置12的视频编码器22,或不同装置的视频编码器。 视频编码器50可执行视频帧内的块的帧内译码及帧间译码。帧内译码依赖于空间预测以减少或移除在给定视频帧内的视频中的空间冗余。帧间译码依赖于时间预测以减少或移除视频序列的邻近帧内的视频中的时间冗余。帧内模式(I模式)可指基于空间的压缩模式, 且例如预测(P模式)或双向(B模式)等帧间模式可指基于时间的压缩模式。如图2中所示,视频编码器50接收待编码的视频帧或片段内的当前视频块。在图 2的实例中,视频编码器50包括预测单元35、存储器34、加法器48、变换单元38、量化单元 40及熵译码单元46。对于视频块重建构,视频编码器50还包括逆量化单元42、逆变换单元 44及加法器51。此外,根据本发明,视频编码器50可包括深度图产生单元36,深度图产生单元36产生如本文中所描述的深度图。视频编码器50也可包括其它组件,例如解块滤波器(未图示)以对块边界进行滤波以从经重建构的视频移除成块效应假象。如果需要,则解块滤波器将通常对加法器51的输出进行滤波。在编码过程期间,视频编码器50接收待译码的视频块,且预测单元35执行帧内或帧间预测性译码。举例来说,编码器50的预测单元35可执行对于经译码的单元(例如,帧或片段)的每一视频块或视频块分割区的运动估计及运动补偿。预测单元35可计算与编码特定块相关联的每一适用模式的速率失真成本(rdcost),且可选择产生最低成本的译码模式。rdcost可按所使用的位的数目及相对于原始视频数据的在经译码的数据中的失真的级别来量化成本。速率-失真(RD)分析在视频译码中相当普遍,且一般涉及指示译码成本的成本量度的计算。成本量度可平衡译码所需的位的数目(速率)与同译码相关联的质量等级(失真)。典型的速率-失真成本计算可一般对应于以下格式J(A) = λ R+D,其中J(X)为成本,R为位速率,D为失真,且λ为拉格朗日乘数。预测单元35可应用此类型的成本函数,以比较可用以执行视频块编码的各种帧内及帧间译码模式(及适用的分割区大小)。一旦所要的预测数据由预测单元35识别,则视频编码器50通过从正译码的原始视频块中减去预测数据以产生残余块来形成残余视频块。加法器48表示执行这些减法运算的组件。变换单元38将变换(例如,离散余弦变换(DCT)或概念上类似的变换)应用于块中的残余值,从而产生包含残余变换块系数的视频块。变换单元38可执行变换,例如由 H. 264标准所定义的变换,其概念上类似于DCT。也可使用小波变换、整数变换、次频带变换或其它类型的变换。在任何情况下,变换单元38将变换应用于残余块,从而产生残余变换系数的块。变换可将残余信息从像素域转换到频域。量化单元40量化残余变换系数,以进一步减小位速率。量化过程可减小与所述系数中的一些或全部相关联的位深度。举例来说,在量化期间可将m位值向下舍入到m-n位值,其中m及m为非零,且m大于η。另外,对于使用偏差的情况,量化单元40可量化不同偏差。在量化之后,熵译码单元46熵译码经量化的变换系数。举例来说,熵译码单元46可执行内容适应性可变长度译码(CAVLC)、内容适应性二进制算术译码(CABAC)或另一熵译码方法。在由熵译码单元46进行熵译码之后,经编码的视频可发射到另一装置或经归档用于稍后发射或检索。经译码的位流可包括经熵译码的残余块、这些块的运动向量,及其它语法(例如,本文中描述的用于支持2D到3D视频转换的深度图)。逆量化单元42及逆变换单元44分别应用逆量化及逆变换以在像素域中重建构残余块,例如,用于按上文所描述的方式稍后用作参考数据。加法器51将经重建构的残余块加到由运动补偿单元35产生的第一及/或第二级预测块,以产生用于存储于存储器34中的经重建构的视频块。经重建构的视频块及残余数据可由运动补偿单元35用作参考块,来帧间编码在后续视频帧或其它经译码的单元中的块。为了支持3D视频,视频编码器50可进一步包括深度图产生单元36,深度图产生单元36关于存储于存储器34中的经重建构的2D视频序列来操作。深度图产生单元36可基于相对于视频序列的先前视频单元的对应像素的与一视频单元的像素相关联的运动而将初始深度值指派到所述像素。深度图产生单元36可接着识别初始深度值是否满足阈值,例如,初始深度值中的任一者是大于预定义的阈值还是或者小于预定义的阈值。深度图产生单元36可将所调整的深度值指派到视频单元的像素中的一者或一者以上,所述像素中的一者或一者以上的初始深度值满足所述阈值,其中所调整的深度值是基于与像素相关联的色彩。深度图产生单元36可接着产生用于视频单元的初始化的深度图,其中初始化的深度图包含不满足阈值的用于像素的第一子集的初始深度值,及满足阈值的用于像素的第二子集的所调整的深度值。又,在替代实例中,可按大于或在其它实例中小于阈值的深度值来考虑阈值的满足。深度图产生单元36可通过基于相对于先前视频单元的位于同一地点的像素的亮度值的视频单元的像素的亮度值指派初始深度值来基于运动指派初始深度值。深度图产生单元36可通过至少部分基于视频单元的像素的色度值指派所调整的深度值来基于色彩指派所调整的深度值。举例来说,如下文更详细地描述,基于运动指派初始深度值可包含根据以下等式指派初始深度值Hlni=ILmi-L1^i其中Himi表示初始深度值,Ln,i表示在视频单元η中的像素i的亮度值,且L1^i表示在先前视频单元n-1中的像素i的对应的亮度值。基于色彩指派所调整的深度值可包含根据以下等式指派所调整的深度值
权利要求
1.一种方法,其包含基于相对于视频序列的先前视频单元的对应像素的与一视频单元的像素相关联的运动将初始深度值指派到所述像素;识别所述初始深度值是否满足阈值;将所调整的深度值指派到所述视频单元的所述像素中的一者或一者以上,所述像素中的一者或一者以上的所述初始深度值满足所述阈值,其中所述所调整的深度值是基于与所述像素相关联的色彩;及产生用于所述视频单元的深度图,其中所述深度图包含用于所述像素的第一子集的所述初始深度值及用于所述像素的第二子集的所述所调整的深度值。
2.根据权利要求1所述的方法,其中基于运动指派所述初始深度值包含基于相对于所述先前视频单元的位于同一地点的像素的亮度值的所述视频单元的所述像素的亮度值而指派所述初始深度值。
3.根据权利要求1所述的方法,其中基于色彩指派所述所调整的深度值包含至少部分基于所述视频单元的所述像素的色度值而指派所述所调整的深度值。
4.根据权利要求1所述的方法,其中基于运动指派所述初始深度值包含基于相对于所述先前视频单元的位于同一地点的像素的亮度值的所述视频单元的所述像素的亮度值而指派所述初始深度值,其中基于色彩指派所述所调整的深度值包含至少部分基于所述视频单元的所述像素的色度值而指派所述所调整的深度值,且其中指派所述所调整的深度值包括将在色度值的允许间隔内的色度值映射到零与所述阈值之间的深度值。
5.根据权利要求1所述的方法,其中所述深度图包含初始化的深度图,所述方法进一步包含确定所述视频单元是否对应于相对于所述先前视频单元的场景改变; 如果所述视频单元对应于相对于所述先前视频单元的场景改变,则选择所述初始化的深度图作为用于所述视频单元的最终深度图;如果所述视频单元不对应于相对于所述先前视频单元的场景改变,则确定所述视频单元是否表示相对于所述先前视频单元的低级别的运动;如果所述视频单元不表示所述低级别的运动,则基于用于所述视频单元的所述初始化的深度图的所述深度值与用于所述先前视频单元的先前深度图的深度值的加权平均值而定义所述最终深度图;及如果所述视频单元表示所述低级别的运动,则基于用于所述视频单元的所述初始化的深度图的所述深度值与用于所述先前视频单元的所述先前深度图的所述深度值中的最大者而定义所述最终深度图。
6.根据权利要求5所述的方法,其中所述方法由视频解码器执行,所述方法进一步包含基于所述最终深度图执行视图合成以产生用于所述视频单元的二级视图。
7.根据权利要求5所述的方法,其中所述方法由视频编码器执行,所述方法进一步包含与所述视频单元一起传送所述最终深度图。
8.根据权利要求5所述的方法,其中所述方法由视频编码器执行,所述方法进一步包含基于所述最终深度图执行视图合成以产生用于所述视频单元的二级视图;及与所述视频单元一起传送所述二级视图。
9.一种包含深度图产生单元的视频译码器设备,所述深度图产生单元基于相对于视频序列的先前视频单元的对应像素的与一视频单元的像素相关联的运动将初始深度值指派到所述像素;识别所述初始深度值是否满足阈值;将所调整的深度值指派到所述视频单元的所述像素中的一者或一者以上,所述像素中的一者或一者以上的所述初始深度值满足所述阈值,其中所述所调整的深度值是基于与所述像素相关联的色彩;及产生用于所述视频单元的深度图,其中所述深度图包含用于所述像素的第一子集的所述初始深度值及用于所述像素的第二子集的所述所调整的深度值。
10.根据权利要求9所述的视频译码器设备,其中在基于运动指派所述初始深度值的过程中,所述深度图产生单元基于相对于所述先前视频单元的位于同一地点的像素的亮度值的所述视频单元的所述像素的亮度值而指派所述初始深度值。
11.根据权利要求9所述的视频译码器设备,其中基于色彩指派所调整的深度值,所述深度图产生单元至少部分基于所述视频单元的所述像素的色度值而指派所述所调整的深度值。
12.根据权利要求9所述的视频译码器设备,其中基于运动指派所述初始深度值包含基于相对于所述先前视频单元的位于同一地点的像素的亮度值的所述视频单元的所述像素的亮度值而指派所述初始深度值,其中基于色彩指派所述所调整的深度值包含至少部分基于所述视频单元的所述像素的色度值而指派所述所调整的深度值,且其中指派所述所调整的深度值包括将在色度值的允许间隔内的色度值映射到零与所述阈值之间的深度值。
13.根据权利要求9所述的视频译码器设备,其中所述深度图包含初始化的深度图,其中所述深度图产生单元确定所述视频单元是否对应于相对于所述先前视频单元的场景改变; 如果所述视频单元对应于相对于所述先前视频单元的场景改变,则选择所述初始化的深度图作为用于所述视频单元的最终深度图;如果所述视频单元不对应于相对于所述先前视频单元的场景改变,则确定所述视频单元是否表示相对于所述先前视频单元的低级别的运动;如果所述视频单元不表示所述低级别的运动,则基于用于所述视频单元的所述初始化的深度图的所述深度值与用于所述先前视频单元的先前深度图的深度值的加权平均值而定义所述最终深度图;及如果所述视频单元表示所述低级别的运动,则基于用于所述视频单元的所述初始化的深度图的所述深度值与用于所述先前视频单元的所述先前深度图的所述深度值中的最大者而定义所述最终深度图。
14.根据权利要求13所述的视频译码器设备,其中所述视频译码器包含视频解码器,其中所述视频解码器进一步包含二维2D到三维转换单元,其基于所述最终深度图执行视图合成以产生用于所述视频单元的二级视图。
15.根据权利要求13所述的视频译码器设备,其中所述视频译码器包含视频编码器, 其中视频译码设备进一步包含与所述视频单元一起传送所述最终深度图的发射器。
16.根据权利要求13所述的视频译码器设备,其中所述视频译码器包含视频编码器, 其中所述视频编码器进一步包含二维2D到三维转换单元,所述二维2D到三维转换单元基于所述最终深度图执行视图合成以产生用于所述视频单元的二级视图,且其中所述视频译码设备进一步包含与所述视频单元一起传送所述二级视图的发射器。
17.根据权利要求9所述的视频译码器设备,其中所述设备包含以下中的至少一者集成电路;微处理器,无线通信装置,其包括视频编码器,及无线通信装置,其包括视频解码器。
18.一种装置,其包含用于基于相对于视频序列的先前视频单元的对应像素的与一视频单元的像素相关联的运动将初始深度值指派到所述像素的装置;用于识别所述初始深度值是否满足阈值的装置;用于将所调整的深度值指派到所述视频单元的所述像素中的一者或一者以上的装置, 所述像素中的一者或一者以上的所述初始深度值满足所述阈值,其中所述所调整的深度值是基于与所述像素相关联的色彩;及用于产生用于所述视频单元的深度图的装置,其中所述深度图包含用于所述像素的第一子集的所述初始深度值及用于所述像素的第二子集的所述所调整的深度值。
19.根据权利要求18所述的装置,其中所述用于基于运动指派所述初始深度值的装置包含用于基于相对于所述先前视频单元的位于同一地点的像素的亮度值的所述视频单元的所述像素的亮度值而指派所述初始深度值的装置。
20.根据权利要求18所述的装置,其中所述用于基于色彩指派所述所调整的深度值的装置包含用于至少部分基于所述视频单元的所述像素的色度值而指派所述所调整的深度值的装置。
21.根据权利要求18所述的装置,其中用于基于运动指派所述初始深度值的装置包含用于基于相对于所述先前视频单元的位于同一地点的像素的亮度值的所述视频单元的所述像素的亮度值而指派所述初始深度值的装置,其中用于基于色彩指派所述所调整的深度值的装置包含用于至少部分基于所述视频单元的所述像素的色度值而指派所述所调整的深度值的装置,且其中用于指派所述所调整的深度值的装置包括用于将在色度值的允许间隔内的色度值映射到零与所述阈值之间的深度值的装置。
22.根据权利要求18所述的装置,其中所述深度图包含初始化的深度图,所述装置进一步包含用于确定所述视频单元是否对应于相对于所述先前视频单元的场景改变的装置; 用于在所述视频单元对应于相对于所述先前视频单元的场景改变的情况下选择所述初始化的深度图作为用于所述视频单元的最终深度图的装置;用于在所述视频单元不对应于相对于所述先前视频单元的场景改变的情况下确定所述视频单元是否表示相对于所述先前视频单元的低级别的运动的装置;用于在所述视频单元不表示所述低级别的运动的情况下基于用于所述视频单元的所述初始化的深度图的所述深度值与用于所述先前视频单元的先前深度图的深度值的加权平均值而定义所述最终深度图的装置;及用于在所述视频单元表示所述低级别的运动的情况下基于用于所述视频单元的所述初始化的深度图的所述深度值与用于所述先前视频单元的所述先前深度图的所述深度值中的最大者而定义所述最终深度图的装置。
23.根据权利要求22所述的装置,其中所述装置包含视频解码器,所述装置进一步包含用于基于所述最终深度图执行视图合成以产生用于所述视频单元的二级视图的装置。
24.根据权利要求22所述的装置,其中所述装置包含视频编码器,所述装置进一步包含用于与所述视频单元一起传送所述最终深度图的装置。
25.根据权利要求22所述的装置,其中所述装置包含视频编码器,所述装置进一步包含用于基于所述最终深度图执行视图合成以产生用于所述视频单元的二级视图的装置;及用于与所述视频单元一起传送所述二级视图的装置。
26.一种计算机可读存储媒体,其包含在由处理器执行后即刻使所述处理器进行以下操作的指令基于相对于视频序列的先前视频单元的对应像素的与一视频单元的像素相关联的运动将初始深度值指派到所述像素;识别所述初始深度值是否满足阈值;将所调整的深度值指派到所述视频单元的所述像素中的一者或一者以上,所述像素中的一者或一者以上的所述初始深度值满足所述阈值,其中所述所调整的深度值是基于与所述像素相关联的色彩;及产生用于所述视频单元的深度图,其中所述深度图包含用于所述像素的第一子集的所述初始深度值及用于所述像素的第二子集的所述所调整的深度值。
27.根据权利要求沈所述的计算机可读存储媒体,其中在基于运动指派所述初始深度值的过程中,所述指令使所述处理器基于相对于所述先前视频单元的位于同一地点的像素的亮度值的所述视频单元的所述像素的亮度值而指派所述初始深度值。
28.根据权利要求沈所述的计算机可读存储媒体,其中在基于色彩指派所述所调整的深度值的过程中,所述指令使所述处理器至少部分基于所述视频单元的所述像素的色度值而指派所述所调整的深度值。
29.根据权利要求沈所述的计算机可读存储媒体,其中基于运动指派所述初始深度值包含基于相对于所述先前视频单元的位于同一地点的像素的亮度值的所述视频单元的所述像素的亮度值而指派所述初始深度值,其中基于色彩指派所述所调整的深度值包含至少部分基于所述视频单元的所述像素的色度值而指派所述所调整的深度值,且其中指派所述所调整的深度值包括将在色度值的允许间隔内的色度值映射到零与所述阈值之间的深度值。
30.根据权利要求沈所述的计算机可读存储媒体,其中所述深度图包含初始化的深度图,其中所述指令使所述处理器确定所述视频单元是否对应于相对于所述先前视频单元的场景改变; 如果所述视频单元对应于相对于所述先前视频单元的场景改变,则选择所述初始化的深度图作为用于所述视频单元的最终深度图;如果所述视频单元不对应于相对于所述先前视频单元的场景改变,则确定所述视频单元是否表示相对于所述先前视频单元的低级别的运动;如果所述视频单元不表示所述低级别的运动,则基于用于所述视频单元的所述初始化的深度图的所述深度值与用于所述先前视频单元的先前深度图的深度值的加权平均值而定义所述最终深度图;及如果所述视频单元表示所述低级别的运动,则基于用于所述视频单元的所述初始化的深度图的所述深度值与用于所述先前视频单元的所述先前深度图的所述深度值中的最大者而定义所述最终深度图。
31.根据权利要求30所述的计算机可读存储媒体,其中所述处理器包含视频解码器, 其中所述指令使所述处理器基于所述最终深度图执行视图合成以产生用于所述视频单元的二级视图。
32.根据权利要求30所述的计算机可读存储媒体,其中所述处理器包含视频编码器, 其中所述指令使所述处理器与所述视频单元一起传送所述最终深度图。
33.根据权利要求30所述的计算机可读存储媒体,其中所述处理器包含视频编码器, 其中所述指令使所述处理器基于所述最终深度图执行视图合成以产生用于所述视频单元的二级视图;及与所述视频单元一起传送所述二级视图。
全文摘要
本发明描述用于产生用于例如视频帧或片段视频帧等视频单元的深度图的技术。所述技术可由视频编码器执行,以便将二维2D视频转换到三维3D视频。所述技术可或者由视频解码器执行,以便将所接收的2D视频转换到3D视频。所述技术可在深度图产生过程中使用运动与色彩考虑的组合。
文档编号H04N13/00GK102598674SQ201080047743
公开日2012年7月18日 申请日期2010年10月22日 优先权日2009年10月23日
发明者张 荣, 玛尔塔·卡切夫维琴, 陈英 申请人:高通股份有限公司