色彩空间编码框架的制作方法

文档序号:7600393阅读:211来源:国知局
专利名称:色彩空间编码框架的制作方法
技术领域
本发明涉及多媒体,尤其涉及用于处理视频格式的色彩空间编码框架。
背景技术
消费者电子产品的市场在不断变化。市场不断变化的一个原因是消费者需要其电子设备中更高的视频质量。作为结果,制造商设计更高分辨率的视频设备。为支持更高分辨率的视频设备,设计了提供更好视觉质量的更好的视频格式。
有两种派生主要视频格式的主要色彩空间。第一种色彩空间通常被称为RGB(红绿蓝)色彩空间(后文称为RGB)。RGB在计算机监视器、照相机、扫描仪等中使用。RGB色彩空间具有与其关联的若干格式。每一格式包括表示每一像素的红、绿、蓝色度的值。在一种格式中,每一值是一个8比特的字节。因此,每一像素消耗24比特(8比特(R)+8比特(G)+8比特(B))。在另一格式中,每一值为10比特。因此每一像素消耗30比特。
另一色彩空间较广泛地在电视系统中使用,并通常称为YCbCr色彩空间或YUV色彩空间(后文称为YUV)。在许多方面,在给定的带宽上,与RGB相比,YUV提供更好的视频质量,因为YUV考虑到人类眼睛对像素的亮度中的变化比其色彩变化更敏感。作为结果,可对色彩差异信号二次采样(sub-sample)以实现带宽节省。由此,与YUV色彩空间相关联的视频格式的每一个都对每一像素具有一亮度值(Y),并可在两个或多个像素之间共享一色彩值(由U和V表示)。U(Cb)的值表示B-Y之间的蓝色度差,V(Cr)的值表示R-Y之间的红色度差。绿色度的值可从Y、U和V值中导出。YUV色彩空间压倒性地在视频编码领域中使用。
当前存在若干种YUV格式。图1-5示出了更常见YUV格式中的五种分别为YUV444、YUV422、YUV420、YUV411和YUV410。图1-5图形上分别示出了阵列100-500。所示的阵列的每一个都是8×8的块阵列。然而,阵列可以是任何尺寸,并且不必要为正方形。阵列中的每一块(由点表示)表示一像素阵列。为方便起见并保持常规视频技术一致,以下讨论将每一块描述为表示一个像素(如,像素P1-P4)。因此,在后文中,当涉及阵列100-500时,术语像素将与术语块交换使用。像素基于目标视频格式所需的采样被组合成宏块(如,宏块MB1-MBN)。图1-3示出了每一宏块具有4个像素(如,P1-P4)。图4-5示出了每一宏块具有16个像素(如,P1-P16)。现在详细讨论每一YUV格式。
图1图形地示出了YUV444格式。在YUV444格式中,每一像素由Y、U和V值表示。例如,对于像素P1,YUV444格式包括Y1值的8比特、U1值的8比特以及V1值的8比特。由此,每一像素由24比特表示。由于这一格式对每一像素消耗24比特,其它YUV格式被从YUV444格式向下采样,使得每像素的比特数量得以减少。每像素的比特的减少提供了流效率中的改进。然而,向下采样导致视频质量的对应降低。
图2图形地示出了YUV422格式。在YUV422格式中,每一像素由Y值表示。然而,与YUV444格式相反,U和V值可任选地被过滤然后被向下采样。过滤和向下采样可使用已知的技术同时执行。阵列200通过将阵列200中的每一第二水平像素为已被采样,概念地示出了向下采样的结果。所采样的像素用阵列200中的“X”表示。由此,像素P1和P3的每一个由24个比特表示。然而,像素P2和P4的每一个由8个比特表示(仅Y值)。YUV422格式中每像素的比特的平均数是16比特((24+24+8+8)/4)。YUV422是分组的YUV色彩空间,它意味着Y、U和V样值是交织的。通常,支持YUV422格式的标准,如MPEG-2和MPEG-4将所有色度块一起编码。例如,用于MPEG-2的YUV422格式将YUV422数据作为Y1 U1 Y2V1储存在存储器中,其中,Y1和Y2分别表示像素P1和P2的亮度值。Y1和Y2表示两个亮度块。U1和V1表示两个色度块。
图3图形地示出了YUV420格式。阵列300通过将阵列300中的每一第二水平和每一第二垂直像素示出为已被编码,概念地示出了从YUV444格式可任选过滤和向下采样的结果。再次,已采样的像素用阵列300中的“X”表示。由此,对于YUV420格式,仅像素P1由24个比特表示。像素P2-P4的每一个由8个比特表示(仅Y值)。YUV420格式中每像素的平均比特数是20比特((24+8+8+8)/4)。YUV420是平面格式,不是分组格式。由此,YUV420数据储存在存储器中,使得所有的Y数据被首先储存,然后是U数据,然后是所有的V数据。因此,有四个亮度块、一个U色度块和一个V色度块。
图4图形地示出了YUV411格式。阵列400通过将阵列400中每一第四水平像素示出为已被采样,概念地示出了从YUV444格式可任选过滤和向下采样的结果。由此,像素P1、P5、P9和P13的每一个由24个比特表示,其它12个像素由8个比特表示。YUV411格式中每像素的平均比特数是20比特。
图5图形地示出了YUV410格式。阵列500通过将阵列500中的每一第四水平像素和每一第四垂直像素示出为已被编码,概念地示出了从YUV444格式可任选过滤和向下采样的结果。由此,仅像素P1由24比特表示,其它15个像素由8个比特表示。YUV410格式中每像素的平均比特数是10比特。
由此,基于所期望的质量和可用的传输带宽,电子设备制造商可设计其电子设备用这些和其它格式的任一个来操作。然而,稍后当传输带宽增加和/或消费者开始需要更高质量的视频时,现有的电子设备无法支持更高质量的视频格式。例如,当前许多数字电视机、机顶盒和其它设备被设计成用YUV420视频格式操作。为满足不同类别的消费者,需要容纳两种视频格式。
电视台可广播较高质量的视频格式(如,YUV422)和较低质量的视频格式(如,YUV420)。然而,这一选项对电视广播是昂贵的,因为它涉及在两个不同的频道上具有同一内容,它消耗了有价值的频道资源。由此,当前在服务器侧或客户机侧,将较高分辨率的格式代码转换成较低分辨率的格式。图6所示是代码转换过程的框图。代码转换器600接受输入格式,如格式A(如,YUV422),并输出输出格式,如格式B(如,YUV420)。在代码转换过程中,解码整个视频输入格式,它包括Y、U和V分量。Y分量必须连同UV分量一起解码,因为UV分量是经运动补偿的,并且所得的运动矢量只能通过解码Y分量来获取。由此,解码亮度块和所有的色度块以获得输入格式中原始视频的重建版本。然后,对色度分量向下采样以将输入格式转化成期望的输出格式。最后,再次对新生成的视频进行编码以生成输出格式(格式B)中的比特流。这一代码转换过程是昂贵的,因为它一般等效于一个编码器加上一个解码器。存在快速代码转换过程,但是一般会导致质量损失。
代码转换器600可在客户机侧、服务器侧或另一位置上存在。如果代码转换过程在客户机侧执行,则预订高质量视频的消费者可访问高质量视频,而其它消费者可访问较低质量的视频。如果代码转换过程在服务器侧执行,则没有消费者可访问高质量视频。没有一个选项是最优的,因为代码转换过程十分昂贵,且一般导致质量降低。因此,需要一种提供高质量视频而维持与现有较低质量视频设备的操作的更好的解决方案。

发明内容
本色彩空间编码框架提供了一个或多个视频格式之间的转换,而无需使用代码转换器。包括依照第一色彩空间采样格式来格式化的色彩信息的视频信息流被拆分成一基础流和一增强流。基础流依照第二色彩空间采样格式来格式化。增强流包括当与基础流组合时能够重建第一格式的增强信息。在编码过程中,增强流可使用与基础信息流有关的空间信息来增强。已编码的基础流和已编码的增强流的输出流可以是交织的、串接的,或可包括用于已编码的基础流和已编码的增强流的独立的文件。


图1-5是从YUV色彩空间衍生的各种编码格式的一系列图形描述。
图6是用于在两种不同的视频格式之间转换的代码转换器的框图。
图7示出了可使用本示例性编码框架的示例性计算装置。
图8是用于依照示例性色彩空间编码框架将第一视频编码帧分离成多个流的色彩分离器的框图。
图9是用于依照示例性色彩空间编码框架将多个流合并成第一视频已格式的色彩合成器的框图。
图10是第一视频编码格式以及在色度块被图8所示的色彩分离器从第一视频编码格式分离之后的多个流的图形表示。
图11是结合了本色彩空间编码框架的编码器的框图。
图12是结合了本色彩空间编码框架的解码器的框图。
图13是用于发送图11和12所示的多个比特流的示例性比特流的图形表示。
图14是用于发送图11和12所示的多个比特流的另一示例性比特流的图形表示。
图15-20示出了适用于结合图8和9的示例性整数提升结构。
具体实施例方式
简言之,本色彩空间编码框架提供另一种从一输入视频编码格式创建多个数据流的方法。多个数据流包括一对应于第二视频编码格式的基础流,以及包含从输入视频编码格式获取的增强信息的至少一个增强流。通过使用本发明,多媒体系统可克服将输入视频格式代码转换成其它视频格式以支持各种电子设备的需求。在阅读以下描述之后,可以理解,使用本色彩空间编码框架,被配置成使用较低质量格式操作的电子设备可容易地丢弃周期性的色度块,而仍可正确地显示所得的视频。以下讨论使用了YUV422和YUV420视频格式来描述本编码框架。然而,视频编码领域的技术人员可以理解,本编码框架可用其它视频格式,以及可被分离成具有类似于包含在视频格式的色度块中的信息的信息的块的其它多媒体格式来操作。
由此,以下描述陈述了一个具体的示例性编码框架。其它示例性编码框架可包括本具体实施例的特征和/或其它特征,其目标是消除对转化多媒体格式(如,视频格式)的代码转换的需求,并向电子设备提供多媒体格式。
以下详细描述被划分成若干部分。第一部分描述了结合本编码框架的示例性计算装置。第二部分描述了编码框架内的个别元素。第三部分描述了依照本色彩空间编码框架编码和解码的示例性比特流。
示例性计算装置图7示出了可使用本示例性编码框架的示例性计算装置。计算装置的一个示例包括令电视机能够变为对因特网的用户接口,并令电视机能够接受并解调数字电视(DRV)广播的机顶盒。在另一配置中,示例性计算装置可从机顶盒分离,并向机顶盒提供输入。计算装置的另一示例包括视频记录装置,如数码摄录机或数码相机。在非常基本的配置中,计算装置700通常包括至少一个处理单元702和系统存储器704。根据计算装置的确切配置和类型,系统存储器704可以是易失的(如RAM)、非易失的(如ROM、闪存等)或两者的某一组合。系统存储器704通常包括操作系统705、一个或多个应用程序706,并且可包括程序数据707。web浏览器可包括在操作系统705或程序模块706之一内。web浏览器允许计算装置通过因特网通信。
计算装置700可具有另外的特征或功能。例如,计算装置700也可包括另外的数据存储设备(可移动和/或不可移动),如磁盘、光盘或磁带。这类另外的存储在图7中由可移动存储709和不可移动存储710示出。计算机存储媒质可包括以用于储存如计算机可读指令、数据结构、程序模块或其它数据等信息的任一方法和技术实现的易失和非易失、可移动和不可移动媒质。系统存储器704、可移动存储709和不可移动存储710都是计算机存储媒质的示例。计算机存储媒质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存期望的信息并可由计算装置700访问的任一其它媒质。计算装置700也可具有(多个)输入设备712,如键盘、鼠标、输入笔、语音输入设备、触摸输入设备等等。也可包括(多个)输出设备714,如显示器、扬声器、打印机等等。这些设备在本领域中是众所周知的,并且不需要在此详细讨论。计算装置700也可具有用于视频和音频解码并用于处理的依照本发明的编码框架执行的一个或多个设备(如,芯片)。
计算装置700也包含允许装置如通过网络与其它计算装置718进行通信的通信连接116。通信连接716是通信媒质的一个示例。通信媒质通常可以诸如载波或其它传输机制等已调制数据信号中的计算机可读指令、数据结构、程序模块或其它数据实施,并包括任一信息传送媒质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限,通信媒质包括有线媒质,如有线网络或直接连线连接,以及无线媒质,如声学、RF、红外和其它无线媒质。由此,通信媒质包括电话线和电缆。本发明使用的术语计算机可读媒质包括存储媒质和通信媒质。
示例性编码框架图8是用于将第一视频编码格式(如,格式A)分离成多个流(如,基础格式B流和增强格式B流)的色彩分离器800的框图。现在描述用于从格式A分离基础流的过程。本领域的技术人员可以理解在从较高分辨率向下采样到较低分辨率之前执行低通滤波以提高向下采样格式的质量的常用惯例。由此,色彩分离器800可包括可任选低通滤波器804。低通滤波器可以是各种商用低通滤波器的任一种。例如,可使用对MPEG-4的运动图像专家组(MPEG)所提议的低通滤波器。MPEG-4低通滤波器的系数如下c=[5/32,11/32,11/32,5/32]。可选地,色彩分离器800可保留YUV值,而不处理YUV值通过低通滤波器804。从格式A分离基础流的过程也包括向下采样器808。向下采样器808被配置成对期望的输出格式随指定的每一行和列保持色度块。格式A到基础格式B的转换对本领域的技术人员是已知的,并且在当今被普遍执行。向下采样器808的结果是基础格式B流(如,YUV420)。
在另一实施例中,滤波器804和向下采样器808也可被组合成一卷积操作。一般而言,卷积包括乘法、加法和移位的组合。一个示例性卷积操作如下Lk=c0*f2k+c1*f2k+1+c2*f2k+2+c3*f2k+3公式1其中,k=0,1,2,...,n-1。
Hk=d0*f2k+d1*f2k*f2k+1+d2*f2k+2+d3*f2k+3公式2其中,k=0,1,2,...,n-1。
在边界像素上,可应用镜像扩展。用于对存在偶数个抽头应用镜像扩展的一个示例性方法如下f-2=f1,f-1=f0,f2n=f2n-1,f2n+1x=f2n-2公式3用于对存在奇数个抽头应用镜像扩展的另一示例性方法如下f-2=f2,f-1=f1,f2n=f2n-2,f2n+1=f2n-3公式4在公式1-4中,n是UV信号的垂直维度,fk对应于格式A色度块中位置k处的像素值。Lk和Hk表示所得的基础格式B和增强格式B流的位置k处的像素值。
现在描述用于从格式A分离增强流的过程。色彩分离器800可包括可任选高通滤波器806。一个示例性高通滤波器806可具有以下系数d=[5/12,11/12,-11/12,-5/12]。可选地,色彩分离器800可保持来自第一视频编码格式的YUV值,而不应用滤波器806。从格式A分离增强流的过程包括向下采样器810。在一个实施例中,向下采样器810被配置成保持向下采样器808不保持的所有行。例如,当将YUV424转换成YUV420时,向下采样器810保持高通滤波器的输出的所有偶数行。在过去,在代码转换过程中,这些“额外”色度块仅被丢弃。然而,依照本色彩空间编码框架,这些“额外”色度块变为增强格式B流。如后文详细描述的,通过在单独的流中保留这些“额外”色度块,可避免当在两种格式之间转换时的低效率代码转换过程。
在另一实施例中,滤波器806和向下采样器810可被组合成一类似于上文用公式1-4和对应的文字所描述的卷积操作的卷积操作。
在另一示例性实施例中,可应用生成两个期望的输出格式的小波变换(即,分解和向下采样)基础格式B和增强格式B。例如,可应用修改的9/7 Daubechies小波变换。描述9/7小波的额外信息可从JPEG-2000参考中获得。标准9/7Daubechies小波变换(即,滤波加向下采样)将格式A转换成格式B和增强格式B。低通分解滤波器系数和高通分解滤波器系统为
L(9)0.026748757411,-0.016864118443,-0.0782232665290.266864118443,0.602949018236,0.266864118443,-0.078223266529,-0.016864118443,0.026748757411H(7)0.045635881557,-0.028771763114,-0.295635881557,0.557543526229,-0.295635881557,-0.028771763114,0.045635881557为确保变换过程中最小精度丢失,使用一整数提升模式来实现9/7小波变换。整数提升模式采用该过程中每一中间结果,并通过舍入、上限(ceiling)、下限(flooring)或限幅(clipping)将该结果转换成一整数。一个示例性整数提升结构1500在图15中示出。处理从左到右地执行。在图15中,点x0~x9表示格式A的原始像素。点l0~l4表示格式B中的像素。点h0~h4表示增强格式B中的像素。曲线箭头表示镜像扩展。具有符号(α、β等)的有向分支表示应用第一乘数为与可适用符号相关联的系数、且第二乘数为它所离开的节点的值的乘法操作。水平分支表示应用对一个节点的值到下一阶段的无缩放的进位操作。在一个节点合并的分支意味着这些分支中所传送的所有值被相加在一起以生成合并节点的值。可应用对值k的修改以确保格式B的所得的系数在范围
之内。
当格式A对应于YUV422,基础格式对应于YUV420时,色彩分离器800的结果在图10中示出。图10示出了依照图2所示的第一视频编码格式(如,视频编码格式YUV422)采样的阵列200。每一宏块(如,宏块MB1)包括四个亮度块和两个色度块一个用于U,一个用于V。格式YUV422中一个宏块的内存布局需要四个亮度块和四个色度块Y1 Y2 Y3 Y4 U1 V1 U2 V2。如果该YUV422格式需要由接受YUV420格式(图3示出)的电子设备适用,则在过去,将YUV422格式输入到对每一色彩块解码的代码转换器,代码转换器解码每一色度块、操纵色彩块然后再次对色彩块进行编码。
然而,适用本色彩空间编码框架,以一种新方式对YUV422进行编码,它通常在阵列10000中被描述为格式B,它包括基础B和增强B。与丢弃不需要的色度块的现有的转换方法相反,本色彩空间编码框架重新排列色度块,使得输出本质上具有两个或多个流。第一个流包括基础格式的色度块,如YUV420,它在色彩分离器800中通过可任选低通滤波器804和向下采样器806生成。第二个流包括来自输入格式,但不由基础格式使用的额外色度块。由此,第一个流包括与基础格式相关联的一组完整的色度块,以确保基础格式是完全自包含的。第二个流在色彩分离器800中通过可任选高通滤波器806和向下采样器810生成。由此第二个流表示增强流,它与第一个流一起重建了输入流(格式A)。如图形地所描述的,基础流和增强流的创建可通过打乱色度块(像素)来作出,它对色度分量的布局进行操纵。
图9是用于将基础格式B流和增强格式B流合并成第一视频编码格式(如,格式A)的色彩合成器的框图。色彩合成器900包括用于处理输入到色彩合成器900的基础格式B流的向上采样器904和可任选合成滤波器908。另外,色彩合成器900包括可用于处理输入到色彩合成器900的增强格式B流的向上采样器906和可任选合成滤波器910。色彩合成器912也包括在向上采样和滤波之后将输出合并成期望的第一视频编码格式的合并器912。在涉及YUV424和YUV420格式的一个示例性实施例中,合并器912将两个合成滤波器的输出相加以重建YUV424视频流。
向上采样器904在需要时填充输入的流。可任选合成滤波器908可采用以下系数c′=[-5/12,11/12,11/12,-5/12]。
向上采样器806也在需要时填充其输入流。可任选合成滤波器910可采用以下系数d′=[-5/31,11/32,-11/32,5/32]。向上采样器904和合成滤波器908可被合并成以下卷积操作f2k=2*(c0′*Lk+c2′*Lk-1+d0′*Hk+d2′*Hk-1) 公式5其中,k=0,1,2,...,n-1。
f2k+1=2*(c1′*Lk+c3′*Lk-1+d1′*Hk+d3′*Hk-1)公式6其中,k=0,1,2,...,n-1。
向上采样器904和906分别执行向下采样器806和810的完全反向的操作。对于在806和810中丢弃的行,904和906填充零。在向上采样器之后,信号被回复到原始分辨率。
在边界像素上,可应用镜像扩展。用于对当存在偶数个抽头时应用镜像扩展的一个示例性方法如下L-1=L0,H-1=H0公式7用于对当存在奇数个抽头时应用镜像扩展的另一示例性方法如下L-1=L1,H-1=H1公式8在公式5-8中,n是UV信号的垂直维度,fk对应于格式A色度的位置k处的像素值。Lk和Hk表示所得的基础格式B和增强格式B流的位置k处的像素值。
在解码器1200的另一实施例中,执行反向9/7小波变换(即,向上采样和滤波)以从基础格式B和增强格式B重建格式A视频。低通合成合成滤波器和高通合成滤波器系数如下L(7)-0.045635881557,-0.028771763114,0.295635881557,0.557543526229,0.295635881557,-0.028771763114,-0.045635881557H(9)0.026748757411,
0.016864118443,-0.078223266529,-0.266864118443,0.602949018236,-0.0266864118443,-0.0788223266529,0.016864118443,0.026748757411图16示出了与反向修改的9/7 Daubechies小波变换相关联的对应的整数提升结构1600。对图15定义的符号描述整数提升结构1600。
编码器1100和解码器1200可使用各种小波变换来实现。例如,可使用修改的5/3 Daubechies小波变换。图17-18分别示出了与修改的5/3 Daubechies小波变换和反向修改的5/3 Daubechies小波变换相关联的整数提升结构1700和1800。再次,对图15定义的符号描述整数提升结构1700和1800。
对应的低通分解滤波器系数和高通分解滤波器系数为L(5)-1/8,1/4,3/4,1/4,-1/8H(3)-1/4,1/2,-1/4低通合成滤波器系数和高通合成滤波器系数为L(3)1/4,1/2,1/4H(5)-1/8,-1/4,3/4,-1/4,-1/8在另一示例性实现中,可使用7/5小波变换。图19-20分别示出了与7/5小波变换和反向7/5小波变换相关联的整数提升结构1900和2000。再次,对图15定义的符号描述整数提升结构1900和2000。
对应的低通分解滤波器系数和高通分解滤波器系数为L(7)0.0012745098039216,0.0024509803921569,0.2487254901960785,0.4950980392156863,
0.2487254901960785,0.0024509803921569,0.0012745098039216H(5)-0.1300000000000000,-0.2500000000000000,0.7600000000000000,-0.2500000000000000,-0.1300000000000000低通合成滤波器系数和高通合成滤波器系数如下L(5)-0.1300000000000000,0.2500000000000000,0.7600000000000000,0.2500000000000000,-0.1300000000000000H(7)-0.0012745098039216,0.0024509803921569,-0.2487254901960785,0.4950980392156863,-0.2487254901960785,0.0024509803921569,-0.0012745098039216图11是依照本色彩空间编码框架操作的编码器1100的框图。编码器1100包括基础格式编码器(一般在框1120内表示)、增强格式编码器(一般在框1140内表示)以及输出比特流形成器1160。另外,编码器1100可包括图8所示并在上文描述的色彩分离器800。编码器1100是一种计算装置,如图7所示的,它以硬件、软件或硬件/软件的任一组合,以生成输入到图12所示并在下文描述的相关联的解码器的期望比特流的方式实现基础格式编码器、增强格式编码器、比特流形成器和可任选色彩分离器800的功能。
总体上,编码器1100依照本色彩空间编码框架处理两个流-基础流和增强流。编码器1100的一个优点是提供额外的预测编码模式、空间预测(SP)以及帧内和帧间预测编码模式的能力。如后文详细描述的,编码器1100使用来自同一帧的基础色度块为增强色度块提供空间预测。由于增强色度块和基础色度块之间的高相关性,空间预测(SP)可提供一种十分有效的预测模式。
在一个实施例中,编码器1100接受从色彩分离器800生成的输出流。在另一实现中,色彩分离器800包括在编码器800内。对于任一实施例,色彩分离器800接受以第一编码格式1106-称为格式A-编码的输入。第一编码格式1106的生成以对视频编码领域的技术人员已知的常规方式执行。在某些情况下,第一编码格式的生成通过转换来自另一色彩空间,如RGB色彩空间的格式来完成。当出现这一情况时,使用色彩空间转换器(CSC)1104。色彩空间转换器1104接受与其它色彩空间相关联的输入1102(如,RGB输入)。色彩空间转换器1104然后将输入1102转换成期望的第一编码格式1106。色彩空间转换器1104可使用用于从一个色彩空间转换到另一色彩空间的任一常规机制。例如,当转换是在RGB色彩空间和YUV色彩空间之间时,色彩空间转换器1104可应用通常被表示为一组三个方程式或由矩阵表示的已知变换。由该标准之一定义的一组已知的方程式如下Y=0.299×R+0.587×G+0.114×BU=-0.299×R-0.587×G+0.866×BY=0.701×R-0.587×G-0.114×B变换也是可逆的,使得给定一组YUV值,可获取一组RGB值。当必需色彩空间转换时,由色彩分离器800执行的操作可与色彩空间转换器1104中执行的处理相组合。色彩分离器800和色彩空间转换器1804可作为元件包括在编码器1100内。可选地,编码器1100可接受由色彩分离器800生成的输出。
如上文结合图8所描述的,色彩分离器800被配置成输出一基础格式流1108和至少一个增强格式流1110。基础格式流1108通过基础编码器1120处理,增强格式流通过增强编码器1140处理。
基础编码器1120是用于基础格式流1108的任一常规编码器。一般而言,基础编码器1120试图将作为基础比特流(B-BS)输出的数据量最小化,它通常通过某一媒质发送,使得可播放所编码的视频。常规基础编码器1120包括常规元件,如离散余弦变换(DCT)1122、量化(Q)过程1124、可变长度编码(VLC)过程1126、反量化(Q-1)过程1128、反向DCT(ICT)1130、帧缓冲器1132、运动补偿预测(MCP)过程1134以及运动估计(ME)过程1136。尽管基础编码器1120的元件是众所周知的,仍将简要描述这些元件以帮助了解本色彩空间编码框架。
然而,在描述常规基础编码器1120之前,定义贯穿以下描述所使用的术语。帧指的是组成图像的行。帧内帧(I帧)指的是近使用来自一个帧内的信息编码的帧。帧间帧,也称为预测帧(P帧)指的是使用来自一个以上帧编码的帧。
基础编码器1120接受基础格式1108的帧。该帧将仅使用来自其本身的信息来编码。因此,该帧被称为I帧。由此,I帧前进通过将I帧转换成DCT系数的离散余弦变换1122。这些DCT系数被输入到量化过程1124,以形成量化的DCT系数。量化的DCT系数然后被输入到可变长度编码器(VLC)1126,以生成基础比特流(B-BS)的一部分。量化的DCT系数也被输入到反量化过程1128和反向DCT1130。结果储存在帧缓冲器1132中,担当P帧的参考。
基础编码器1120通过向储存在帧缓冲器1132中的结果应用运动估计(ME)过程1136来处理P帧。运动估计过程1136被配置成查找一时间预测(TP),它被称为经运动补偿的预测(MCP)1134。将MCP 1134与I帧进行比较,其差(即,余量)前进通过与I帧相同的过程。以运动矢量(MV)形式的经运动补偿的预测(MCP)1134被输入到可变长度编码器(VLC),并生成基础比特流(B-BS)的另一部分。最后,向MCP 1134添加反向量化差数据以形成重建的帧。用重建的帧更新帧缓冲器,担当下一P帧的参考。重要的是注意,所得的基础比特流(B-BS)与当今现有的解码基础流B格式的设备中可用的常规解码器完全在句法上兼容。
增强编码器1140试图将作为增强比特流(E-BS)输出的数据量最小化。这一增强比特流通常通过某一媒质发送,并可任选地被解码,以播放较高质量的编码视频。尽管先前未预想在编码器1100内具有增强编码器1140,然而增强编码器1140包括可以与上文对基础编码器所描述的相同方式操作的若干常规元件。常规元件包括离散余弦变换(DCT)1142、量化(Q)过程1144、可变长度编码(VLC)过程1146、反量化(Q-1)过程1148、反向DCT(IDCT)1150、帧缓冲器1152以及经运动补偿的预测(MCP)过程1154。可以注意到,运动估计过程不包括在增强编码器1140内,因为增强流不包括包含Y分量的任何亮度块。运动矢量(MV)从Y分量导出。然而,依照本色彩空间编码框架,增强编码器1140包括选择性地预测P帧的模式选择开关1158。开关1158可选择从根据储存在帧缓冲器1152中的增强流生成的前一参考预测P帧,或可选择使用来自储存帧缓冲器1132中当前帧的基础流的参考“空间地”预测(SP)P帧。空间预测提供一种十分有效的预测方法,这是由于增强流中的增强色度块和基础流中的色度块之间的高相关性。由此,本色彩空间编码框架与传统的编码机制相比,提供了预测编码中更高的效率,并获得性能的提高。增强编码器1140的输出是增强比特流(E-BS)。
尽管单独示出了基础编码器1120和增强编码器1140中的常规元件,然而在一个实施例中,基础编码器1120和增强编码器1140可共享相同的常规元件的一个或多个。例如,作为具有两个DCT 1122和1142的替代,可由基础编码器1120和增强编码器1140共同使用一个DCT。由此,依照本色彩空间编码框架开发编码器在硬件、软件或任一组合中需要最小的额外努力来容纳增强流。另外,可向本色彩空间编码框架容易地应用对基础编码器1120所开发的其它高级的编码技术。例如,本色彩空间编码框架可在存在双向预测帧(B帧)时操作。
输出比特流形成器1160将增强比特流(E-BS)与基础比特流(B-BS)组合,以形成最终的输出比特流。最终输出比特流的示例性格式在图13和14中示出,并结合这些附图描述。
图12是结合本色彩空间编码框架的解码器的框图。总体上,解码器1200可执行一简单的比特流截断以获取较低质量的视频格式。由此,昂贵的代码转换过程不是必需的。一般而言,解码器1200反转了编码器1100所执行的过程。解码器1200接受基础比特流(B-BS)和增强比特流(E-BS)。基础比特流和增强比特流可用包括在解码器内或在解码器外部的输入比特流分析器1202来分析。解码器1200包括一基础格式解码器(一般在框1220内表示)以及一增强格式解码器(一般在框1240内表示)。基础解码器1220处理基础比特流,增强解码器1240处理增强比特流。另外,解码器1200可包括图9所示并在上文描述的色彩合成器900。解码器1200是一种计算装置,如图7所示的,它以产生期望格式A 1260的方式以硬件、软件或硬件/软件的任一组合实现基础格式解码器、增强格式解码器和可任选色彩合成器900的功能。
总体上,解码器1200输入依照本色彩空间编码框架生成的两个流-基础比特流(B-BS)和增强比特流(E-BS)。解码器1200具有解码由编码器1100提供的预测编码模式、空间预测(SP)的能力。
在一个实施例中,解码器1200包括色彩合成器900。在另一实施例中,色彩合成器900是与解码器1200分离的设备。对于任一实施例,色彩合成器900接受包含基础格式的亮度块和色度块的值,以及增强格式的色度块的值的两个流,并如结合图9所解释的将它们合并成格式A 1260。在某些情况下,格式A 1260被转换成另一色彩空间的格式,如RGB色彩空间。当这一情况出现时,使用色彩空间转换器(CSC)1262。色彩空间转换器1262接受格式A 1260作为输入,并将输入1260转换成输出1264(如,RGB输出),它与其它色彩空间相关联。色彩空间转换器1262可使用用于从一个色彩空间转换到另一色彩空间的任一常规机制。例如,当转换是在RGB色彩空间和YUV色彩空间之间时,色彩空间转换器1262可如上所述地应用已知的变换。当需要色彩空间转换时,由色彩合成器900执行的处理可与色彩空间转换器1262中执行的处理向组合。色彩合成器900和色彩空间转换1262可作为元件包括在解码器1200内。可选地,解码器1200可向外部色彩合成器900提供输入。
基础解码器1220是用于基础比特流(B-BS)的任一常规解码器。一般而言,基础解码器1220重建由基础编码器1120编码的YUV值。常规基础解码器1220包括常规元件,如可变长度解码(VLD)过程1222、反量化(Q-1)过程1224、反向离散余弦变换(IDCT)1226、帧缓冲器1228以及经运动补偿的预测(MCP)过程1230。再次,基础解码器1220的元件是众所周知的。因此,将简要描述这些元件以帮助理解本色彩空间编码框架。
基础解码器1220将基础比特流输入到可变长度解码器(VLD)1222,以检索运动矢量(MV)和量化的DCT系数。量化的DCT系数被输入到反量化过程1224和反向DCT 1226,以形成差值数据。差值数据被添加到其经运动补偿的预测1230,以形成输入到色彩合成器900的重建的比特流。该结果也储存在帧缓冲器1228中,以担当用于解码P帧的参考。
增强解码器1240重建由增强编码器1140编码的UV值。尽管先前未预想在解码器1200内具有增强解码器1240,然而增强解码器1240包括以与上文对基础解码器1220所描述的同一方式操作的若干常规元件。增强解码器1240包括常规元件,如可变长度解码(VLD)过程1242、反量化(Q-1)过程1244、反向离散余弦变换(DCT)1246、帧缓冲器1248以及经运动补偿的预测(MPC)过程1250。
增强比特流通过增强解码器1240的流程与基础解码器1220相同,除差值可选择性地添加到其经运动补偿的预测(MCP)或添加到其空间预测(SP)之外,如由模式信息开关1252所确定的。增强解码器1240的结果是包含当前帧的“额外”色度块的值的重建的增强流。
基础流和增强流然后被输入到色彩合成器,它如上所述地处理该流以重建格式A。尽管单独示出了基础解码器1220和增强解码器1240中的常规元件,然而在一个实施例中,基础解码器1220和增强解码器1240可共享相同的常规元件的一个或多个。例如,作为具有两个反向DCT 1226和1246的替代,可由基础解码器1220和增强解码器1240同时使用一个反向DCT。由此,依照本发明的色彩空间编码框架开发解码器需要硬件、软件或任一组合中的最小额外努力来容纳增强流。另外,可容易地向本色彩空间编码框架应用对基础解码器1220开发的其它高级的解码技术。例如,本色彩空间编码框架可在存在双向预测帧(B帧)时操作。
由此,通过使用本色彩空间编码框架来编码格式,可通过比特截断,而非昂贵的代码转换过程实现两种格式之间的转换。由此,在格式上无需执行代码转换过程以从一种格式转换成另一种格式。
示例性比特流考虑图11所示的输出比特流形成过程1160可以多种方式组织基础比特流(B-BS)和增强比特流(E-BS)。图13和14示出了两个示例性比特流。为方便起见,示例性比特流示出了涉及增强比特流的基础比特流的组织,而省略了通常包括在传输流分组中的其它信息,如分组标识符、序列号等等。另外,示例性比特流可包括指示该比特流支持格式A和基础格式B的指示符。
图13是用于发送图11和12所示的多个比特流的示例性比特流1300的图形表示。总体上,比特流1300将增强比特流(E-BS)嵌入到基础比特流(B-BS)之内。由此,比特流1300包括B-BS信息1302、1304和1306,它们与E-Bs信息1312、1314和1316交替。实际上,如果基础比特流对应于YUV 420格式,而增强比特流1300包括YUV422格式的色度块,则比特流1300允许YUV422解码器顺序地解码所有的帧。然而,解码比特流1300的YUV420解码器必须跳过E-BS帧。比特流1300适合流/广播应用。
图14是用于发送图11和12所示的多个比特流的另一示例性比特流1400的图形表示。总体上,比特流1400将增强比特流串接到基础比特流的末尾。由此,比特流1400包括基础比特流的连续帧(如,帧1402、1404、1406),其后跟随增强比特流的连续帧(如,帧1412、1414、1416)。实际上,如果基础比特流对应于YUV420格式,而增强比特流包括YUV422格式的色度块,则比特流1400允许YUV420解码器顺序地解码所有的帧,而不会遇到增强比特流。YUV420可在解码了所有基础比特帧(如,1402、1404、1406)之后终止解码过程。然而,YUV422解码器必须在前进到下一帧之前搜寻并解码基础比特流和增强比特流。YUV422解码器可使用两个指针来顺序地访问基础比特流和增强比特流。比特流1400适合下载并播放应用。
比特流1400也可被分离成不同的个别文件。在本实施例中,基础比特流表示独立的流,并可完全由YUV420解码,而不需要对现有YUV420的任何修改。YUV422解码器将同时处理两个比特流文件。比特流1400可有利地在视频记录设备内实现,如数码视频摄录机。比特流1400将允许同时记录高质量和低质量流。如果消费者认识到可能期望额外的记录但已消耗了现有的媒质,则数码视频摄录机上的选项可允许消费者方便地删除高质量流并保留低质量流,使得额外的记录得以继续。
以上描述陈述了结合所附权利要求书中所描述的元件的色彩空间编码框架的具体实施例。该实施例以细节描述,以满足法定需求。然而,该描述本身并不意味着局限本专利的范围。相反,发明人考虑到本发明也可结合现有或未来技术以其它方式实施,以包括类似于本文档所描述的那些元件或元件组合的不同的元件或元件组合。
权利要求
1.一种方法,其特征在于,它包括接收一包括依照第一色彩空间采样格式而格式化的色彩信息、具有预定数量比特的视频信息流;将所述视频信息流拆分成一依照第二色彩空间采样格式来格式化的、具有少于所述预定数量的比特的基础信息流、及一增强信息流;以及提供所述基础信息流和所述增强信息流中的至少一个的一指示符,它指示用于依照所述第一色彩空间采样格式或所述第二色彩空间采样格式提供视频信息的能力。
2.如权利要求1所述的方法,其特征在于,它还包括使用与所述基础信息流有关的空间信息对所述增强信息流进行编码。
3.如权利要求1所述的方法,其特征在于,它还包括使用与所述基础信息流有关的空间信息,或使用与所述增强信息流有关的先前的参考,对所述增强信息流选择性地进行编码。
4.如权利要求1所述的方法,其特征在于,它还包括将所述基础信息流编码成一基础编码比特流,将所述增强信息流编码成一增强编码比特流,并将所述基础编码比特流与所述增强编码比特流组合成一输出比特流。
5.如权利要求4所述的方法,其特征在于,所述输出比特流包括一所述增强编码比特流和所述基础编码比特流的交织流。
6.如权利要求4所述的方法,其特征在于,所述输出比特流包括一所述增强编码比特流和所述基础编码比特流的串接流。
7.如权利要求6所述的方法,其特征在于,所述增强编码比特流跟随在所述基础编码比特流之后。
8.如权利要求4所述的方法,其特征在于,所述输出比特流包括用于所述增强编码比特流的第一文件,以及用于所述基础编码比特流的第二文件。
9.如权利要求1所述的方法,其特征在于,所述色彩信息包括色度块。
10.如权利要求1所述的方法,其特征在于,所述第一色彩空间采样格式包括YUV422格式,所述第二色彩空间采样格式包括YUV420格式。
11.一种具有计算机可执行指令的计算机可读媒质,其特征在于,所述指令包括将第一多媒体格式转换成一基础流以及一增强流,所述基础流对应于另一多媒体格式,所述增强流包括当其与所述基础流组合时重建所述第一多媒体格式的信息。
12.如权利要求11所述的计算机可读媒质,其特征在于,所述多媒体格式包括一编码视频格式。
13.如权利要求11所述的计算机可读媒质,其特征在于,将所述第一多媒体格式转换成所述基础流和所述增强流包括在所述基础流中储存与所述其它多媒体格式相关联的色度块、及在所述增强流中储存不与所述其它多媒体格式相关联的色度块。
14.如权利要求11所述的计算机可读媒质,其特征在于,它还包括将所述基础流编码成一基础编码比特流、将所述增强流编码成一增强编码比特流、以及将所述基础编码比特流与所述增强编码比特流组合成一输出比特流。
15.如权利要求14所述的计算机可读媒质,其特征在于,所述输出比特流包括一所述增强编码比特流和所述基础编码比特流的交织流。
16.如权利要求14所述的计算机可读媒质,其特征在于,所述输出比特流包括一所述增强编码比特流和所述基础编码比特流的串接流。
17.如权利要求16所述的计算机可读媒质,其特征在于,所述增强编码比特流跟随在所述基础编码比特流之后。
18.如权利要求14所述的计算机可读媒质,其特征在于,所述输出比特流包括用于所述增强编码比特流的第一文件、及用于所述基础编码比特流的第二文件。
19.一种装置,其特征在于,它包括一基础编码器,用于对依照第一色彩空间采样格式来格式化的基础信息流进行编码;以及一增强编码器,用于对包含在所述第一色彩空间采样格式中不具备的色彩空间信息的增强信息流进行编码。
20.如权利要求19所述的装置,其特征在于,所述增强编码器使用与所述基础信息流有关的空间信息对所述增强信息流进行编码。
21.如权利要求19所述的装置,其特征在于,它还包括一输出流形成器,它将所述已编码的增强信息流和所述已编码的基础信息流组合成一输出流。
22.如权利要求21所述的装置,其特征在于,所述输出流包括与所述已编码的基础信息流交织的所述已编码的增强信息流。
23.如权利要求21所述的装置,其特征在于,所述输出流包括串接到所述已编码的基础信息流上的所述已编码的增强信息流。
24.如权利要求21所述的装置,其特征在于,所述输出流包括包含所述已编码的增强信息流的第一文件、及包含所述已编码的基础信息流的第二文件。
25.如权利要求24所述的装置,其特征在于,所述装置包括数码摄像机。
26.一种装置,其特征在于,它包括一基础解码器,用于解码与第一色彩空间采样格式相关联的已编码基础比特流;以及一增强解码器,用于解码包含在所述第一色彩空间采样格式中不可用的色彩空间信息的已编码的增强比特流。
27.如权利要求26所述的装置,其特征在于,所述增强解码器使用涉及所述已编码的基础比特流的空间信息解码所述已编码的增强比特流。
28.如权利要求26所述的装置,其特征在于,它还包括一合成器,用于从所述已编码的增强比特流和所述已编码的基础比特流生成第二色彩空间采样格式。
29.如权利要求26所述的装置,其特征在于,所述装置包括机顶盒。
30.一种装置,其特征在于,它包括一用于接收视频信息的输入端;一用于依照一色彩空间采样格式来格式化所述视频信息的一部分、并依照另一格式来格式化所述视频信息的另一部分的电路;以及一用于储存所述视频信息的所述部分以及所述视频信息的所述其它部分的电路。
31.如权利要求30所述的装置,其特征在于,用于格式化的所述电路包括可编程电路。
32.如权利要求30所述的装置,其特征在于,用于储存的所述电路包括可编程电路。
33.如权利要求30所述的装置,其特征在于,所述输入包括传感器。
34.如权利要求30所述的装置,其特征在于,所述输入包括至少一个CCD阵列。
全文摘要
一种提供一个或多个视频格式之间转换而不使用代码转换器的编码框架。包括依照第一色彩空间采样格式来格式化的色彩信息的视频信息流被拆分成一基础流和一增强流。基础流依照第二色彩空间采样格式被格式化。增强流包括当与基础流组合时重建第一格式的增强信息。在编码过程中,增强流可使用与基础信息流有关的空间信息来编码。已编码的基础流和已编码的增强流的输出流可以是交织的、串接的,或包括用于已编码的基础流和已编码的增强流的独立的文件。
文档编号H04N1/64GK1627830SQ20041009749
公开日2005年6月15日 申请日期2004年11月29日 优先权日2003年12月10日
发明者吴枫, 沈国斌, 袁禄军, 李世鹏 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1