视频编码器的制作方法

文档序号:7681597阅读:264来源:国知局

专利名称::视频编码器的制作方法
技术领域
:本发明涉及一见频编码,并且更特别地,但不是排他性地涉及可伸缩的^L频编码。
背景技术
:视频信号被编码例如以使得能够进行视频信号的有效传输或存储。这些代码被分组成用于定义如何对这些视频信号进行编码和解码的定义的标准。视频编码标准包括ITU-TH.261,ISO/IECMPEG-1视觉,ITU-TH.262或ISO/IECMPEG-2视觉,ITU-TH.263,ISO/IECMPEG-4视觉以及ITU-TH264(也净皮称作ISO/IECMPEG-4增强型视频编码(AVC)标准)。当前正在致力于其它视频编码标准的研发。一种正在研发的其它标准为可伸缩视频编码(SVC)标准。另一种正在研发的其它标准为多一见点-f见频编码(MVC)。SVC和MVC两种标准均意在对以上描述的H.264/AVC标准增加特征。SVC的最新草案JointDraft9.0在2007年1月于摩洛哥马拉喀什举办的第22届JVT会议,JVT-V201,"JointDraft9ofSVCAmendment,,中可得到,从以下路径可获得http:〃ftp3.itu.ch/av-arch/jvt-site/2007—01—Marrakech/JVT-V201.zip。MVC的最新草案在2007年1月于摩洛哥马拉喀什举办的第22届JVT会议,JVT-V209,"JointDraft2.0onMultiviewVideoCoding"中可得到,从以下路径可获得http:〃ftp3.itu.ch/av-arch/jvt-site/2007—01—Marrakech/JVT-V209.zip。视频编码器/解码器也被称作编解码器。在可伸缩编解码器中,可以移除一些^L频序列的元素或元素组,而不影响一见频序列的其它部分的重构。对于在利用具有宽范围的处理功率的解码器的系统中使用的多种多媒体应用程序和服务,可伸缩视频编码是一种期望特征。可伸缩比特流例如可以用于对在流传输服务器中的预编码的单播流的速率调整,并且可以用于将单个比特流传输到具有不同解码或显示能力和/或具有不同网络条件的终端。最早引入到视频编码标准的可伸缩性为在MPEG-1视觉中利用B图片的时间可伸缩性。在B图片概念中,B图片从以下两个图片被双向预测出,其中一个图片在B图片之前,另一个图片在B图片之后,以上两者均以显示顺序。另外,B图片是非参考图片,即B图片不用于其它图片的图片间预测参考。由此,B图片可以被丢弃以达到具有较低帧速率的时间可伸缩性。相同的机制保留在MPEG-2视频、H.263和MPEG-4一见觉中。在H.264/AVC中,B图片或者B片段(slice)的概念已经发生改变。在H.264/AVC中B片段的定义为以下一种片段,该片段可以使用中间预测从先前解码的参考图片以至多两个运动向量以及参考索引中被解码,从而预测每个块的采样值。在H.264/AVC中,先前编码标准的常规B图片概念的双向预测属性和非参考图片属性不再有效。预测,并且包含B片段的图片可以被其它图片参考从而用于图片间预测。在H.264/AVC中以及H.264/AVC的扩展SVC和MVC中,时间可伸缩性可以通过使用非参考图片和/或分级图片间预测结构来实现。通过丟弃非参考图片,仅使用非参考图片H.264/AVC、SVC和MVC编码标准能够实现与使用MPEG-1/2/4中的常规B图片相似的时间可伸缩性。分级编码结构能够实现更为灵活的时间可伸缩性。可伸缩性可以典型地通过将图像帧分组成多个分层来实现。被编码成基本层图像帧的图像帧仅包括在接收端处必须对视频信息解码的图像帧。一个或者多个增强层可以在基本层之上确定,同较低层相比较每个增强层提高了解码的视频的质量。然而,丰富的解码表示仅10可以通过对可伸缩比特流的特定部分进行解码而生成。在H.264/AVC和其它类似的编码方案中,用于预测随后的编码图片和用于将来输出的解码图片在解码图片緩冲区(DPB)中緩冲。为有效利用緩冲存储器,DPB管理过程可被具体规定,其中所述DPB管理过程包括将解码图片存储到DPB中的存储过程,参考图片的标记过程以及从DPB中解码图片的输出和移除过程。在H.264/AVC中的参考图片管理过程可以作如下概括。用于中间预测的最大参考图片数,称为M,可以在有效序列的参数集合中指示。因而当参考图片被解码时,可被标记为"用作参考"。如果参考图片的解码引起多于M个图片被标记为"用作参考",那么至少一个图片必须被标记为"不用作参考"。如果标记为"不用作参考"的图片也不必用作输出,那么DPB移除过程可从DPB中移除这些图片。每个短期图片与从语法元素fmme一num中衍生的变量PicNum有关,并且每个长期图片与从long—term_frame_idx中衍生的变量LongTermPicNum有关,其中所述long—term—frame—idx由存储器管理控制操作(MMCO)命令来信号发送。存在两种用于参考图片标记的操作自适应存储器控制和滑窗。用于参考图片标记的操作模式可在图片的基础上选择。自适应存储器控制方法要求在比特流中存在存储器管理控制操作(MMCO)命令。存储器管理控制操作支持显式信令以指示哪个图片被标记为"不用作参考",将长期索引分配到短期参考图片,将当前图片存储为长期图片,将短期图片变成长期图片以及将最大允许的长期索引分配给长期图片。滑窗控制方法使用滑、窗以仅存储最新标记为"用作参考"的M个图片。因而当图片不在窗口内时,在被标记为"用作参考,,的短期参考图片中进行了解码的任何较早短期参考图片被标记为"不用作参考"。换而言之,滑窗操作模式在短期参考图片中导致先入先出的緩冲操作。在H.264/AVC的附录C中规定的假想参考解码器(HDR)被用于检测比特流和解码器一致性。HRD包括编码图片緩冲区(CPB)、即时解码过程、解码图片緩沖区(DPB)和输出图片剪辑块。CPB和即时解码过程被规定为类似于任何其它视频解码标准,并且输出图片剪辑块简单地从解码图片中剪辑那些处于信号发送的输出图片范围之外的样本。DPB在H.264/AVC中被引入以控制用于解码一致的比特流所要求的存储器资源。DPB包括统一的用于参考图片和输出重排序的解码图片緩沖过程。当解码图片不再用作参考以及不再需要用于输出时,解码图片被从DPB中移除。比特流所允许使用的DPB的最大大小在H,264/AVC的层次定义(附录A)中规义。对于解码器存在两种类型的一致性输出时序一致性和输出顺序一致性。对于输出时序一致性,与HRD相比,解码器必须在同样的时间输出图片。对于输出顺序一致性,仅考虑输出图片的正确顺序。输出顺序DPB被认为包含最大允许的帧緩沖数目。当帧不再用作参考并且不需要用于输出时,所述帧从DPB中被移除。当所述DPB变满,输出顺序中最早的帧被输出直到至少一帧緩冲区变成不被占用时为止。然而当一些最高时间层被忽略时,这些存储器控制方法是有问题的。最高时间层的减少在比特流中的frame—num中生成了间隙。当这发生时,解码过程生成了具有缺失frame—num值的短期"非存在"图片。对所述"非存在"图片的处理方式与滑窗参考图片标记过程中的常规短期参考图片的处理方式相同。要求用于解码时间可伸缩比特流子集的存储器緩沖区的量会比用于解码时间可伸缩比特流本身的存储器緩沖区的量小,然而,为了确定能够对任何已编码的比特流进行解码,上述编码方案将定义用于整个时间可伸缩比特流的存储器和緩冲区间隔。例如,在H.264/AVC标准中,用于解码整个比特流所要求的解码图片緩沖区(DPB)的大小由语法元素max—dec—frame—buffing来规定。因此,能够处理时间可伸缩的比特流子集解码的解码器需要具有附加的存储器緩冲区。此外,即使解码器具有用于整个时间可伸缩的比特流的緩沖存储器资源,仍然期待的是其可以确切地分配对整个比特流的期望子集进行解码所需的存储器量,并且使用所保存的存储器资源用于其它应用。存在另一个类似的问题。被重新排序用于输出的最大帧数通常也被信号发送用于整个比特流。例如,在H.264/AVC标准中,语法元素num_reorder—frame用于设置用于输出的最大重排序的帧数。然而比特流子集可要求更少用于输出的重排序帧数。例如,仅包含关键图片(下面定义)的比特流子集,用于输出的最大重排序的帧数实际为零,因为输入顺序与输出顺序等同。在此系统中对时间可伸缩的比特流子集进行解码的解码器将等待待解码的附加图片以开始输出,对于时间可伸缩比特流的子集,这将在可能的回放延迟上引起最初的回放延迟。
发明内容出于对在实现可伸缩视频编码时对解码的图片緩沖管理不被最优执行的考虑,提出了本发明。使用从编码器传递到解码器的、关于可伸缩视频的不同时间可伸缩层的信息可以导致对于解码时间可伸缩比特流的子集的更有效的存储器緩沖区消耗。本发明实施例的目的是针对以上问题。根据本发明的第一个方面,提供了一种用于对视频信号进行编码的编码器,其中所述编码器被配置成生成包括基本层和至少一个增强层的编码的可伸缩数据流,其中所述编码器还被配置成生成与所述基本层和所述至少一个增强层中的每一个相关联的信息。所述信息可以包含以下中的至少一个与所述基本层和所述至少一个增强层中的每一个相关联的最小图片緩冲区大小;以及与所述基本层和所述至少一个增强层中的每一个相关联的最大图片重排序大所述编码器可包括可伸缩编码器,配置成生成编码的可伸缩数据流的,以及消息形成器,配置成生成与所述基本层和所述至少一个增强层中的每一个相关联的信息,并且将所迷信息存储在消息中。消息形成器可进一步配置成将该消息结合在编码的可伸缩数据流内。消息形成器可配置成生成补充增强信息消息。补充增强信息消息可还包括在编码的可伸缩数据流中所包含的时间可伸缩层的数量的指示。消息形成器可配置成生成容器文件,其中所述容器文件包含在消息中与所述基本层和所述至少一个增强层中的每一个相关联的信息。所述编码器可配置成生成信令协议分组,其中所述信令协议分组包含与所述基本层和所述至少一个增强层中的每一个相关联的信息。信令协议分组优选地为会话发起协议和实时流传输协议中的至少一个。所述分组优选地为会话描述协议分组,并且与所述基本层和所述至少一个增强层中的每一个相关联的信息优选地为会话描述协议分组属性。根据本发明的第二个方面,提供了一种用于对视频信号进行编码的方法,所述方法包括生成包含基本层和至少一个增强层的编码的可伸缩数据流;以及生成与所述基本层和所述至少一个增强层中的每一个相关联的信息。生成信息可以包括生成以下的至少一个与所迷基本层和所述至少一个增强层中的每一个相关联的最小图片緩沖区大小;以及与所述基本层和所述至少一个增强层中的每一个相关联的最大图片重排序大小。所述方法可还包括在,消息中存储与所述基本层和所述至少一个增强层中的每一个相关联的信息。所述方法可还包括组合编码的可伸缩数据流范围内的信息。所述方法可包括生成补充增强信息消息。所述方法可包括在补充增强信息消息中存储编码的可伸缩的数据流中所包含的时间可伸缩层的数量的指示。14所述方法可包括生成容器文件,其中所述容器文件可包含与所述基本层和所述至少一个增强层中的每一个相关联的信息。所述方法包括生成信令协议分组,其中所述信令协议分组包含与所述基本层和所述至少一个增强层中的每一个相关联的信息。所述生成信令协议分组可包括生成会话发起协议分组和实时流传输协议分组中的至少一个。所述生成信令协议分组可包括生成会话描述协议分组以及生成会话描述协议分组,其中所述会话描述协议分组属性包括与所述基本层和所述至少一个增强层中的每一个相关联的信息。根据本发明的第三个方面,提供了对编码的可伸缩数据流进行解码的解码器,其中所述解码器被配置成接收包含基本层和至少一个增强层信号的编码的可伸缩数据流,以及输出解码的视频信号,其中所述解码器进一步被配置成接收与所述基本层和所述至少一个增强层中的每一个相关联的信息;根据与所述基本层和所述至少一个增强层中的每一个相关联的信息来配置解码器;根据所述解码器的配置来对编码的可伸缩数据流进行解码。所述信息可包括以下中的至少一个与所述基本层和所述至少一个增强层中的每一个相关联的最小图片緩沖区大小;以及与所述基本层和所述至少一个增强层中的每一个相关联的最大图片重排序大小。所述解码器可包括消息分解器,配置成从编码的数据流中的消息上提取与所述基本层和所述至少一个增强层中的每一个相关联的信息;可配置的可伸缩解码器,配置成从可伸缩数据流中生成解码的视频数据,其中所述消息分解器还被优选地配置成根据与所述基本层和所述至少一个增强层中的每一个相关联的信息来对可配置的可伸缩解码器进行配置。所述消息分解器还被优选地配置成对来自编码的可伸缩数据流的信息消息进行过滤。所述消息分解器优选地被配置成从补充增强信息消息中提取与所述基本层和所述至少一个增强层中的每一个相关联的信息。所述消息分解器优选地被配置成从补充增强信息消息中提取包含在编码的可伸缩数据流中的时间可伸缩层的数目的指示。所述消息分解器优选地被配置成从容器文件中提取与所述基本层和所述至少一个增强层中的每一个相关联的信息。所述解码器优选地被配置成从信令协议分组中提取与所述基本层和所述至少一个增强层中的每一个相关联的信息。所述解码器优选地被配置成从信令协议分组中提取与所述基本层和所述至少一个增强层中的每一个相关联的信息,其中所述信令协议分组包含会话发起协议和实时流传输协议中的至少一个。所述解码器优选地被配置成从会话描述协议分组中提取与所述基本层和所述至少一个增强层中的每一个相关联的信息,其中与所述基本层和所述至少一个增强层中的每一个相关联的所述信息优选地是会话描述协议分组属性。根据本发明的第四个方面,提供了一种用于对视频信号进行解码的方法,所述方法包括接收包含基本层和至少一个增强层信号的编码的可伸缩数据流;接收与所述基本层和所述至少一个增强层中的每一个相关联的信息;根据与所述基本层和所述至少一个增强层中的每一个相关联的信息来对解码器进行配置;根据所述解码器配置来对编码的可伸缩数据流进行解码;以及输出解码的视频信号。所述信息可以包括下列中的至少一个与所述基本层和所述至少一个增强层中的每一个相关联的最小图片緩冲区大小;与所述基本层和所述至少一个增强层中的每一个相关联的最大图片重排序大小。所述方法可包括从编码的数据流中的信息上提取与所述基本层和所述至少一个增强层中的每一个相关联的信息;以及,其中配置所述解码器可包括根据所提取信息来对解码器进行配置。所述方法进一步配置成对来自编码的可伸缩数据流中的信息消息进行过滤。所述提取信息可包括从,补充增强信息消息上提取与所述基本层和所述至少一个增强层中的每一个相关联的信息。所述提取可还包括从补充增强信息消息中提取包含在编码的可伸缩数据流中的时间可伸缩层的数目的指示。个增强层中的每一个相关i口的信息。一、一^所述提取还包括从信令协议分组中提取与所述基本层和所述至少一个增强层中的每一个相关联的信息。所述提取还包括从信令协议分组中提取与所述基本层和所述至少一个增强层中的每一个相关联的信息,其中所述信令协议分组包含会话发起协议和实时流传输协议中的至少一个。所述提取还包括从会话描述协议分组中提取与所述基本层和所述至少一个增强层中的每一个相关联的信息,其中与所述基本层和所述至少一个增强层中的每一个相关联的所述信息是会话描述协议分组属性。根据本发明的第五个方面,提供一种包含以上所描述编码器的设备。根据本发明的第六个方面,提供一种包含以上所描述解码器的设备'根据本发明的第七个才面子设备。根据本发明的第八个方面子设备。根据本发明的第九个方面行编码的方法的计算机程序产提供一种包含以上所描述编码器的电提供一种包含以上所描述解码器的电口cr提供一种被配置成实现对视频信号进该方法包括生成包含基本层和至少一个增强层的编码的可伸缩数据流,以及生成与所述基本层和所述至少一个增强层中的每一个相关联的信息。根据本发明的第十个方面,提供一种被配置成执行对视频信号进行解码的方法的计算机程序产品,该方法包括接收包含基本层和至少一个增强层信号的编码的可伸缩数据流;接收与所述基本层和所述至少一个增强层中的每一个相关联的信息;根据与所述基本层和所述至少一个增强层中的每一个相关联的信息来对解码器进行配置;根据所述解码器的配置来对编码的可伸缩数据流进行解码;以及输出解码的视频信号。根据本发明的第十一个方面,提供一种对视频信号进行编码的编码器,包括用于生成包含基本层和至少一个增强层的编码的可伸缩数据流的装置,以及用于生成与所述基本层和所述至少一个增强层中的每一个相关联的信息的装置。根据本发明的第十二个方面,提供一种对编码的可伸缩数据流进行解码的解码器,其中所述解码器包括用于接收包含基本层和至少一个增强层信号的编码的可伸缩数据流的装置;用于接收与所述基本层和所述至少一个增强层中的每一个相关联的信息的装置;用于根据与所述基本层和所述至少一个增强层中的每一个相关联的信息来对解码器进行配置的装置;用于根据所述解码器的配置来对编码的可伸缩数据流进行解码的装置;以及用于输出解码的视频信号的装置。为了更好地理解本发明,参考将通过对应附图的示例给出,其中图1示意地显示了使用本发明实施例的电子设备。图2a示意地显示了在本发明实施例中使用的视频图片的四个时间可伸缩层的层次结构;图2b示意地显示了在本发明实施例中所使用的具有附加时间层的如图2a所示的视频图片的四个时间可伸缩层的层次结构;图3a示意地显示了根据本发明实施例的视频编码器;图3b示意地显示了根据本发明实施例的视频解码器;以及图4显示了根据本发明第一实施例描述图3a和图3b的编码器和解码器操作的流程图。具体实施例方式以下更详细地描述了用于提供分层或可伸缩的视频编解码器的可能的视频编解码机制。对此,首先参考附图1,图l显示了示例电子装置610的示意性框图,其中所述电子装置610可以结合根据本发明的实施方式的编解码器。电子装置610例如可'以为无线通信系统的移动终端或用户设备。电子装置610包括麦克风611,该麦克风611经由模拟-数字/数字—模拟转换器(ADC/DAC)614链接到处理器621。处理器621还经由ADC/DAC614链接到扬声器633。处理器621还链接到收发器(TX/RX)613、用户接口(UI)615和存储器622。处理器621还链接到视频驱动器电路631,该视频驱动器电路631进而连4妾到相机635和显示器637。处理器621可以被配置成执行各种程序代码。被实现的程序代码包括4见频编码代码以用于编码。被实现的程序代码623还包括-见频解码代码。被实现的程序代码623可以例如存储在存储器622中以用于在需要的时候可以由处理器621获取。存储器622还提供用于存储数据的部分,所述数据例如根据本发明被编码的数据。在本发明实施方式中编码和解码代码可以以硬件或固件来实现。用户接口615使得用户能够例如经由键盘向电子装置610输入命令,和/或例如经由显示器从电子装置610获取信息。收发器613使得能够与其它电子装置通信,例如经由无线通信网络。视频驱动器电路631从处理器621接收数据,并且以一种形式输出数据以在显示器637上显示。另外,视频驱动器电路被配置成从相机635接收视频数据,并且将该数据以一种适于处理的形式输出到处理器621中。需要再次理解的是电子装置610的结构可以以各种方式进行补充和变化。电子装置610的用户可以使用相机635以用于输入将传输到一些其它电子装置或者将存储在存储器622的数据部分的视频。为此,用户已经由用户接口615激活了相应的应用。这一应用可以由处理器621运行,并可以使处理器621执行存储在存储器622中的编码代码。处理器621可以随后以参考本发明实施方式所描述的方式处理视频信号。所得的比特流可以被提供给收发器613以传输到另一电子装置。可替换地,被编码的数据可以存储在存储器622的数据部分,例如用于由相同的电子装置610进行后续的传输或者后续的显示。电子装置610也可以经由收发器613从另一电子装置接收具有相应的编码的数据的比特流。在这种情况下,处理器621可以执行存储在存储器622中的解码程序代码。处理器621如参考随后描述的本发明的实施方式所描述的那样来解码接收到的数据,并且将解码的数据提供给视频驱动器电路631。视频驱动器电路631将数字解码的数据转换成适于显示器637的形式,并且将数据输出到显示器637。对解码程序代码的执行也可以由用户经由用户接口615调用的应用程序来触发。接收到的编码的数据也可以存储在存储器622的数据部分而不是仅由显示器637立即显示,例如能够进行后续的显示或者转发到另一个电子装置。需要理解的是,2b,图a,图3b和图4仅显示了完整视频编解码器的操作的一部分,该完整视频编解码器示例性显示在图l显示的电子装置中实现。视频编解码器的整体操作是已知的,并且不会对理解本发明的操作产生帮助的这些编解码器的特征没有详细描述。参考图2a和图2b,显示了具有时间可伸缩性的级别的典型的分级编码结构的示意性视图以帮助理解本发明。图2a显示了两个图片群集(GOP)。第一个完整图片群集102以后缀b为参考,第二个完整图片群集103以后缀c为参考。图2a还显示了以后缀为参考的图片群组的截段(stub)。图片显示的顺序在图2a中由图片顺序计数(POC)值表示。另外,如下面所述,每个图片具有时间级别(TL)值。每个图片群集包括关k图片、内部(I)或预测(P)图片105。I或P图片在解码顺序上被编码成图片群组的第一个图片。当关键图片20被进行图片间编码时,先煎的关键图片被用于中间预测的参考。这些关键图片对应最低时间级别(如图2中以TL-O表示),并且与最低帧速率向关联。在图2a中显示的实例中,每个图片群组还包括一系列分级构造的双向预测(B)图片。特别地,每个图片群组包括具有时间等级1的B图片107、具有时间等级2的两个B图片109,111、以及具有时间等级3的四个B图片113,115,117和119。所述图片以图片顺序计数顺序被排列,以便在每个图片群组内,相对于TL值的图片顺序为3,2,3,1,3,2,3,0。较高时间等级的图片可以仅使用相同或者较低的时间等级的图片来用于图片间预测。利用这种分级编码结构,对应于不同帧速率的不同的时间可伸缩性可以通过丢弃特定时间等級值及以上的图片来达到。例如,在图2a中,具有图片顺序计数值0,8和16的图片105a,105b和105c具有最低时间等级,而具有图片顺序计数值l,3,5,7,9,11,13和15的图片113b,115b,117b,119b,113c,U5c,117c和119c具有最高时间等级。由此,如果在解码所有时间等级时达到30Hz的帧速率,则其它帧速率可以通过丢弃一些时间等级的图片来获得。例如,通过使用最低时间等级的图片,可以实现仅3.25Hz的帧速率。参考图2b,利用附加时间等级(TL=4)显示了图2a的图片编码结构。对于每个图片群组201,203,具有8个TL-4的B图片121,123,125,127,129,131,133,135。TL=4等级B图片直接处于每个TL-3等级B图片之前和之后。由此,在每个图片群组内,针对TL值的图片的顺序#皮显示为4,3,4,2,4,3,4,1,4,3,4,2,4,3,4,0。图2b还显示了与图片的解码顺序相对应的frame—num值。斜体的值对应于非参考图片,也就是对应于不用于提供帮助解码其它图片的的信息的图片。如果TL=3和较低层允许30Hz帧速率,则添加TL=4的层将不允许60Hz的帧速率。使用图2b显示的结构,下面表1指示了在对每个图片进行了解码之后哪个参考图片对于进一步的中间预测参考是非必须的。表l图2b中的实例的DPB状态分析,一旦参考图片变得对于中间预测不再需要则参考图片就被标记成不用于参考时<table>tableseeoriginaldocumentpage22</column></row><table><table>tableseeoriginaldocumentpage23</column></row><table>根据表1,需要存储在DPB中以用于中间预测参考的图片的最小数量为5,其中有5层时间可伸缩层。在具有编码顺序4和20的图片被解码之后,可以达到峰值。时间可伸缩层的数量与存储在DPB中用于中间预测参考从而解码信号的图片的最小数量之间的关系对于相似的可伸缩结构是成立的。由此,当层的数量等于N时,能够整体解码比特流所需要的最小图片空间也为N。然而,从下面的表2和3可以看出,当一个或多个高时间层被丢弃时,需要存储在DPB中以用于中间预测参考的图片的最小数量也减少。表2显示了当仅解码基本层(TL等于0)时的DPB状态。表3显示了当解码高至TL等于1的层时的状况(也就是说TL-O和TL=1层)。表2当仅解码基本层时的DPB状态分析<table>tableseeoriginaldocumentpage23</column></row><table>码(可能的POC)为"用于参考"之后,在DPB中标记为"用于参考"的图片(图片由其显示号码表示。一旦其变得对于中间预测参考不再需要时,则参考就被标记为"不用于参考"。)0/00是01/116是162/932是323/1748是48表3当解码具有TL少于或等于1的层的DPB状态分析编码号码/frame—num显示号码(可能的POC)被标记为"用于参考"在解码由显示号码的编码号码标识的图片之后,在DPB中被标记为"用于参考"的图片(图片由其显示号码表示。一旦其变得对于中间预测参考不再需要时,则参考就被标记为"不用于参考")0/00是01/116是0,162/28是16,83/932是16,324/1024曰疋32,245/1748是32,48在表3中可以看出,在图片本身被解码之后,不再需要为中间预测参考来存储图片8或24。然而,由于在传统编码中参考图片标记发生在存储当前解码的参考图片之前,所以目前没有方法将当前解码的参考图片标记为"不用于参考"。下面显示的表4通过显示当解码不同时间层时存储在DPB中用于中间预测参考的最小需要图片数量而对此进行进一步的扩展。表4IX01234最小DPB大小12345因此,总体来说,在具有分级预测结构的时间可伸缩编码中(其中时间可伸缩层的数量等于Nt),存储在DPB中用于中间预测参考以解码TL大于或等于0且小于Nt的时间层所需要的最小图片数量是TL值力口1(也就是TL+1)。类似地,由numreorderframes针对整个比特流而指示的、被重排序用于输出的最大帧数根据正被解码的层的数量而不同。因此,在解码低时间可伸缩层中,必须作出更少的重排序。图3a和图3b显示了本发明的第一实施方式,其中可以实现以上内容以改进如图1所示的设备。参考图4来对图3a和图3b所示的实施方式的操作进行进一步的描述。图3a显示了根据本发明第一实施方式的视频编码器301的示意图。视频编码器301接收原始数据流307,并且输出具有层信息的编码的数据流。视频编码器包括可伸缩数据编码器303,该可伸缩数据编码器303接收原始数振流307并且连接到消息形成单元305。消息形成单元还输出编码的视频数据309。可伸缩数据编码器303接收原始数据流307,如图4中的步骤501所示。可伸缩数据编码器随后对数据进行编码以生成一个或多个可伸缩编码的层。这一操作如图4中步骤503所示。可伸缩数据编码器还推出可伸缩性信息,并且将这一信息与编码的层一起传递到消息形成单元305。这一操作如图5中的步骤505所示。消息形成单元将这一信息插入到编码的数据流。在第一实施例25中,所建议的针对每一可伸缩层的指示中的至少一个包括在时间可伸缩流中,例如包括在序列参数集中或在补充增强信息(SEI)消息中。用信号发送指示的SEI消息的句法和语义如下:<table>tableseeoriginaldocumentpage26</column></row><table>上述SEI消息可以与即时解码刷新(IDR)存取单元相关联。在SEI消息中信号发送的信息从包含SEI消息的存取单元到包含相同类型的SEI消息的下一个存取单元(不含)是有效的。消息的语义如下num—temp_layers—minus2力口2说明包含在编码的视频序列中的时间可伸缩层的数量。max—dec—frame_buffering[i]与H.264/AVC中的句法元素max—dec—frame—buffering具有相同的语义,唯一的区别在于这里讨论的比特流是包含时间等级等于i的时间可伸缩层和所有更低时间层的比特流。num—reorder—frames卩]与H.264/AVC中的句法元素num—reorder_frames具有相同的语义,唯一的区别在于这里讨论的比特流是包含时间等级等于i的时间可伸缩层和所有更低时间层的比特流。这一4乘作如图4中步骤506所示。输出的编码的数据流随后被传输/存储,如图4中的步骤507所示。图3b显示了根据本发明的第一实施例的视频解码器351的示意图。视频解码器接收编码的视频数据359并且输出解码器视频数据361。解码器包括接收机353,其被配置成接收编码的数据并且输出信号至消息分解单元355。消息分解单元355还连接到解码器357。解码器还被配置成输出解码的视频数据361。解码器351的接收机353接收编码的视频数据359。这一数据的接收或获取如图4中的步骤509所示。消息分解单元355从接收机353接收所接收的^见频数据,并且从如上面所示的数据流中的SEI消息提取指示信息。在本发明的一些实施例中,消息分解单元可以是存取单元解析器。这一指示信息被传递到解码器357。这一操作如图4中步骤510所示。解码器357根据来自消息分解单元的指示信息进行配置。这一配置可以包括根据存储参考帧所需要的緩沖区大小和输出重排序緩沖区大小来对解码器图片緩冲区(DPB)的大小进行的配置。这一操作如图4中步骤511所示。解码器357(曾被配置过)被配置成解码视频数据。这一操作如图4中步骤513所示。解码器357随后还被'配置成输出解码的视频数据。这一操作如图4中步骤515所示。实施本发明的实施方式的优点可以用下列实例来说明。流传输服务器可以包括时间可伸缩比特流,其所需要的解码的图片緩沖区(DPB)大小等于N1个帧。时间可伸缩比特流包括较低时间层,其所需要的DPB大小等于N2个帧,其中N2<N1。整个比特流的分布和等级与较低时间层比特流相同。由于可用存储器不充足,所以流传输客户端能够解码较低时间层但是不能解码整个比特流。在客户端从服务器请求视频内容后,服务器将所需的DPB大小等等通知给客户端。没有本发明的话,流传输服务器将通知客户端的是,对于整个比特流或者较低层比特流所需要的DPB大小等于Nl。由此,客户端知道不能够解码来自服务器的任何数据,并且请求失败。通过实施本发明,服务器可以从所建议的信令中容易地确定对于较低时间层实际所需要的DPB大小并且通知客户端,从而,所请求的流传输会话可以开始,并且客户端可以成功接收和解码较低时间层,而且可以不需要保留解码较低时间层所不需要的存储器和资源。根据本发明,客户端还可以利用重排序以用于输出的最大帧数的所建议的信令来尽可能快地开始输出和显示解码的图片,从而减少初始回放延迟。在本发明的第二实施例中,以上所述的相同指示信息可包括在草案SVC标准所规定的可伸缩性信息SEI消息中而不在如以上所定义的单独SEI消息中。因此,所述指示信息随同在可伸缩性信息SEI消息中信号发送的用于每个时间层的其它可伸缩性信息一起被传递到接收机上。在本发明的上述实施例中,所述消息分解单元被配置成从在可伸缩性信息SEI消息、内的字段中提取指示信息。在本发明的另一个实施例中,SEI消息不用来传送可伸缩指示信息。在本发明的另一个实施例中,所述可伸缩指示信息包含在存储时间可伸缩的比特流的容器文件中。在所述实施例中,所迷字段max—dec—frame—buffering和num—reorder—frames包含在如最新草案SVC文件格式标准中所定义的TierlnfoBox中,其中所述最新草案SVC文件格式标准可以在摩洛哥马拉喀什2007年1月的MPEG输出文档N8874中得到。在所述实施例中,所述消息形成单元305以及消息分解单元355分别使用容器文件来存储指示信息并且从中提取信息。在本发明的另一个实施例中,所述信息可以在编码数据流之外信号发送。例如,本发明的一些实施例中,可伸缩指示信息作为会话发起协议(SIP)会话描述协议(SDP)属性的一部分来发送或者存储,其可从编码器(服务器)通信到解码器(客户端)。该通信可通过使用实时流传输协议(RTSP)或者会话发起协议(SIP)来实现。尽管以上所描述的分级的B图片编码结构为用于时间可伸缩性的最典型的编码结构,但值得注意的是,其它编码结构是可行的并且在本发明的其它实施例中使用。GOP大小的数目和GOP中的图片结构随着实施方式的不同而不同。此外,本发明的其它实施例中的GOP大小随时间不是恒定的。在其它实施例中,本发明的其它实施例中的时间增强层图片可以不编码为B片段,但可以被编码为P片段。尽管以上示例描述了在电子装置610的编解码器中操作本发明的实施例,但值得注意的是以下所描述的发明可作为任何可伸缩视频编解码器的一部分来实现。因而,用户设备可包括诸如本发明以上所描述的实施例中的视频编解码器。值得注意的是术语用户设备意在包括任何合适类型的用户设备,诸如移动电话、便携式数据处理设备或者便携式web浏览器。总体来看,本发明的各种实施例可以硬件或者专用电路、软件、逻辑或者以上任意组合来实现。例如,一些方面可以以硬件来实现,另一些方面可以以可以由控制器、微处理器或其它计算设备来执行的固件或者软件来实现,但本发明并不限制于此。虽然本发明的各方面能够以框图、流程图或者使用一些其它图画展示加以阐述和描述,但可以理解的是,作为非限制性例子,以下所描述的块、装置、系统、技术或者方法可以以诸如硬件、软件、固件、专用电路或者逻辑、通用硬件或者控制器或者其^计算设备或者其一些组合来实现。本发明的实施例可以通过移动设备的数据处理器可执行的计算机软件(例如在处理器实体中)、通过硬件或者通过软件和硬件的组合来实现。进一步就此而言,需要注意的是,附图中的任何框图和逻辑图可以表示程序步骤、或者互连的逻辑电路、块和功能,或者程序步骤与逻辑电路、块以及功能的组合。所述存储器可以是适于本地技术环境的任何类型并且可以使用任何合适的数据存储技术来实现,诸如基于半导体的存储器件、磁存储器件和系统、光学存储器件和系统、固定存储器和可移动存储器。所述数据处理器可以是适于本地技术环境的任何类型,并且,作为非限制性例子,可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)和基于多核处理器架构的处理器。本发明实施例可以以诸如集成电路模块之类的各种部件来实现。集成电路设计在很大程度上为高度自动化过程。复杂和功能强大的软件工具可用来将逻辑层设计转变成准备在半导体衬底上蚀刻和形成的半导体电路设计。程序,例如加利福尼州山景城的Synopsys公司以及加利福尼亚州圣何塞的CadenceDesign公司所提供的那些程序,使用建立好的设计规则以及预存有设计模型的库来自动进行导体布线,并将部件置于半导体芯片上。一旦完成了半导体电路的设计,则标准电子格式(例如,Opus、GDSII等等)的结果设计可被传输到半导体制造工厂或"代工厂,,以进行制造。例实施例的完整且富含信4的描述。然而,各种修改和调整对于相关领域技术人员在阅读上述说明书并结合附图和所附权利要求后是明显的。然而,本发明教导的所有此类和类似的修改将落入如在所附权利要求所限定的本发明的范围内。权利要求1.一种用于对视频信号进行编码的编码器,其中所述编码器被配置成生成编码的可伸缩数据流,该编码的可伸缩数据流包括基本层和至少一个增强层,其中所述编码器还被配置成生成与所述基本层和所述至少一个增强层中的每一个相关联的信息。2.根据权利要求1所述的编码器,其中所述信息包括下列中的至少一个与所述基本层和所述至少一个增强层中的每一个相关联的最小图片緩沖区大小;以及与所述基本层和所述至少一个增强层中的每一个相关联的最大图片重排序大小。3.根据权利要求1或2所述的编码器,其中所述编码器包括可伸缩编码器,被配置成生成所述编码的可伸缩数据流;以及消息形成器,被配置成生成与所述基本层和所述至少一个增强层中的每一个相关联的信息,,并且在消息中存储所述信息。4.根据权利要求3所述的编码器,其中所述消息形成器还被配置成将所述消息结合在编码的可伸缩数据流内。5.根据权利要求3或4所述的编码器,其中所述消息形成器被配置成生成补充增强信息消息。6.根据权利要求5所述的编码器,其中所述补充增强信息消息还包括包含在所述编码的可伸缩数据流中的时间可伸缩层的数量的指示。7.根据权利要求3或4所述的编码器,其中所述消息形成器还被配置成生成容器文件,其中所述容器文件包括在消息中与所述基本层和所述至少一个增强层中的每一个相关联的信息。8.根据权利要求1或2所述的编码器,其中所述编码器被配置成生成包括与所述基本层和所述至少一个增强层中的每一个相关联的信息的信令协议分组。9.根据权利要求8所述的编码器,其中所述信令协议为下列中的至少一个会话发起协议;以及实时流传输协议。10.根据权利要求8或9所述的编码器,其中所述分组为会话描述协议分组,并且与所述基本层和所述至少一个增强层中的每一个相关联的信息为会话描述协议分组属性。11.一种用于对^L频信号进行编码的方法,该方法包括生成包括基本层和至少一个增强层的编码的可伸缩数据流;以及生成与所述基本层和所述至少一个增强层中的每一个相关联的信息。12.根据权利要求11所述的方法,其中生成信息包括生成下列中的至少一个与所述基本层和所述至少一个增强层中的每一个相关联的最小图片緩沖区大小;与所述基本层和所述至少一个增强层中的每一个相关联的最大图片重排序大小。13.根据权利要求11或12所述的方法,该方法还包括将与所述基本层和所述至少一个增强层中的每一个相关联的信息存储在消息中。14.根据权利要求13所述的方法,该方法还包括将所述消息结合在编码的可伸缩数据流内。15.根据权利要求13或14所述的方法,该方法包括生成补充增强信息消息。16.根据权利要求15所述的方法,该方法包括将包含在所述编码的可伸缩数据流中的时间可伸缩层的数量的指示存储在所述补充增强信息消息中。17.根据权利要求13或14所述的方法,该方法包括生成容器文件,其中所述容器文件包^舌在消息中与所述基本层和所述至少一个增强层中的每一个相关联的信息。18.根据权利要求11或12所述的方法,该方法包括生成包括与所述基本层和所述至少一个增强层中的每一个相关联的信息的信令协议分组。19.根据权利要求18所述的方法,其中生成所述信令协议分组包括生成下列中的至少一个会话发起协议分组;以及实时流传输协议分组。20.根据权利要求18或19所述的方法,其中生成所述信令协议分组包括生成会话描述协议分组,并且生成会话描述协议分组属性,该会话描述协议分组属性包括与所述基本层和所述至少一个增强层中的每一个相关联的信息21.—种用于对编码的可伸缩数据流进行解码的解码器,其中所述解码器被配置成接收包括基本层和至少一个增强层信号的编码的可伸缩数据流,并且输出解码的视频信号,其中所述解码器还被配置成接收与所述基本层和所述至少一个增强层中的每一个相关联的信息;根据与所述基本层和所述至少一个增强层中的每一个相关联的信息来对所述解码器进行配置;根据所述解码器的配置来对所述编码的可伸缩数据流进行解码。22.根据权利要求21所述的解码器,其中所述信息包括下列中的至少■个与所述基本层和所述至少一个增强层中的每一个相关联的最小图片緩冲区大小;以及与所述基本层和所述至少一个增强层中的每一个相关联的最大图片重排序大小。23.根据权利要求21或22所述的解码器,其中所述解码器包括消息分解器,配置成从编码的数据流中的消息中提取与所述基本层和所述至少一个增强层中的每一个相关联的信息;以及可配置可伸缩解码器,配置成从可伸缩数据流中生成解码的视频数据,其中所述消息分解器还被配置成根据与所述基本层和所述至少一个增强层中的每一个相关联的信息来对可配置可伸缩解码器进行配置。24.根据权利要求23所述的解码器,其中所述消息分解器进一步被配置成对来自编码的可伸缩数据流的信息消息进行过滤。25.根据权利要求23或24所述的解码器,其中所述消息分解器被配置成从补充增强信息消息中提取与所述基本层和所述至少一个增强层中的每一个相关联的信息。26.根据权利要求25所述的解码器,其中所述消息分解器被配置成从所述补充增强信息消息中提取对包含在编码的可伸缩数据流中的时间可伸缩层的数目的指示。27.根据权利要求23或24所述的解码器,其中所述消息分解器被配置成从容器文件中提取与所述基本层和所述至少一个增强层中的每一个相关联的信息。28.根据权利要求21或22所述的解码器,其中所述解码器被配置成从信令协议分组中提取与所述基本层和所述至少一个增强层中的每一个相关联的信息。29.根据权利要求28所述的解码器,其中所述解码器被配置成从信令协议分组中提取与所述基本层和所述至少一个增强层中的每一个相关联的信息,其中所述信令协议分组包含下列中的至少一个会话发起协议;以及实时流传输协议。30.根据权利要求28或29所述的解码器,其中所述解码器被配置成从会话描述协议分组中提取与所述基本层和所述至少一个增强层中的每一个相关联的信息,其中与所述基本层和所述至少一个增强层中的每一个相关联的所述信息为会话描述协议分组属性。31.—种对视频信号进行解码的方法,该方法包括接收包含基本层和至少一个增强层信号的编码的可伸缩数据流;接收与所述基本层和所述至少一个增强层中的每一个相关联的信息;根据与所述基本层和所述至少一个增强层中的每一个相关联的信息来配置解码器;根据所述解码器的配置来对编码的可伸缩数据流进行解码;以及输出解码的视频信号。32.根据权利要求31所述的方法,其中所述信息包括下列中的至少一个与所述基本层和所述至少一个增强层中的每一个相关联的最小图片緩沖区大小;以及与所述基本层和所述至少一个增强层中的每一个相关联的最大图片重排序大小。,.33.根据权利要求31或32所述的方法,该方法包括从编码的数据流中的消息中提取与所述基本层和所述至少一个增强层中的每一个相关联的信息;以及其中配置所述解码器包括根据所提取的信息对所述解码器进行配置。34.根据权利要求33所述的方法,该方法进一步配置成对来自编码的可伸缩数据流的信息消息进行过滤。35.根据权利要求33或34所述的方法,其中提取所述信息包括从补充增强信息消息中提取与所述基本层和所述至少一个增强层中的每一个相关联的信息。36.根据权利要求35所述的方法,其中提取还包括从所述补充增强信息消息中提取对包含在编码的可伸缩数据流中的时间可伸缩层的数目的指示。37.根据权利要求33或34所述的方法,所述提取还包括从容器文件中提取与所述基本层和所述至少一个增强层中的每一个相关联的信息。38.根据权利要求31或32所述的方法,所述提取还包括从信令协议分组中提取与所述基本层和所述至少一个增强层中的每一个相关联的信息。39.根据权利要求38所述的方法,其中提取还包括从信令协议分组中提取与所述基本层和所述至少一个增强层中的每一个相关联的信息,其中所述信令协议分组包含下列中的至少一个会话发起协议;以及实时流传输协议。40.根据权利要求38或39所述的方法,其中提取还包括从会话描述协议分组中提取与所述基本层和所述至少一个增强层中的每一个相关联的信息,其中与所述基本层和所述至少一个增强层中的每一个相关联的所述信息是会话描述协议分组属性。41.一种装置,该装置包括根据权利要求1-10中任意一项所述的编码器。42.—种装置,该装置包括根据权利要求21-30中任意一项所述的解码器。43.—种电子设备,该电子设备包括根据权利要求1-10中任意一项所述的编码器。44.一种电子设备,该电子设备包括根据权利要求21-30中任意一项所述的解码器。45.—种配置成执行对视频信号进行编码的方法的计算机程序产品,该方法包4舌生成包含基本层和至少一个增强层的编码的可伸缩数据流;以及生成与所述基本层和所述至少一个增强层中的每一个相关联的信息。46.—种配置成执行对视频信号进行解码的方法的计算机程序产品,该方法包4舌接收包含基本层和至少一个增强层信号的编码的可伸缩数据流;接收与所述基本层和所述至少一个增强层中的每一个相关联的信息;根据与所述基本层和所述至少一个增强层中的每一个相关联的信息来对解码器进行配置;根据所述解码器的配置来对编码的可伸缩数据流进行解码;以及输出解码的视频信号。47.—种对视频信号进行编码的编码器,该编码器包括用于生成包含基本层和至少一个增强层的编码的可伸缩数据流的装置;以及用于生成与所述基本层和所述至少一个增强层中的每一个相关联的信息的装置。48.—种对编码的可伸缩数据流进行解码的解码器,其中所述解码器包括用于接收包含基本层和至少一个增强层信号的编码的可伸缩数据流的装置;用于接收与所述基本层和所述至少一个增强层中的每一个相关联的信息的装置;用于根据与所述基本层和所述至少一个增强层中的每一个相关联的信息来对解码器进行配置的装置;用于根据所述解码器的配置来对编码的可伸缩数据流进行解码的装置;以及,用于输出解码的视频信号的装置。全文摘要一种用于对视频信号进行编码的编码器,其中所述编码器被配置成生成包括基本层和至少一个增强层的编码的可伸缩数据流,其中所述编码器还被配置成生成与所述基本层和所述至少一个增强层中的每一个相关联的信息。文档编号H04N7/26GK101682760SQ200780053133公开日2010年3月24日申请日期2007年4月13日优先权日2007年4月13日发明者M·安尼克塞拉,王业奎申请人:诺基亚公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1