专利名称:用于无线多媒体传输的局部帧内编码系统和方法
技术领域:
本发明主要涉及基于计算机的通信系统。
背景技术:
数字多媒体数据,例如视频和音乐,可以被无线地传输到移动接收机,如无线电话,从而移动接收机的用户可以播放该多媒体。这种数据典型地可以被广播。
所述多媒体可以依照运动图象专家组(MPEG)标准被格式化,该标准例如,MPEG-1、MPEG-2(也用于DVD格式)、MPEG-4及其它基于块的变换编解码器。实质上,对于单独的视频帧,这些多媒体标准使用联合图象专家组(JPEG)压缩。在JPEG中,单帧图象典型地被划分为小像素块(通常为8×8和/或16×16像素块),其被利用离散余弦变换(DCT)函数进行编码,以将由像素表示的空间强度值转换为在块中基本按照从最低频率到最高频率排列的空间频率值。之后,所述DCT值被量化,即,例如通过将每个值除以10并四舍五入到最接近的整数,来将其聚成块以减少信息。由于所述DCT函数包括累进加权(progressive weighting),其将较大数置于块的左上角附近,将较小数置于右下角附近,可以对所述数应用特殊的之字形排序,以便于进一步通过行程编码进行压缩(实质上为,存储例如连续出现的零值的数目计数,来取代存储所有零值)。如果需要,所述结果数可以用于从利用哈夫曼编码生成的表中查找符号,以对最常见的数生成较短的符号,此操作通常被称作“可变长度编码”。在任何情况下,JPEG编码流表示图象的水平行,这与底层像素在矩阵中按水平行排列非常相似。
可注意到JPEG压缩导致信息损失。然而,由于人感知的现象以及以上处理作用的方式,JPEG压缩可以将图象缩减为其原始大小的五分之一,而实际上分辨不出差别,并且即使缩减为原始大小的十分之一,也仅有微小的质量下降。
运动图象在单个图象的空间维度上加入了时间纬度。典型的运动图象具有三十帧,即,每秒观看时间有三十张静止图象。MPEG实质上是一种利用运动估计来进一步压缩视频流的压缩技术。
MPEG编码将每个图象划分成称为“宏块”的块,然后在相邻图象中搜索相似的块。如果发现匹配,系统将不再存储完整块的所有DCT值,而仅存储一个小得多的向量,其描述图象之间的块的运动(或者不运动)。通过这样,实现高效压缩。
更确切地,MPEG压缩通常使用三种视频帧。自然地,必须提供(例如,约每秒两帧)一些帧,其被称为“帧内(intraframe)”(也被称为“参考帧”,或I帧及“信息帧”),其中,该完整帧由已压缩、量化的DCT值组成。但是,依照MPEG压缩原理,在MPEG压缩中,在该秒内形成其余视频的剩余帧(例如,28帧)远小于参考所述帧内的帧。在MPEG用语中,这些帧称为“预测”帧(P帧)和双向帧(B帧),在此处统称为“帧间(interframe)”。
根据以上所讨论的,预测帧是那些包含了参照前一帧内或前一预测帧的运动向量的帧。如果块在强度或颜色中有微小变化,则两帧之间的差异被编码进预测帧。此外,如果出现了与前面的块均不匹配的全新的事物,则与存储到帧内一样,一个或多个新块被存储到预测帧。注意到,此处使用的这种新的块不是帧内的“预定部分”,而是由于在帧中以任意大小和位置随机引入的新对象而产生的。
相反,如下所述使用双向帧。MPEG系统在视频流中前向和后向搜索以匹配块(典型地,每个方向一帧)。经验表明,在每一帧内或预测帧之间有两个双向帧可得到很好的效果,从而使得与单个帧内相关联的典型的帧组可能为全帧内(full intraframe),之后两个双向帧,之后是预测帧,之后两个双向帧,另一个预测帧,再两个双向帧,预测帧,再两个双向帧,预测帧,最后再两个双向帧,这时在视频流中放置新的全帧内以刷新视频流。由于生成双向帧计算花费大,并需要在解码器存储器中存储更多参考视频帧,在一些实例中,仅使用帧内和预测帧。最简单的解码器根本不使用任何帧间,而仅使用帧内,为简单而极大地牺牲压缩,其可使用最少量的解码器存储器。
考虑以上原理,本发明认识到当在可靠的链路上传输视频流时(例如,通过可靠的TCP/IP网络连接从硬盘驱动器或DVD向处理器传输视频流),MPEG压缩具有很好的效果。然而,本发明批判性地认识到,在“有损”传输路径的语境下,例如,在无线传输中可能发生的,帧内的丢失将或多或少损害相关帧间,从而严重降低所提供的服务质量(QOS),直到下一个全帧内的出现,尤其当丢失的帧内不能被再次传输时(如,在广播传输中)。这常常需要解码器以冻结显示,直到接收到另一个有效的帧内。理想的解决方案是提供通过利用P帧和B帧而获得的具有改进的误码弹性的压缩。
发明内容
数字多媒体无线传输的多媒体数据流包括多组帧,每一组典型地包括N个混合帧(也称为H帧)。各混合帧将各自的第i帧内部分与帧间信息一起传送。全帧内由所述帧内部分共同建立。如果需要,各组帧还可以包括全常规帧内和常规帧间。
另一方面,通信系统包括处理器,其接收多媒体数据,并将之分成帧间信息和帧内信息。建立N个混合帧,其中每一帧具有表示至少一个预定的、典型地为周期性的帧内部分的信息,以及至少一些帧间信息。主要的想法为在被称为如P帧和B帧的通常帧间的通常结构中插入并不必须的帧内数据。这些额外的帧内数据为在有损传输系统上传输的视频流提供了额外的误码弹性。
在优选实施例中,处理器建立所有混合帧,以具有表示M个帧内行(intraframe line)的信息。当利用常规DCT运动估计和补偿技术时,M优选为宏块在高度上的整数。第一优选的混合帧包括表示第一M个帧内行的信息,第二混合帧包括表示第二M个帧内行的信息,等等。可以理解,每混合帧的帧内数据的行数可以进行变化,以适应不同的算法或加权函数。
在非限制实施例中,所述多媒体数据可以是数字的,并且可以利用CDMA原理、GSM原理或OFDM原理对其进行广播。可以在单向链路上对所述多媒体数据进行广播,或者,可以在双向点对点链路上将其传输到无线接收机。
另一方面,一种与无线接收机通信以帧内信息和帧间信息为特征的多媒体数据的方法包括,传送混合帧间中的帧内部分,该混合帧间以预定间隔被产生。在非限制性实施例中,混合帧携带的帧内部分包括了表示像素信息的量化的离散余弦变换(DCT)的信息。可注意到,所述方法可应用于基于DCT块的变换以外的其它变换。可利用诸如行程编码对所述表示量化的DCT的信息进行编码。
再一方面,用于显示多媒体数据的无线接收机包括用于利用所述帧间对所述混合帧中携带的所述周期性部分进行参照的装置,所述多媒体数据的特征在于帧间以及传送帧内信息的周期性部分的混合帧。所述接收机还包括用于至少部分地利用所述周期性部分显示多媒体数据的装置。
在另一个实施例中,包含于在I帧之间找到的混合帧中的预定帧内数据部分不需要进行组合以覆盖整个视频帧。并且,由包含于混合帧中的帧内数据所覆盖的总面积不需要覆盖图象中不太重要的区域。该确定可以但不限于采用忽略视频帧的角落、顶部和底部,或者边缘的形式。此外,编码器可以确定图象序列的特殊区域具有比其它区域更一致的运动,并产生规则的用于误码弹性目的的混合帧。
因此,视频流中混合帧之间的间隔不一定是相等的或周期性的。通过利用H帧,可以增加全I帧之间的间隔,从而减少期望的QoS所需要的总BW。
更确切地,帧内数据的大小和位置可以大致集中于图象的中间,并且,在I帧之后,每个相继的H帧可以比在前的H帧包含更多的帧内数据,直到最后一个H帧的帧内数据实际上几乎覆盖了整个帧(即,几乎整个I帧)。并且,如果需要,在两个I帧之间的相继H帧所携带的帧内数据量可以变化。
部分帧内(fractional intraframe)(也称为F帧)也可以用于携带帧内数据。F帧类似于H帧,但其不包含帧间数据,而是仅携带部分的帧内数据。由于最后的I帧或H帧覆盖了图象的相同区域,如果接收装置确定对于由F帧覆盖的区域而言所见的误差足够少,则不必解码所述F帧。
在采用了分层的系统中,H和/或F帧可以用在一层或所有层上。类似的实现将仅在基本层(base layer)上包括H帧和F帧。
H帧和F帧的帧内数据不必限于通过分组水平线而组成的矩形形状。不同的几何形状都可用于包含帧内数据。
本发明的细节,如其结构和操作,可参照附图得到更好的理解,其中,类似的参考数字指示类似的部分,并且,其中
图1为本系统的框图;图2为根据本发明的帧组合的示意图;图3为组合的混合帧的示意图;以及图4为用于生成混合帧的过程的流程图。
具体实施例方式
最初,参照图1,示出了通常用10指示的系统,其包括无线广播系统12,此广播系统12利用优选的单向信道14,以多媒体视频流的形式向无线移动台16(为清楚起见,仅示出了单个移动台16)无线地广播数字多媒体内容。广播系统12和移动台16可以包括各自的处理器。
所述多媒体流可以来自一个或多个与所述广播系统12通信或者相关联的数据源18。所述广播系统12可以使用,但不限于,CDMA原理、GSM原理或其它无线原理,包括宽带CDMA(WCDMA)、cdma2000(如,cdma20001x或3x空中接口标准)、TDMA或TD-SCDMA,及OFDM。如果需要,或者也可以在双向点对点链路上提供所述多媒体内容,例如,蓝牙链路或802.11链路或CDMA链路或GSM链路。在任何情况下,所述移动台16可包括音频、视频或音频/视频(AN)显示器20,以在显示器20上呈现所述多媒体流。
依照本发明,图2示意性地示出了单个帧序列,即,相关帧的组或组合。图2和图3图示性地说明了帧,实际上,当然,所传输的多媒体流为符号流,其合在一起表示图2和图3中所示的物理帧。
如图2所示,全帧内22可以为组的初始帧。然而,由于随后的帧内信息由如下进一步讨论的混合帧携带,所述全帧内22在一些实施例中是可选的。在任何情况下,所述优选的帧内22基本上为单个完整的JPEG型、基于DCT的或独立的图象或参考帧。因此,依据前述原理,所述帧内22基本上由表示已编码量化的DCT值的符号组成,所述DCT值又表示视频帧的像素。
视频序列中的图象帧组被组合在一起以进行处理。这个分组被称为GOP,或图象组。各GOP包含至少一个帧内(典型地,仅一个帧内)。GOP中的帧还包括帧间,其包括预测帧24和双向帧26。并且,依照以下进一步说明的原理,单组帧中的所述帧可包括混合帧28。除了其包含帧内信息的预定部分以外,混合帧28基本上与帧间24、26类似。
更确切地,如图3所示,各混合帧28包括常规帧间信息30和帧内信息32。所述帧间信息可以包括,例如,参考其它帧中的块的向量,而帧内信息包括表示像素的帧内信息,即,基于DCT的值,诸如已编码量化的DCT值,或者为表示空间像素强度的其它值。
对于所述优选实施例而言,与可能包含与在任意(从计划性角度)时间和位置出现的新对象相关的帧内信息的常规帧间不同,混合帧28可包括帧内的预定周期性部分。即,GOP的所述混合帧相继地包含表示几何上相继的帧内区域的帧内信息。更确切地,所述第一混合帧28包括帧内的第一部分,GOP中的所述第二混合帧包括第二帧内部分,优选地,其几何上相继于所述第一帧内部分,等等,即,GOP中的第N个混合帧包括第N个帧内部分。所述部分可以是表示帧内的M行的信息,而组中的所有帧内部分一起组成完整的帧内。这样,当每个帧内部分为帧内信息的M行时,N*M=单个帧中的总行数。组中的混合帧的帧内部分,在表示预定的帧内的不同几何区域时,可以表示或不表示单个JPEG图象或者被从单个JPEG图象导出。在其它实施例中,混合帧的所述帧内部分不必表示完整的帧。此外,可选的形状可以用来包含所述帧内数据,例如,竖线、圆形、方形等。
取代图象行,所述帧内部分可以是音频频带、用于视频的对象或对象类型、文本等。
上述部分帧内(F帧)基本上与图3所示的任何一个混合帧相同,除了其不包含帧间信息部分30,而仅包含部分的帧内部分32。
图4示出了在图2和图3的示意图中说明的逻辑。块34表示为每个GOP输入的DO循环的开始,其被理解为所述帧已被分成为组合,依据MPEG原理,该组合的每一个均包括一个或多个全帧内以及多个帧间。处理后,GOP可包括一个完整帧内,后面跟随有常规帧间和混合帧。例如,GOP可包括十个常规帧间和五个混合帧,所述混合帧的每一个均传送帧内的不同的五分之一部分,或许以及一个初始的、完整的帧内。不管是否提供了全帧内,所述常规帧间可参照所述混合帧的帧内部分,或者,如果提供了全帧内,所述帧间可参照此全帧内,而仅在所述全帧内丢失时才参照所述混合帧。
同样对于所述优选实施例而言,移动到块36,每个第P帧间可被选为预期的混合帧。总共N个帧间被选中。从而,在上例中,选择十五帧中的每一个第三帧间(P=3),从而生成(N=5)混合帧。“P”的值可在从一到十或者以上之间变化。实际上,“P”的值可在单个多媒体流中,依赖于诸如运动程度等变化。
P和N的选择不必增加至等于GOP的长度或GOP-1的长度。如果所述系统需要更高的误码弹性,可将所述混合帧更紧密地放置在一起。相反,如果仅需要较低的误码弹性,可以更分离地放置所述混合帧。注意到,帧内之间的距离将很可能与混合帧之间的距离一起变化。
进行到块38,对于每一个第i个预期的混合帧,i=1,2,......N,到块40的所述逻辑循环通过将仅参照帧内的1/N部分的第i个帧间信息部分替换为表示帧内的第i个1/N部分的帧内信息来将所述帧译成混合帧。在将所述帧内部分划分成每一个M行的情况下,参考第一混合帧中的第一M个帧内行被替换为帧内的第一M行,参考第二混合帧中的第二M个帧内行被替换为帧内的第二M行,等等。很可能地,M将被选为通常设置为16行的宏块高度的倍数。当图4指出实际的帧间参考被帧内部分替换,可以理解,混合帧可以被“从头开始”生成,即,通过利用传送帧间信息的所述帧的剩余部分生成初始具有帧内的第i个1/N部分的新帧。在任何情况下,所述优选的系统使得每个混合帧包含帧内的周期性部分,其中每个第i周期性部分表示第i帧内区域,此第i帧内区域与由第i-1混合帧的第i-1周期性部分所表示的第i-1区域在几何上相邻,并与由第i+1混合帧的第i+1周期性部分所表示的第i+1区域在几何上相邻。
在其它实施例中,混合帧中帧内数据的形状和大小不必等于或覆盖整个图象帧大小或被规则的间隔分开。例如,如果存在具有规则的较大运动或较高兴趣的图象区域,无论误差校正是否实际需要任何帧内数据,所述混合帧均可以提供额外的帧内数据。
所述移动台16接收多媒体流并解码其中的信息,包括所述混合帧,移动台16利用所述帧间进行参照,选择性地或者否则,所述混合帧中携带的帧内部分用于多媒体显示。移动台16中的处理器可用于此目的。
现在可注意到,如果发生了整帧丢失,仅有混合帧之前的帧间是毫无用处的。混合帧之后的帧间至少可以参照那些混合帧中的第i帧内部分,从而提供可测量的QOS。
在此示出并详细描述的用于无线多媒体传输的局部帧内编码的特殊系统和方法完全能够实现本发明的前述目的,可以理解到,其为本发明的当前优选实施例,并因此代表了本发明深入考虑的主题,本发明的范围完全涵盖对于本领域技术人员而言显而易见的其它实施例,并且因此,本发明的范围仅由所附权利要求所限制,其中,除非明确说明,单数形式的要素并不意味着“一个并且仅为一个”而表示“一个或多个”。所有为本领域普通技术人员已知或将知的在结构和功能上等同于前述优选实施例中的要素的内容特别地通过参考合并于此,并意在由本发明包括。此外,并不需要某个装置或方法来解决本发明寻求解决的任何一个问题,因为,这已包括在本权利要求中。另外,本发明公开中的要素、组件或方法步骤均不意在贡献于众,无论所述要素、组件或方法步骤是否在所述权利要求中进行了明确陈述。在此权利要求的要素均不在35 U.S.C′112第六段的规定下进行解释,除非所述要素明确用短语“用于...的装置”进行陈述,或者,在方法权利要求的情况下,所述要素陈述为“步骤”而不是“动作”。
权利要求
1.一种通信系统,包括处理器,其接收多媒体数据并承担如下逻辑将所述多媒体数据分成帧间信息和帧内信息;建立至少N个混合帧,该建立至少部分地通过以下方式进行建立至少一个混合帧,以具有表示至少一个预定周期性帧内部分的信息和至少一些帧间信息。
2.根据权利要求1的系统,其中,所述处理器建立所有混合帧,以具有表示M个帧内行的信息。
3.根据权利要求1的系统,其中,第一混合帧包括表示第一M个帧内行的信息。
4.根据权利要求3的系统,其中,第二混合帧包括表示第二M个帧内行的信息。
5.根据权利要求1的系统,其中,所述多媒体数据被基于所述数据中的对象进行划分。
6.根据权利要求1的系统,其中,第一混合帧包括具有大小和形状的第一帧内信息部分,第二混合帧包括具有大小和形状的第二帧内信息部分,所述第一帧内部分的大小和形状中的至少一个不同于所述第二帧内部分相应的大小和形状。
7.根据权利要求1的系统,其中,所述多媒体数据为数字的。
8.根据权利要求1的系统,其中,利用CDMA原理、GSM原理以及OFDM原理中的至少一种来广播所述多媒体数据。
9.根据权利要求1的系统,其中,在单向链路上广播所述多媒体数据。
10.根据权利要求1的系统,其中,在双向点到点链路上传输所述多媒体数据。
11.根据权利要求1的系统,进一步包括至少一个无线接收机,其接收所述多媒体数据。
12.一种与无线接收器通信以帧内信息和帧间信息为特征的多媒体数据的方法,包括传送混合帧间中的一部分帧内,所述混合帧间基于以下至少一个生成预定间隔、至少一个感兴趣的帧位置,以及在所述多媒体数据中表示的运动速率。
13.根据权利要求12的方法,其中,所述帧内的一部分包括表示像素信息的量化的离散余弦变换(DCT)的信息。
14.根据权利要求13的方法,其中,所述表示量化的DCT的信息被编码。
15.根据权利要求12的方法,其中,第一混合帧包括具有大小和形状的第一帧内信息部分,第二混合帧包括具有大小和形状的第二帧内信息部分,所述第一帧内部分的大小和形状中的至少一个不同于所述第二帧内部分相应的大小和形状。
16.根据权利要求15的方法,其中,所述第一混合帧包括关于在视频帧中所述帧内部分的位置的信息。
17.根据权利要求12的方法,其中,由第一混合帧传送的帧内的一部分表示视频帧的第一M行。
18.根据权利要求17的方法,其中,由与所述第一混合帧相关联的GOP中的第二混合帧传送的帧内的一部分表示视频帧的第二M行。
19.根据权利要求12的方法,其中,由GOP中第N个混合帧传送的帧内的一部分表示视频帧的第N个M行。
20.一种用于显示多媒体数据的无线接收机,所述多媒体数据的特征至少在于帧间以及至少一些传送帧内信息的周期性部分的混合帧,此接收机包括用于所述帧间以参考所述混合帧中携带的所述周期性部分的装置;以及至少部分地利用所述周期性部分来显示多媒体的装置。
21.根据权利要求20的接收机,其中,一组帧中的第i混合帧的周期性部分为帧内的第i部分。
22.根据权利要求20的接收机,其中,各周期性部分包括帧内信息的M行。
23.根据权利要求20的接收机,其中,每个第i周期性部分表示第i帧内区域,此第i帧内区域与由第i-1混合帧的第i-1周期性部分所表示的第i-1区域以及由第i+1混合帧的第i+1周期性部分所表示的第i+1区域中的至少一个在几何上相邻。
24.一种多媒体数据结构,包括多个帧的组合,每一组包括N个混合帧,每一个传送各自的第i帧内部分以及帧间信息。
25.根据权利要求24的数据结构,其中,由包含在所述混合帧中的帧内数据部分共同建立全帧内。
26.根据权利要求24的数据结构,其中,不由包含在所述混合帧中的帧内数据部分共同建立全帧内。
27.根据权利要求24的数据结构,其中,每一组包括至少一个全帧内。
28.根据权利要求24的数据结构,其中,每一组没有包括全帧内。
29.根据权利要求24的数据结构,其中,混合帧的每一个帧内部分表示M个帧内行。
30.根据权利要求29的数据结构,其中,所述行可以表示帧内的水平部分或帧内的垂直部分。
31.一种通信系统,包括处理器,其接收多媒体数据并承担如下逻辑将所述多媒体数据分成帧间信息和帧内信息;建立至少N个部分帧内(F帧),该建立至少部分地通过以下方式进行建立至少一个部分帧,以具有表示至少一个帧内部分的信息,所述帧内部分仅表示一部分全帧内,并且没有帧间信息。
32.根据权利要求31的系统,其中,接收机基于误差校正需要选择性地解码F帧。
全文摘要
数字多媒体包括帧内信息和帧间信息。除了发送由帧间参照的分离的完整帧内以外,一些帧间(“混合”帧)包含部分的帧内信息,使得如果完整帧内丢失,参考帧间可以从所述混合帧获得至少一些帧内信息。
文档编号H04N7/12GK1774925SQ200480010254
公开日2006年5月17日 申请日期2004年3月17日 优先权日2003年3月17日
发明者R·D·莱恩 申请人:高通股份有限公司