专利名称:使用各种运动模型的编码器辅助式帧速率提升转换的制作方法
技术领域:
本发明针对一种用于编码视频数据的方法和设备。
技术背景如今存在多种支持各种帧速率的视频格式。以下格式为当前最流行的,按其所支持 的每秒帧数(fps)的次序进行列举24(电影原始)、25(PAL)、 30(通常为交错式视频)和60(高 清晰(HD),例如720p)。尽管这些帧速率适用于大多数应用,但为了达到移动手持机视频 通信所需要的低带宽,帧速率有时降低到低达15、 10、 7.5或3fps的速率。尽管这些低 速率允许具有较低计算能力的低端装置显示一些视频,但所得视频质量遭受"急动"(S卩, 具有幻灯片演示效果),而并非平滑运动。而且,降低的帧通常不会正确追踪视频中的运 动量。举例来说,在例如那些发生在体育赛事中的"高速运动"视频内容部分期间,应 丢失较少的帧,而在例如那些发生在脱口秀中的"低速运动"视频内容片段期间,可丢 失较多的帧。视频压縮取决于内容,且需要其能够分析并并入待编码的序列中的运动和 纹理特征,以便改进视频压縮效率。帧速率提升转换(FRUC)是在视频解码器处使用视频内插以增加经重建视频的帧速 率的过程。在FRUC中,通过使用所接收的帧作为参考来建立内插帧。目前,实施FRUC 帧内插(下文称为"内插帧")的系统包括基于运动补偿内插的方法和传输运动向量的处理。 FRUC也用于各种视频格式之间的转换。举例来说,在电视电影与反向电视电影应用(矫 正电影与视频之间的各自色彩帧速率差异的电影到录影带转移技术)中,逐行视频(24帧/秒)转换成NTSC交错式视频(29.97帧/秒)。另一 FRUC方法使用加权自适应运动补偿内插(WAMCI),以减少由运动估计和基于 区块的处理的不足所导致的区块假象。此方法是基于对多个运动补偿内插(MCI)图像进行 加权求和的内插。在所提议的方法中,也通过应用类似于重叠区块运动补偿(OBMC)的技 术来减少区块边界上的区块假象。具体来说,为了在重叠区域处理期间减少混乱,所述 方法使用运动分析来确定区块运动的类型并自适应地应用OBMC。实验结果表明所提议 的方法达成了改进的结果,区块假象显著减少。又一 FRUC方法使用向量可靠性分析来减少由使用从编码器不准确地传输的任何运 动向量而导致的假象。在此方法中,运动估计用于建构运动向量,将所述运动向量与所 传输的运动向量进行比较以确定用于帧内插的最合乎需要的方法。在使用运动估计的常 规提升转换算法中,通过使用两个邻近解码的帧以建构将允许内插帧的运动向量来执行 估计过程。然而,这些算法试图改进传输带宽的利用率,而不管运动估计操作所需的计 算量。相比而言,在使用传输的运动向量的提升转换算法中,内插帧的质量很大程度上 取决于由编码器导出的运动向量。通过使用两种方法的组合,首先分析传输的运动向量 以决定其是否可用于建构内插帧。接着从以下三种方法中自适应地选择用于内插的方法 局部运动补偿内插、全局运动补偿内插和帧重复内插。尽管FRUC技术一般被实施为视频解码器中的后处理功能,但此操作中通常不涉及 视频编码器。然而,在称为编码器辅助式FRUC(EA-FRUC)的方法中,编码器可确定是 否可消除与运动向量或参考帧(例如,残余数据)有关的特定信息的传输,同时仍允许解码器自主地重新产生不具有消除的向量或残余数据的帧的主要部分。举例来说,己引入双 向预测视频编码法作为对MPEG-2中的B帧编码的改进。在此方法中,提议使用错误准 则以使得在运动补偿预测编码中能应用真实运动向量。失真测量是基于绝对差总和 (SAD),但已知此失真测量不足以提供真实失真测量,尤其在将要量化序列中两个帧之间 的运动量的情况下。另外,(最佳情况)当这些阈值应随着分类优选是取决于内容而可变时, 通过使用固定阈值来给阈值中的变化分类。FRUC视频压縮技术,包括那些利用编码器增强信息的技术,使用基于区块的运动 预测,其具有平移运动模型以在视频帧内给对象的运动建模。基于区块的运动预测开发 了视频信号所固有的时间相关结构。如基于区块的运动预测所使用的平移运动建模可为 保持刚性形状且同时在或多或少平行于视频俘获装置的透镜的平面中经历平移运动的主 体减少或消除视频信号中的时间冗余。平移运动模型在每个编码区块使用两个参数。在运动补偿预测和基于变换编码的混合视频压縮中,由常规编码器根据平移运动模 型的使用而分割视频帧,其中产生分区以便定位保持刚性形状且同时经历平移运动的对 象主体。举例来说,在汽车经过时一个人对着摄影机讲话的视频序列可分割为以下对象, 包括代表所述序列的固定背景的静止图像、代表讲话人的头部的视频对象、代表与所 述人相关联的声音的音频对象和作为具有矩形支持区域的子画面的代表运动汽车的另一 视频对象。所述子画面在静止图像上的位置可随时间移动。遗憾的是,平移模型运动预测不能准确地预测或描述每区块需要两个以上参数的运 动中的对象的运动。结合摄像机运动和焦距改变的独立运动的对象导致复杂的运动向量 场,必须有效地近似所述运动向量场以用于运动预测。因此,残余信号(也称为预测错误) 具有相当大的功率,且因此含有这些运动的视频帧对压縮来说是无效的。当通过使用基 于区块的运动预测来内插含有这些对象的视频帧时,归因于平移运动模型框架描述区块 运动动态的限制,内插帧的主观和客观质量两者均较低。此外,当根据平移模型运动预 测来分割视频序列时,处理经历任意运动和变形的对象的内插的算法的有效性受到限制。需要一种在解码器装置处提供高质量内插帧的方法,其适当地给运动对象建模,同 时减少传输用于执行内插的信息潜在所需的带宽量,且其也减少产生这些帧潜在所需的 计算量,以便使其良好适用于依赖低功率处理的多媒体移动装置。发明内容本文所揭示的某些方面提供一种编码器辅助式帧速率提升转换(EA-FRUC)系统,其在视频编码器处除了利用视频编码和预处理操作之外也利用各种运动模型以开发将在解 码器中发生的FRUC处理,以便改进运动对象的建模、压縮效率和经重建视频的质量。在一个方面中,揭示一种处理多媒体数据的方法。所述方法包含将第一和第二视 频帧中的至少一者划分为多个分区;为所述分区中的至少一者中的至少一个对象确定建 模信息,所述建模信息与第一和第二视频帧相关联;基于所述建模信息而产生内插帧; 以及基于所述内插帧而产生编码信息,其中所述编码信息用于产生在时间上与内插帧共 同定位的视频帧。在另一方面中,揭示一种用于处理多媒体数据的设备。所述设备包含用于将第一 和第二视频帧中的至少一者划分为多个分区的装置;用于为所述多个分区中的至少一者 中的至少一个对象确定建模信息的装置,所述建模信息与第一和第二视频帧相关联;用 于基于所述建模信息而产生内插帧的装置;以及用于基于所述内插帧而产生编码信息的 装置,其中所述编码信息用于产生在时间上与内插帧共同定位的视频帧。在另一方面中,揭示一种用于处理多媒体数据的设备。所述设备包含分割模块, 其经配置以将第一和第二视频帧中的至少一者划分为多个分区;建模模块,其经配置以 为所述多个分区中的至少一者中的至少一个对象确定建模信息,所述建模信息与第一和 第二视频帧相关联;帧产生模块,其经配置以基于所述建模信息而产生内插帧;编码模 块,其经配置以基于所述内插帧而产生编码信息;和传输模块,其经配置以将所述编码 信息传输到解码器。在又一方面中,揭示一种包含用于处理多媒体数据的指令的机器可读媒体。所述指 令在执行时致使机器将第一和第二视频帧中的至少一者划分为多个分区;为所述多个 分区中的至少一者中的至少一个对象确定建模信息,所述建模信息与第一和第二视频帧 相关联基于所述建模信息而产生内插帧;且基于所述内插帧而产生编码信息,其中所 述编码信息用于产生在时间上与所述内插帧共同定位的视频帧。在另一方面中,揭示一种用于处理多媒体数据的处理器。所述处理器经配置以将第 一和第二视频帧中的至少一者划分为多个分区;为所述多个分区中的至少一者中的至少 一个对象确定建模信息,所述建模信息与第一和第二视频帧相关联;基于所述建模信息 而产生内插帧;且基于所述内插帧而产生编码信息,其中所述编码信息用于产生在时间 上与所述内插帧共同定位的视频帧。所属领域的技术人员将从以下详细描述中明白其它目的、特征和优点。然而,应了 解,详细描述和具体实例在指示示范性方面的同时以说明而非限制的方式给出。在不偏离其精神的情况下,可在以下描述中作出很多变化和修改,且应将所述描述理解为包含所有这些修改。
图1A说明根据用于传递串流视频的一个方面的实施使用各种运动模型的编码器辅 助式帧速率提升转换(EA-FRUC)系统的通信系统的实例。图1B说明根据用于传递串流视频的一个方面的经配置以使用各种运动模型的 EA-FRUC装置的实例。图2为说明图1A的经配置以使用各种运动模型的EA-FRUC系统的操作的流程图。图3为说明通过使用基于对象的建模信息和解码器信息来编码视频数据以用于提升 取样的流程图。图4为说明根据本发明的一个方面的为视频帧中的对象确定建模信息的流程图。 图5为说明通过使用仿射模型来为视频帧中的对象确定运动向量侵蚀信息的流程8图。图6为根据本发明的某些方面的通过使用经配置以在平移运动模型框架内解码运动 模型的解码器装置来解码通过使用基于对象的建模信息和解码器信息而经提升取样的经 编码视频数据位流的流程图。
具体实施方式
如本文所述,在编码器辅助式FRUC(EA-FRUC)系统的一个方面中,编码器能够存 取源帧以及解码器上所使用的FRUC算法的先前知识。编码器进一步经配置以使用各种 运动模型(包括平移运动模型)以准确地给源帧中的运动对象建模。使用由此产生的内插帧 的编码器传输额外信息以辅助解码器执行FRUC且改进内插期间所作出的决策。利用关 于FRUC将在解码器中执行的知识,EA-FRUC系统在视频编码器处利用各种运动模型、 视频编码和预处理操作以改进压缩效率(进而改进传输带宽的利用)和经重建视频的质量 (包括经重建运动对象的表示)。具体来说,来自编码器的各种运动模型信息(例如仿射运 动建模)可补充或代替提供到解码器的通常由编码器传输的信息,以使得运动建模信息可 用于编码器辅助式FRUC。在一个方面中,由编码器提供的信息包括例如将要在解码器处内插的图像的空间(例 如,精细化、模式决策、相邻者特征)和时间(例如,运动向量决策)特征的参数以及关于 正常预测(B或P)帧编码与由FRUC过程所产生的内插帧的差动信息。由编码器提供的信 息进一步包括各种运动模型,所述运动模型经选择以准确且有效地表示来自原始视频流 的运动对象。若干运动预测技术除用于平移运动之外也可用于视频压縮。额外运动类型包括旋 转运动;放大和縮小运动;变形,其中场景对象的结构和形态中的变化违背刚性主体的 假设仿射运动;全局运动;和基于对象的运动。仿射运动模型支持多个运动类型,包 括平移运动、旋转运动、剪切、平移、变形和在放大和縮小情景中使用的对象縮放。与 平移模型相比,仿射运动模型更为通用,因为其并入有这些其它运动类型。由于旋转、 縮放和剪切的原因,仿射运动模型在每个经编码的区块中使用六个参数。因此,其对于 场景中的对象的实际动态运动具有更高的适应性。基于对象的运动预测技术用于含有经历不同运动类型的多个对象的场景的视频帧。 在这些情况下,单个运动模型将不能有效地俘获不同动态,但作为替代,可使用大量模 型,其中针对场景中的每一对象区别地定制个别模型。本文所论述的编码器装置的某些方面评估解码器装置的特性,所述解码器装置将用于解码由编码器装置编码的数据并优化视频数据的编码以便在内插帧时改进解码器装置 处的压缩效率、性能和对象再现。举例来说,解码器装置可改进FRUC或错误隐蔽。在 一个方面中,视频帧基于行为、时间变化动态或可唯一识别的对象而被分割成通常具有 非均一大小和非均一形状的区域集合。根据某些方面,编码器装置分析视频数据(在可变 持续时间的片段中)以便定位全局运动。在定位有全局运动的地方,通过使用各种运动模 型(例如仿射运动模型)来估计相关模型参数和信号。接着可建立仿射运动模型,其描述每 个对象或分区的平移、旋转、縮放和形态变化变换。接着,可使用分区信息连同相关联 的模型产生预测信号,所述预测信号可减少残余信号的功率。分区映射连同相关联的模 型(包括类型和参数信息)被传输到解码器装置。残余信号可被单独压縮且也可发送到解码 器装置以允许更高质量的重建。在某些方面中,解码器装置接着可通过使用关于经修改 平移运动模型框架内的经编码运动模型的信息来分析经编码数据。某些方面描述用于识别对象的过程,其大大减少了用于在解码器装置上再现对象的 编码所必需的信息量。在那些方面中的一些方面中,通过使用图像分段、基于图形的技 术或场景组成信息而识别一个背景对象和任何数目的前景对象。接着对背景对象进行分 类。 一旦对视频序列的子片段或整个视频序列执行并完成包含上述两个步骤的基于对象 的场景分析,每一对象和其动态行为的演进可由适当的运动-变形模型来准确描述。举例 来说,对于经历均一平移运动的对象来说,整个轨迹可由运动向量(相对于标称帧间持续 时间而标准化)来简单地描述。结合此对象的单个快照的视觉数据的此信息可用于将此对 象正确地再现于解码器装置上,直到对象移出场景为止,或直到其运动或视觉属性中的 一些改变为止。对象的运动或视觉属性中的一者的变化可用于识别对象的最小非均一时 间取样图案。以类似方式,可针对场景中先前所识别的对象确定可能相当复杂的运动轨迹和包藏属性。在以下描述内容中,给出具体细节以提供对所述方面的全面理解。然而,所属领域 的技术人员将了解,可在不存在这些具体细节的情况下实践所述方面。举例来说,可在 方框图中展示电组件,以便不以不必要的细节来混淆所述方面。在其它情况下,可详细 展示这些组件、其它结构和技术以进一步解释所述方面。也注意到,所述方面可被描述为一过程,所述过程被描绘为流程表、流程图、结构 图或方框图。尽管流程表可将操作描述为连续过程,但可平行或同时执行所述操作中的 很多操作,且可重复所述过程。另外,可重新布置所述操作的次序。过程在其操作完成 时终止。过程可对应于方法、函数、程序、常规程序、子程序等。当过程对应于函数时,其终止对应于所述函数返回到调用函数或主函数。图1A说明根据用于传递串流视频的一个方面的实施使用各种运动模型的编码器辅 助式帧速率提升转换(EA-FRUC)系统的通信系统的实例。所述系统100包括编码器装置 105和解码器装置110。编码器装置105包括帧产生器115、建模器120、分割器160、多媒体编码器125、 存储器组件130、处理器135和接收器/发射器140。处理器135通常控制所述示范性编 码器装置105的整体操作。分割器组件160将视频帧分割成不同区块,使得运动模型可与视频帧的子集区域相 关联。运动-变形信息的分析可成功地用于对初始场景/帧进行分段且可用于确定需要压縮 并传输的帧的最小时间取样,所述需要压缩并传输的帧与可基于所传输的帧的数据而成 功地内插的帧形成对比。在某些方面中,取样例子的(最小)数目是基于运动-变形动态何 时经历变化。因此,可基于运动-变形动态的适当的分段来执行合适的帧内插。建模器组件120经配置以确定运动模型并使所述运动模型与在组成场景的视频帧中 发现的对象相关联。帧产生器组件115通过使用来自原始视频流的数据以及关于将用于解码由编码器装 置105传输的数据的解码器的信息来产生内插帧。在题为"用于视频压縮的编码器辅助 式帧速率提升转换(EA-FRUC)的方法和设备(Method and apparatus for encoder assisted-frame rate up conversion (EA-FRUC) for video compression)"的第2006/0165176号中美国专利公开案论述了用于产生内插帧的系统和方法,所述公开案以全文引用的方 式并入本文中。多媒体编码器125可包括子组件,所述子组件包括变换器/量化器组件,其将视频(或 音频或闭合字幕本文)数据从空间域变换和/或量化到另一域,例如在DCT(离散余弦变换) 情况下变换和/或量化到频率域。所述多媒体编码器也可包括熵值编码器组件。所述熵值 编码器组件可使用上下文自适应可变长度编码(CAVLC)。经编码的数据可包括经量化的 数据、经变换的数据、经压縮的数据或其任何组合。存储器组件130用于存储信息,所 述信息例如为待编码的原始视频数据、待传输的经编码视频数据、标头信息、标头目录 或正由各种编码器组件操作的中间数据。在此实例中,接收器/发射器组件140含有用于从外部源145接收待编码的数据的电 路和/或逻辑。外部源145可为(例如)外部存储器、因特网、现场视频和/或音频馈入,且 接收数据可包括有线和/或无线通信。发射器140也含有用以在网络150上传输(Tx)经编码数据的电路和/或逻辑(例如,发射器)。网络150可为例如电话、电缆和光纤的有线系 统或无线系统的一部分。在无线通信系统的情况下,网络150可包含(例如)码分多址 (CDMA或CDMA2000)通信系统的一部分,或者所述系统可为频分多址(FDMA)系统、正 交频分多址(OFDMA)系统、时分多址(TDMA)系统(例如用于服务行业的GSM/GPRS(通用 分组无线电服务)/EDGE(增强型数据GSM环境)或TETRA(陆地集群无线电)移动电话技 术)、宽带码分多址(WCDMA)、高数据速率(lxEV-DO或1xEV-DO GoldMulticast)系统或 一般来说采用技术组合的任何无线通信系统。所传输的数据可包括多个位流,例如视频、 音频和/或闭合字幕。应注意,可省略、重新布置和/或组合图1中所展示的编码器装置105的一个或一个 以上元件。举例来说,处理器组件135可在编码器装置105外部。解码器装置110与编码器装置105含有类似组件,包括多媒体解码器165、存储器组 件170、接收器175和处理器180。解码器装置IIO接收己经由网络150或从外部存储装 置185传输的经编码多媒体数据。接收器175含有用于结合网络150而接收(Rx)经编码 数据的电路和/或逻辑,以及用于从外部存储装置185接收经编码数据的逻辑。外部存储 装置185可为(例如)外部RAM或ROM、或远程伺服器。多媒体解码器165含有用于解码所接收的经编码多媒体位流的电路和/或逻辑。多媒 体解码器165的子组件可包括去量化组件、反变换组件和各种错误恢复组件。所述错误 恢复组件可包括低级错误检测与校正组件(例如里德-所罗门(Reed-SoIomon)编码和/或 涡轮(Turbo)编码)以及用于代替和/或隐蔽不可由低层方法校正的数据的上层错误恢复 和/或错误隐蔽。经解码多媒体数据可由显示组件190显示、存储在外部存储装置185中或存储在内 部存储器组件170中。显示组件190可为解码器装置110的整合部分。显示组件190含 有例如视频和/或音频显示硬件和逻辑的部分,包括显示屏幕和/或扬声器。显示组件190 也可为外部周边装置。在此实例中,接收器175也含有用于将经解码的多媒体数据传送 到外部存储组件185或显示组件190的逻辑。.应注意,可省略、重新布置和/或组合图1中所示的解码器装置110的一个或一个以 上元件。举例来说,处理器180可位于解码器装置110的外部。图1B说明根据用于传递串流视频的一个方面的经配置以使用各种运动模型的 EA-FRUC装置155的实例。经配置以使用各种运动模型的EA-FRUC装置100包括用于 划分第一和第二视频帧的模块161、用于确定建模信息的模块121、用于产生内插帧的模块116以及用于产生编码信息的模块126。在一个方面中,用于将第一和第二视频帧中的至少一者划分为多个分区的装置包含 用于划分第一和第二视频帧161的模块。在一个方面中,用于确定所述多个分区中的至 少一者中的至少一个对象的建模信息的装置包括用于确定建模信息121的模块。在一个 方面中,用于基于所述建模信息而产生内插帧的装置包括用于产生内插帧116的模块。 在一个方面中,用于基于所述内插帧而产生编码信息的装置包括用于产生编码信息126 的模块。图2为说明图1A的经配置以使用各种运动模型的EA-FRUC系统的操作的流程图。 首先,在步骤201处,如将参看图3进一步详细论述,通过使用基于对象的建模信息和 关于解码器装置110的信息来编码视频数据以用于提升取样。接着,在步骤202处,将 经编码的信息传输到解码器装置110。在某些方面中,将经编码的信息从编码器装置105 的发射器模块140传输到解码器装置110的接收器175。在接收到经编码的信息后,在步 骤203处,在解码器装置110解码经编码的信息后完成所述过程,从而通过使用经编码 的基于对象的建模信息来再生原始视频数据的压縮版本。将参看图6来进一步详细论述 步骤203。图3为说明通过使用基于对象的建模信息和解码器信息来编码视频数据以用于提升 取样的流程图。首先,在步骤301中,如参看图4进一步详细论述,为视频帧中的对象 确定建模信息。接着,在步骤302中,使用关于希望用于解码经编码视频数据的解码系 统的信息以便进一步提升取样经编码的视频。最终,在步骤303中,产生经编码的视频 位流,如题为"用于在可縮放视频编码中适用帧速率提升转换的方法和设备(Method and Apparatus for Using Frame Rate Up Conversion Techniques in Scalable Video Coding)"的第 2006/0002465号美国专利公开案中所论述,其在此明确以全文引用的方式并入本文中。图4为说明根据本发明的一个方面的为视频帧中的对象确定建模信息的流程图。在 所说明的方面中,通过使用本文针对辨识经历任意运动和变形的对象而揭示的某些有利 技术而识别运动对象。在其它方面中,如现有技术中已知,可通过将运动补偿的预测和 基于变换编码的混合视频压縮方案均一地应用到每一视频帧来识别对象。此外,在所说 明的方面中,所使用的仿射模块覆盖视频帧的一部分,通常被称为基于对象的仿射模块 或局部GMC。在此情况下,编码器装置105执行对象分段以定位运动中的对象,接着通 过使用仿射模块本身和对象描述符两者来更新仿射模块估计。举例来说,二元位映射可 指示视频帧内的所描述对象的边界。在仿射模块覆盖整个视频帧的方面中,使用全局运动补偿(GMC)。对于GMC情况来说,仿射模型运动中所使用的六个参数用于描述帧的运 动,且被传输到解码器装置110,而无任何其它运动信息嵌入在位流中。在另外方面中, 可使用除仿射运动模型之外的运动模型。首先,在步骤401中,将视频帧分割为若干区块。在某些方面中,所述区块具有固 定大小和形状。在其它方面中,可基于包括显著运动-变形行为、区域内的时间变化动态、 可唯一识别的对象的因素中的一者或其组合而将帧分割为具有非均一大小和/或非均一 形状的区块。接着,在步骤402中,识别一个背景对象,且识别零或多个前景对象。在某些方面 中,可通过使用图像分段来进行识别。图像分段包括结合阈值处理来分析例如亮度和色 彩值的像素域属性,以及结合基于区域的方法来分析这些属性的某些统计,例如平均值、 方差、标准偏差、最小值-最大值、中值和其它。在其它方面中,可通过使用例如马克夫 (Markov)随机场或碎片形的纹理模型来进行识别。在其它方面中,可通过使用边缘/轮 廓线检测(包括对梯度图像的流域变换)和形状模型来进行识别。在其它方面中,可通过使 用保留连续性的基于松弛的分段方法(通常被称为主动轮廓线模型)来进行识别。在其它方 面中,可通过使用例如运动场的时间信息来进行识别。在某些方面中,可通过在统一框 架内使用上述图像分段方法中的一些或所有的组合而发生图像分段。在某些其它方面中,可通过使用基于图形的技术而识别对象,例如通过使用局部和 全局、语义和统计(强度/纹理)分组提示。在另外方面中,可通过使用可从制作工具获得 的场景组成信息来识别上文列举的对象。在某些方面中,可通过在统一框架内使用上述 识别方法中的一些或所有的组合来识别背景对象和任何前景对象。接着,在步骤403中,可对背景对象进行分类。在某些方面中,可将背景对象分类 为静止图像,在此情况下,所述背景对象的一个传输足够用于解码器装置110处的未来 帧内插和/或解码/重建任务。在其它方面中,可将背景对象分类为经历全局运动的静止(或 几乎静态)图像,所述运动例如为摇动、巻动、旋转、放大或縮小运动。在此情况下,编 码器装置105适当地选择以结合全局运动模型的描述而传输背景图像的某些取样状态。 所述传输可足够用于解码器装置110处的帧内插和/或解码/重建任务。在另外方面中,背 景对象的分类可不属于上述两类中的任一者,在此情况下,背景图像的状态的可能更密 集的时间取样可由编码器装置105传输以支持解码器装置110处的成功的帧内插和/或解 码/重建。接着,在步骤404中,处理从视频数据识别的对象的运动向量信息。可通过使用题为"用于运动向量处理的方法和设备(Method and Apparatus for Motion Vector Processing)" 的第2006/0018382号美国专利公开案中所揭示的系统和方法来处理运动向量信息,所述 公开案在此明确以全文引用的方式并入本文中。在步骤405中,经估计的仿射模型与运 动对象相关联。可至少基于逐段平面运动向量场近似法的性能中的降级来估计仿射模型。 如参看图5进一步详细论述,在步骤406中通过使用运动向量侵蚀信息来指定与每一经 识别的运动对象相关联的每一仿射模型,且在步骤407中通过使用基于运动的对象分段 来进一步指定。这些进一步指定用于在步骤408中更新每一各自仿射模型,且最终在为 所述仿射模型产生对象描述符时在步骤409中完成过程。图5为说明通过使用仿射模型来为视频帧中的对象确定运动向量侵蚀信息的流程 图。首先,在步骤501中,编码器装置105确定仿射模型以与运动对象相关联。接着, 在步骤502中,编码器装置105运动到视频帧的对象映射的第一宏区块,其中在步骤503 中,针对对象映射的每一宏区块,在决策状态504中,编码器105决定宏区块是否与来 自步骤501的所确定的仿射模型匹配。如果宏区块确实与所述仿射模型匹配,则在步骤 505中通过使用所述匹配的宏区块来更新仿射模型基础对象映射。接着,在步骤506中, 通过返回到步骤503,编码器装置105行进到下一宏区块。然而,如果所述宏区块不与 所述仿射模型匹配,则在步骤506中通过返回到步骤503,解码器装置直接行进到下一 宏区块。另外,完成所述过程。尽管使用平移模型的基于区块的运动补偿广泛地布署于解码器装置(装置的软件或 硬件方面)中,但为了在解码器装置中实施使用不同运动模型的EA-FRUC,在基于平移 区块的运动向量框架内描述来自编码器装置105的运动信息。在某些方面中,在解码器 装置110的基于平移区块的运动框架中描述不同运动模型的过程可针对具有较小区块大 小的区块运动向量递归地执行,以便为较大区块大小建立运动向量。通过使用关于在视频位流内编码的运动模型的信息,解码器装置iio通过使用用于 显示原始视频中的对象的一定数目的像素的一部分来为选定的运动对象产生运动向量。 在某些方面中,选定的像素可均匀地分布在区块内。在其它方面中,可从区块中随机地 选择像素。在某些方面中,区块的多个运动向量接着经合并以产生代表所述区块的单个运动向 量,且所述运动向量可进一步经受后处理(例如向量平滑化),如上文所述。在其它方面中, 选定的像素或对象的运动向量可用作用于运动估计模块的种子运动向量(seed motion vector),以便产生代表所关注的区块的运动向量。图6是说明根据本发明的某些方面使用经配置以在平移运动模型框架内解码运动模 型的解码器装置来解码使用基于对象的建模信息和解码器信息提升取样的经编码视频数 据位流的流程图。在步骤601中,解码器装置110接收用于包括两个参考帧的视频位流的经解码信息。 接着,在决策状态602中,解码器装置IIO决定所述位流是否包括编码器增强的内插帧。 如果包括编码器增强的内插帧,则在步骤603中,解码器装置除了使用参考帧之外也使 用内插帧(其包括与各种运动模型有关的编码器增强的信息)来产生在时间上与内插帧 共终端的视频帧。换句话说,解码器装置使用编码器增强的内插帧以及其相关联的参考 帧,以便产生代替内插帧的视频帧。然而,如果在步骤602中,解码器装置110决定编 码器增强的内插帧信息不嵌入在位流中,则在步骤604中,解码器装置IIO将使用参考 帧来产生双向帧(B帧)。所属领域的技术人员将了解,可使用多种不同工艺和技术中的任何一者来表示信息 和信号。举例来说,可由电压、电流、电磁波、磁场或粒子、光场或粒子或其任何组合 来表示可能贯穿上文描述内容而参考的数据、指令、命令、信息、信号、位、符号和码 片。所属领域的技术人员将进一步了解,结合本文所揭示的实例而描述的各种说明性逻 辑区块、模块和算法步骤可实施为电子硬件、计算机软件或两者的组合。为了清楚地说 明硬件与软件的此可互换性,上文已大体上从其功能性角度描述了各种说明性组件、区 块、模块、电路和步骤。将此功能性实施为硬件还是软件取决于特定应用和强加于整个 系统上的设计限制。熟练的技术人员可针对每一特定应用以不同方式来实施所述功能性, 但不应将这些实施决策解释为导致偏离所揭示的方法的范畴。可通过使用通用处理器、DSP、 ASIC、场可编程门阵列(FPGA)或其它可编程逻辑装 置、离散门或晶体管逻辑、离散硬件组件或经设计以执行本文所述的功能的其任何组合 来实施或执行结合本文所揭示的实例而描述的各种说明性逻辑区块、模块和电路。通用 处理器可为微处理器,但或者,所述处理器可为任何常规处理器、控制器、微控制器或 状态机。处理器也可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处 理器、结合DSP芯的一个或一个以上微处理器或任何其它此类配置。结合本文所揭示的实例而描述的方法或算法的步骤可直接在硬件、由处理器执行的 软件模块或两者的组合中实施。软件模块可驻存在RAM存储器、快闪存储器、ROM存 储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移除磁盘、CD-ROM或此项技术中所知的任何其它形式的存储媒体中。示范性存储媒体耦合到处理器,以使得处 理器可从存储媒体读取信息并将信息写入存储媒体。或者,存储媒体可与处理器成为一 体。处理器和存储媒体可驻存在ASIC中。ASIC可驻存在无线调制解调器中。或者,处 理器和存储媒体可作为离散组件而驻存在无线调制解调器中。提供所揭示的实例的前述描述以使得所属领域的技术人员能够制作或使用所揭示的 方法和设备。所属领域的技术人员将明白对这些实例的各种修改,且本文所界定的原理 可在不偏离所揭示的方法和设备的精神或范畴的情况下适用于其它实例。
权利要求
1. 一种处理多媒体数据的方法,其包含将第一和第二视频帧中的至少一者划分为多个分区;为所述分区中的至少一者中的至少一个对象确定建模信息,所述建模信息与所述 第一视频帧和第二视频帧相关联;基于所述建模信息产生内插帧;以及基于所述内插帧产生编码信息,其中所述编码信息用于产生在时间上与所述内插 帧共同定位的视频帧。
2. 根据权利要求l所述的方法,其中为所述分区中的一者中的至少一个对象确定建模 信息包含确定基于区块的运动场估计;基于所述基于区块的场估计而识别至少一个对象;以及 为所述至少一个对象确定仿射模型。
3. 根据权利要求1所述的方法,其进一步包含使用色彩特征来识别所述至少一个对象 的边界。
4. 根据权利要求1所述的方法,其进一步包含使用纹理特征来识别所述至少一个对象 的边界。
5. 根据权利要求1所述的方法,其进一步包含使用像素域属性来识别所述至少一个对 象的边界。
6. 根据权利要求l所述的方法,其进一步包含确定与所述分区中的一者相关联的运动向量侵蚀信息,其中所述传输的编码信息 包含所述运动向量侵蚀信息。
7. 根据权利要求1所述的方法,其中所述建模信息包含仿射模型。
8. 根据权利要求7所述的方法,其中所述仿射模型包含平移、旋转、剪切和縮放运动 中的至少一者。
9. 根据权利要求l所述的方法,其中所述建模信息包含全局运动模型。
10. —种用于处理多媒体数据的设备,其包含用于将第一和第二视频帧中的至少一者划分为多个分区的装置; 用于为所述多个分区中的至少一者中的至少一个对象确定建模信息的装置,所述建模信息与所述第一视频帧和第二视频帧相关联 用于基于所述建模信息产生内插帧的装置;以及用于基于所述内插帧产生编码信息的装置,其中所述编码信息用于产生在时间上 与所述内插帧共同定位的视频帧。
11. 根据权利要求IO所述的设备,其中所述确定装置包含用于确定基于区块的运动场估计的装置;用于基于所述基于区块的场估计识别至少一个对象的装置;以及 用于为所述至少一个对象确定仿射模型的装置。
12. 根据权利要求10所述的设备,其进一步包含使用色彩特征来识别所述至少一个对 象的边界。
13. 根据权利要求10所述的设备,其进一步包含使用纹理特征来识别所述至少一个对 象的边界。
14. 根据权利要求10所述的设备,其进一步包含使用像素域属性来识别所述至少一个 对象的边界。
15. 根据权利要求IO所述的设备,其进一步包含-用于确定与所述分区中的一者相关联的运动向量侵蚀信息的装置,其中所述传输的编码信息包含所述运动向量侵蚀信息。
16. 根据权利要求IO所述的设备,其中所述建模信息包含仿射模型。
17. 根据权利要求16所述的设备,其中所述仿射模型包含平移、旋转、剪切和縮放运 动中的至少一者。
18. —种用于处理多媒体数据的设备,其包含分割模块,其经配置以将第一和第二视频帧中的至少一者划分为多个分区; 建模模块,其经配置以为所述多个分区中的至少一者中的至少一个对象确定建模 信息,所述建模信息与所述第一视频帧和第二视频帧相关联; 帧产生模块,其经配置以基于所述建模信息产生内插帧; 编码模块,其经配置以基于所述内插帧产生编码信息;以及传输模块,其经配置以将所述编码信息传输到解码器。
19. 一种包含用于处理多媒体数据的指令的机器可读媒体,其中所述指令在执行时促使 机器将第一和第二视频帧中的至少一者划分为多个分区;为所述多个分区中的至少一者中的至少一个对象确定建模信息,所述建模信息与 所述第一视频帧和第二视频帧相关联; 基于所述建模信息产生内插帧;以及基于所述内插帧产生编码信息,其中所述编码信息用于产生在时间上与所述内插 帧共同定位的视频帧。 20.—种用于处理多媒体数据的处理器,所述处理器经配置以 将第一和第二视频帧中的至少一者划分为多个分区;为所述多个分区中的至少一者中的至少一个对象确定建模信息'所述建模信息与 所述第一视频帧和第二视频帧相关联; 基于所述建模信息产生内插帧;以及基于所述内插帧产生编码信息,其中所述编码信息用于产生在时间上与所述内插 帧共同定位的视频帧。
全文摘要
本发明提供一种编码器辅助式帧速率提升转换(EA-FRUC)系统,其除了利用视频编码器处的视频编码和预处理操作之外还利用例如仿射模型的各种运动模型来开发将在解码器中发生的FRUC处理,以便改进运动对象的建模、压缩效率和经重建视频的质量。此外,以一种减少用以在解码器装置上再现对象的编码所必需的信息量的方式来识别对象。
文档编号H04N7/26GK101313582SQ200680043307
公开日2008年11月26日 申请日期2006年9月27日 优先权日2005年9月27日
发明者塞伊富拉·哈立德·奥古兹, 方 石, 维贾雅拉克希米·R·拉韦恩德拉恩, 苏密特·辛格·塞蒂 申请人:高通股份有限公司