使用ρ域位分配的视频电话中的关注区编码的制作方法

文档序号:7637075阅读:236来源:国知局
专利名称:使用ρ域位分配的视频电话中的关注区编码的制作方法
技术领域
本揭示内容涉及数字视频编码,且更明确地说,涉及用于视频电话(VT)应用的编码关注区(ROI)信息的技术。

背景技术
已经为编码数字视频序列建立了许多不同的视频编码标准。举例来说,移动图片专家组(MPEG)已经开发出许多标准,包含MPEG-1、MPEG-2和MPEG-4。其它实例包含国际电信联盟(ITU)H.263标准和新兴的H.264标准。这些视频编码标准通常支持通过以压缩方式编码数据而改进视频序列的传输效率。
视频电话(VT)允许用户共享视频和音频信息以支持例如视频会议的应用。示范性视频电话标准包含由对话启始协议(SIP)界定的那些标准、ITU H.323标准和ITU H.324标准。在VT系统中,用户可发送并接收视频信息,仅接收视频信息,或仅发送视频信息。接收者通常以视频信息从发送者传输的形式观看所接收的视频信息。
已提议对视频信息的选定部分进行优先编码。举例来说,发送者可指定以较高质量编码关注区(ROI)以用于传输到接收者。发送者可能希望对远程接收者强调所述ROI。尽管发送者可能希望将注意力集中在视频场景内的其它对象上,但ROI的典型实例是人脸。利用对ROI的优先编码,与非ROI区相比,接收者能够较清楚地观看ROI。


发明内容
本揭示内容针对用于视频电话(VT)的关注区(ROI)编码的技术。所揭示的技术包含用于适应性地跳过视频帧的非ROI区域以保留编码位以供分配到ROI的技术。所揭示的技术还包含用于在ρ域内以宏区块(MB)级使用经加权位分配模型将位分配到ROI的技术。另外,所揭示的技术包含用于产生针对ROI视频的质量度量的技术,其在评估经编码视频序列的质量时共同考虑用户对ROI的关注程度、ROI视频保真度和ROI感知质量。
非ROI跳过技术用于增强ROI的图像质量,而不会使非ROI区的图像质量显著降级。明确地说,非ROI跳过技术可保留非ROI位以提供额外位用于分配到ROI。可应用质量度量来使位分配技术偏移以增强经编码视频场景中的主观图像质量。ρ域中的位分配可提供对ROI量化的较准确且一致的控制以便增强视觉质量。非ROI跳过、ρ域位分配和质量度量可共同或单独使用以实现对ROI和非ROI编码的有效控制。
在一个实施例中,本揭示内容提供一种方法,所述方法包括基于先前帧的视频保真度、先前帧的感知质量和用户对关注区的偏好来产生含有关注区的经编码视频帧的质量度量。
在另一实施例中,本揭示内容提供一种装置,所述装置包括视频编码器,其编码含有关注区的视频帧;以及质量度量计算器,其基于先前帧的视频保真度、先前帧的感知质量和用户对关注区的偏好来产生视频帧的质量度量。
在又一实施例中,本揭示内容提供一种方法,所述方法包括获得视频帧内的关注区界定;获得界定可用于所述帧的编码位的数目的帧预算;以及基于所述帧预算和关注区内的宏区块与视频帧的不在关注区内的区域内的宏区块之间的加权将ρ域值分配到帧内的宏区块。
在额外实施例中,本揭示内容提供一种装置,所述装置包括关注区映射器,其产生视频帧内的关注区界定;帧级速率控制器,其产生界定可用于所述帧的编码位的数目的帧预算;以及位分配模块,其基于所述帧预算和关注区内的宏区块与视频帧的不在关注区内的区域内的宏区块之间的加权将ρ域值分配到帧内的宏区块。
在另一实施例中,本揭示内容提供一种方法,所述方法包括将连续帧分组为帧单元;编码所述帧单元中各个帧内的关注区;以及针对所述帧单元中的至少一个帧跳过对不在各个关注区内的区域的编码。
在又一实施例中,本揭示内容提供一种装置,所述装置包括关注区映射器,其产生视频帧内的关注区界定;视频编码器,其编码视频帧;以及跳过模块,其将分组连续帧分组为帧单元,引导视频编码器编码所述帧单元中各个帧内的关注区,并引导视频编码器针对所述帧单元中的至少一个帧跳过对不在各个关注区内的区域的编码。
本文描述的技术可在硬件、软件、固件或其任何组合中实施。如果在软件中实施,那么可部分通过计算机可读媒体来实现所述技术,所述计算机可读媒体包括含有在执行时会执行本文描述的方法中的一者或一者以上的指令的程序代码。
附图和以下描述内容中陈述了一个或一个以上实施例的细节。从描述内容和附图以及从权利要求书中将容易了解其它特征、目的和优点。



图1是说明并入有ROI启用视频编解码器(CODEC)的视频编码和解码系统的方框图。
图2是说明与无线通信装置相关联的显示器上呈现的视频场景内的ROI界定的图。
图3A和3B是说明图2中描绘的视频场景的ROI和非ROI区域的图。
图4是说明并入有具有非ROI跳过模块、ROIρ域位分配模块和ROI权重计算器的ROI启用编码器的视频通信装置的方框图。
图5是说明ROI质量度量计算器的方框图。
图6是进一步说明并入有用于ROI质量度量计算的ROI用户偏好输入装置的无线通信装置的图。
图7是说明使用ROI质量度量计算器来分析视频序列以优化由视频编码器应用的编码参数的方框图。
图8是说明使用ROI质量度量计算器来分析经编码视频以调节由视频编码器应用的编码参数的方框图。
图9是说明针对经编码视频的ROI质量度量计算的流程图。
图10是说明针对视频序列的ROI质量度量计算的流程图。
图11是说明ROIρ域位分配的流程图。
图12是将使用经加权位分配模型的编码技术与最佳解决方案的总体感知质量进行比较的曲线图。
图13是说明非ROI跳过技术的流程图。
图14是说明将连续帧分组为帧单元以支持非ROI跳过的图。
图15是说明编码连续ROI区域以及共同非ROI区域以支持非ROI跳过的图。
图16是将使用标准位分配、经加权位分配和背景跳过的ROI编码技术的总体感知质量进行比较的曲线图,其中用户偏好因数α=0.9。
图17是将使用标准位分配、经加权位分配和背景跳过的ROI编码技术的总体视频保真度进行比较的曲线图,其中用户偏好因数α=0.9。
图18是将使用标准位分配、经加权位分配和背景跳过的ROI编码技术的ROI视频保真度进行比较的曲线图,其中用户偏好因数α=0.9。
图19是将使用标准位分配、经加权位分配和背景跳过的ROI编码技术的非ROI视频保真度进行比较的曲线图,其中用户偏好因数α=0.9。
图20是将使用标准位分配、经加权位分配和背景跳过的ROI编码技术的总体感知质量进行比较的曲线图,其中用户偏好因数α=0.7。
图21是将使用标准位分配、经加权位分配和背景跳过的ROI编码技术的总体视频保真度进行比较的曲线图,其中用户偏好因数α=0.7。
图22是将使用标准位分配、经加权位分配和背景跳过的ROI编码技术的总体感知质量进行比较的曲线图,其中用户偏好因数α=0.5。
图23是将使用标准位分配、经加权位分配和背景跳过的ROI编码技术的总体视频保真度进行比较的曲线图,其中用户偏好因数α=0.5。
图24是将在各种用户偏好因数值下使用标准帧跳过和非ROI跳过的ROI编码技术的感知质量进行比较的曲线图。
图25是将当非ROI跳过开启和关闭时ROI编码技术的感知质量进行比较的曲线图。
图26是说明示范性视频序列上由非ROI跳过引起的失真的曲线图。
图27是将使用非ROI跳过、没有非ROI跳过和适应性非ROI跳过的ROI编码技术的总体感知质量进行比较的曲线图。
图28是将在一编码速率范围内针对示范性视频序列使用各种位分配技术的ROI编码技术的总体感知质量进行比较的曲线图。
图29是将在40千位每秒(kps)的编码速率下使用各种位分配技术的ROI编码技术的总体感知质量进行比较的曲线图。
图30是将在40千位每秒(kps)的编码速率下使用各种位分配技术的ROI编码技术的总体视频保真度进行比较的曲线图。
图31是将在40千位每秒(kps)的编码速率下使用各种位分配技术的ROI编码技术的ROI视频保真度进行比较的曲线图。
图32是将在40千位每秒(kps)的编码速率下使用各种位分配技术的ROI编码技术的非ROI视频保真度进行比较的曲线图。
图33是将在一编码速率范围内针对另一示范性视频序列使用各种位分配技术的ROI编码技术的总体感知质量进行比较的曲线图。

具体实施例方式 图1是说明并入有ROI启用视频编解码器(CODEC)的视频编码和解码系统10的方框图。如图1所示,系统10包含第一视频通信装置12和第二视频通信装置14。通信装置12、14通过传输通道16连接。传输通道16可以是有线或无线通信媒体。系统10支持视频通信装置12、14之间的用于视频电话的双向视频传输。装置12、14可以大体上对称的方式进行操作。然而,在一些实施例中,视频通信装置12、14中的一者或两者可经配置以仅用于单向通信以支持ROI启用视频串流。
视频通信装置12、14中的一者或两者可经配置以针对视频电话(VT)应用ROI编码技术,如本文所描述。ROI编码技术包含适应性地跳过非ROI区以保留编码位以供分配到ROI;以视频区块级(例如,ρ域内的宏区块(MB)级)使用经加权位分配模型将位分配到ROI;以及产生ROI视频的ROI视频质量度量,其在评估经编码视频序列的质量时共同考虑用户对ROI的关注程度、ROI视频保真度和ROI感知质量。ρ(rho)参数表示视频区块(例如,MB)中的非零AC系数的数目。ρ域中的速率控制趋向于比QP域中的速率控制准确。非ROI跳过、ρ域位分配和质量度量可共同或单独使用以实现对ROI和非ROI编码的有效控制。
宏区块是形成帧的一部分的视频区块。MB的大小可为16×16像素。然而,其它MB大小也是可能的。本文将出于说明的目的描述宏区块,应了解宏区块或其它视频区块可具有多种不同大小。
对于双向应用,互逆编码、解码、多路复用(MUX)和解多路复用(DEMUX)组件可提供在通道16的相对端上。在图1的实例中,视频通信装置12包含MUX/DEMUX组件18、ROI启用视频CODEC 20和音频CODEC 22。类似地,视频通信装置14包含MUX/DEMUX组件26、ROI启用视频CODEC 28和音频CODEC 30。
系统10可根据对话启始协议(SIP)、ITU H.323标准、ITU H.324标准或其它标准支持视频电话。每一视频CODEC 20、28根据例如MPEG-2、MPEG-4、ITU H.263或ITU H.264的视频压缩标准而产生经编码的视频数据。如图1中进一步展示,视频CODEC 20、28可与各自音频CODEC 22、30集成,且包含适当的MUX/DEMUX组件18、26以处理数据流的音频和视频部分。音频部分可携带声音或其它音频内容。MUX-DEMUX单元18、26可符合ITU H.223多路复用器协议或例如用户数据报协议(UDP)的其它协议。
每一ROI启用视频CODEC 20、28可能能够处理由各自视频通信装置12、14的本地用户本地提供的ROI信息或由其它视频通信装置12、14的远程用户远程提供的ROI信息。举例来说,视频通信装置12的本地用户可指定由视频通信装置12本地产生的“近端”视频中的ROI以向装置14的远程用户强调所传输视频的区。相反,视频通信装置12的本地用户可指定由视频通信装置14远程产生的“远端”视频中的ROI,并将所述ROI传送到远程视频通信装置。在此情况下,视频通信装置12的用户远程控制视频通信装置14对ROI的优先编码(例如)以较清楚地观看从视频通信装置14接收的视频中的ROI。
视频通信装置12、14可实施为经装备以用于视频串流、视频电话或两者的无线移动终端或有线终端。为此目的,视频通信装置12、14可进一步包含适当的无线发射器、接收器、调制解调器和处理电子元件以支持无线通信。无线移动终端的实例包含移动无线电话、移动个人数字助理(PDA)、移动计算机或装备有无线通信能力和视频编码和/或解码能力的其它移动装置。有线终端的实例包含桌上型计算机、视频电话、网络设备、机顶盒、交互式电视等。任一视频通信装置12、14可经配置以发送视频信息、接收视频信息,或发送并接收视频信息。
对于视频电话应用,通常需要装置12支持视频发送和视频接收能力两者。然而,还预期串流视频应用。在视频电话且尤其是借助无线通信的移动视频电话中,带宽是重要的考虑因素,因为通常需要极低的位速率。明确地说,通信通道16可能具有有限带宽,从而使经由通道16的优质视频序列的有效实时传输非常具有挑战性。举例来说,通信通道16可以是无线通信链路,其由于通道16的物理约束或者可能由通信通道16的提供商所强加的服务质量(QoS)限制或带宽分配约束的缘故而具有有限带宽。
因此,将额外编码位选择性地分配到ROI、较强的误差防护或其它优先编码步骤可改进视频的一部分的图像质量,且同时维持总体编码效率。对于优先编码,可将额外位分配到ROI,同时可将减少的数目的位分配到非ROI区(例如视频场景中的背景)。非ROI区域将被称为“背景”区域,但非ROI区域更通常地包含视频场景中不形成ROI的一部分的任何区域。因此,本揭示内容中可互换使用术语非ROI和背景来指代不在指定ROI内的区域。
一般来说,系统10采用用于视频电话(VT)应用的关注区(ROI)处理技术。然而,此类技术也可应用于视频串流应用,如上文所提及。出于说明的目的,将假定每一视频通信装置12、14能够作为视频信息的发送者和接收者两者来操作,且借此作为VT对话中的全额参与者来操作。对于从视频通信装置12向视频通信装置14传输的视频信息,视频通信装置12是发送者装置且视频通信装置14是接收者装置。相反,对于从视频通信装置14向视频通信装置12传输的视频信息,视频通信装置12是接收者装置且视频通信装置14是发送者装置。本文描述的技术也可应用于仅发送或仅接收此类视频的装置。当讨论待由本地视频通信装置12、14编码和传输的视频信息时,所述视频信息可被称为“近端”视频,如上文所提及。当讨论待由远程视频通信装置12、14编码并从远程视频通信装置12、14接收的视频信息时,所述视频信息可被称为“远端”视频。
根据所揭示的技术,当作为接收者装置操作时,视频通信装置12或14针对从发送者装置接收的远端视频信息界定ROI信息。再次,从发送者装置接收的视频信息将被称为“远端”视频信息,因为其是从位于通信通道的远端处的另一(发送者)装置接收的。同样,针对从发送者装置接收的视频信息而界定的ROI信息将被称为“远端”ROI信息。远端ROI通常是指远端视频内最引起远端视频接收者关注的区。接收者装置解码远端视频信息并将经解码的远端视频经由显示装置呈现给用户。用户在远端视频所呈现的视频场景内选择ROI。或者,可自动界定ROI。
接收者装置基于接收者装置处的用户选择的ROI而产生远端ROI信息,并将所述远端ROI信息发送到发送者装置,使得发送者装置可使用此类信息。远端ROI信息可采取ROI宏区块(MB)映射的形式,其依据驻存在ROI内的MB来界定ROI。ROI MB映射可用1标记处于ROI内的MB,且用0标记处于ROI外部的MB,以容易地识别包含在ROI中(1)以及从ROI中排除(0)的MB。
通过使用由接收者装置传输的远端ROI信息,发送者装置将优先编码应用于视频场景内的相应ROI。明确地说,可将额外编码位分配到ROI,同时可将减少的数目的编码位分配到非ROI区,借此改进ROI的图像质量。以此方式,接收者装置能够远程控制发送者装置对远端视频信息的ROI编码。
优先编码例如通过ROI区域中的优先位分配或优先量化而向ROI区域应用比视频场景的非ROI区域具有更高质量的编码。经优先编码的ROI允许接收者装置的用户较清楚地观看对象或区。举例来说,与视频场景的背景区相比,接收者装置的用户可能希望较清楚地观看脸部或某一其它对象。
当作为发送者装置操作时,视频通信装置12或14也可针对由发送者装置传输的视频信息界定ROI信息。再次,发送者装置中产生的视频信息将被称为“近端”视频,因为其是在通信通道的近端处产生的。由发送者装置产生的ROI信息将被称为“近端”ROI信息。
近端ROI通常是指近端视频中发送者希望向接收者强调的区。因此,ROI可由接收者装置用户指定为远端ROI信息,或由发送者装置用户指定为近端ROI信息。发送者装置将近端视频经由显示装置呈现给用户。与发送者装置相关联的用户在近端视频所呈现的视频场景内选择ROI。发送者装置使用用户选择的ROI来编码近端视频,使得相对于非ROI区域,近端视频中的ROI被(例如)以较高质量编码进行优先编码。
由发送者装置处的本地用户选择或界定的近端ROI允许发送者装置的用户强调视频场景内的区或对象,且借此使此类区或对象引起接收者装置用户的注意。值得注意的是,由发送者装置用户选择的近端ROI无需传输到接收者装置。而是,发送者装置在将所选择的近端ROI信息传输到接收者装置之前使用所述信息在本地编码近端视频。然而,在一些实施例中,发送者装置可将ROI信息发送到接收者装置以允许应用优先解码技术,例如较高质量误差校正或后处理。
如果ROI信息由发送者装置和接收者装置两者提供,那么发送者装置应用从接收者装置接收的远端ROI信息或本地产生的近端ROI信息来编码近端视频。在发送者装置与接收者装置提供的近端与远端ROI选择之间可能出现ROI冲突。此类冲突可能需要解决,例如由本地用户主动解决或根据所规定的存取权利和等级来解决。在任一情况下,发送者装置均基于由发送者装置本地提供的或由接收者装置远程提供的近端ROI信息来优先编码ROI。
给定由本地用户或远程用户指定的ROI,本揭示内容大体上集中在ROI编码技术上。明确地说,本揭示内容依据视频场景内ROI与非ROI区域之间的位分配来叙述优先编码ROI的方式。可应用ROI视频质量度量来偏移ROI与非ROI区域之间的经加权位分配。视频质量度量在评估经编码视频序列的质量时考虑用户对ROI的偏好(即,关注)程度、ROI视频保真度和ROI感知质量。在ρ域内应用经加权位分配。另外,可应用非ROI或“背景”跳过算法来保留编码位以供分配到ROI。
图2是说明与无线通信装置36相关联的显示器34上呈现的视频场景32内的ROI界定的图。在图2的实例中,ROI被描绘为矩形ROI 38或非矩形ROI 40。非矩形ROI 40可具有圆形或不规则形状。在每一情况下,ROI 38或ROI 40均含有视频场景32中呈现的人的脸部42。图3A和3B是说明图2中描绘的视频场景32的ROI 38和非ROI区域43的图。图3B中用阴影突出显示非ROI区域43(即,背景)。
可由用户手动、通过装置36自动或使用用户的手动ROI描述与装置36的自动ROI界定的组合来界定ROI 38或40。用户可选择矩形ROI 38。非矩形ROI 40可由用户例如使用铁笔和触摸屏幕绘制,或者通过装置36使用多种对象检测或分割技术中的任一者来自动选择。对于VT应用,ROI 38或40可包含视频场景32中含有视频会议参与者的脸部42的部分。ROI 38或40的大小、形状和位置可以是固定或可调节的,且可以多种方式来界定、描述或调节。
ROI 38或40允许视频发送者强调所传输的视频场景32内的个别对象,例如人的脸部42。相反,ROI 38或40允许视频接收者较清楚地观看所接收的视频场景32内的所需对象。在任一情况下,ROI 38或40内的脸部42均相对于视频场景32的非ROI区域(例如,背景区)以较高图像质量进行编码。以此方式,用户能够较清楚地观看面部表情、唇部活动、眼部活动等。
然而,可使用ROI 38或40来指定除脸部以外的对象。一般来说,VT应用中的ROI可以是非常主观的且可由于用户不同而不同。所需的ROI还取决于如何使用VT。在一些情况下,VT可用于观看和评估对象,这与视频会议不同。举例来说,用户可能希望集中在白色书写板的含有等式或图画的区域上而并非演讲者的脸部,尤其是当演讲背对摄像机且朝向白色书写板进行时。在一些情况下,视频场景可包含被指定用于优先编码的两个或两个以上ROI。
图4是说明用于视频通信装置12中的ROI启用视频编码系统44的方框图。如图4所示,系统44包含ROI权重计算器46、ROIρ域位分配模块48、非ROI(即,背景)跳过模块50、ROI宏区块(MB)映射器52、帧级速率控制器54、ρ-量化参数(QP)映射器56、视频编码器58和失真分析器60。在图4中,为便于说明而省略了MUX-DEMUX和音频组件。
图4中描绘的各个组件可以多种方式形成,作为离散功能模块或作为包含归属于每一模块的功能性的单片式模块。在任一情况下,视频编码系统44的各个组件可以硬件、软件、固件或其组合来实现。举例来说,此类组件可作为在一个或一个以上微处理器或数字信号处理器(DSP)、一个或一个以上专用集成电路(ASIC)、一个或一个以上现场可编程门阵列(FPGA)或者其它等效集成或离散逻辑电路上执行的软件程序来操作。
在图4的实例中,ROI权重计算器46接收由视频通信装置12的本地用户或视频通信装置14的远程用户输入的用户偏好因数α。用户偏好α是ROI的感知重要性因数,其表示从实际用户的观点来看ROI的视觉质量的重要性。用户偏好α将用户对ROI内的视觉质量的重视程度进行量化。如果用户强烈重视ROI视觉质量,那么α将较高。如果ROI的视觉质量较不重要,那么α将较低。基于偏好α,ROI权重计算器46产生一组权重wi,其被施加于ROIρ域位分配模块48以偏移正由视频编码器58编码的视频帧的非ROI与ROI区域之间的经加权位分配。可为视频帧内的各个视频区块(例如,宏区块(MB))指定权重wi。ROI权重计算器46从ROI MB映射器52接收ROI MB映射,并将各自权重wi分派到由ROI MB映射器52识别的ROI和非ROI MB。具有较高权重wi的宏区块将接收较大数目的编码位。
ρ域位分配模块48从ROI权重计算器46接收权重输入wi,从非ROI背景跳过模块50接收跳过指示(跳过开启/关闭),从ROI MB映射器52接收ROI MB映射,从帧级速率控制器54接收速率预算RBUDGET,并从视频编码器58接收经编码MB的标准偏差σ。标准偏差σ可以是运动评估之后获得的实际剩余物的标准偏差,且可以是来自先前帧的所存储的剩余物统计。由ROI MB映射器52提供的ROI MB映射识别给定视频帧内的落在指定ROI内的MB。使用ROI MB映射,ρ域位分配模块48出于向ROI MB进行优先位分配的目的而区分ROI MB与非ROI MB,即使用由ROI权重计算器46提供的权重wi。位分配模块48为每一MB产生ρ参数。ρ参数表示MB中非零AC系数的数目。ρ域中的速率控制趋向于比QP域中的速率控制更准确。
出于本揭示内容的目的,假定用于产生ROI MB映射的适宜过程可用。举例来说,ROI映射过程可基于来自界定ROI的用户的手动输入或(例如)使用例如具有可接受准确性的脸部检测、脸部分割和目标跟踪的常规技术对ROI的自动界定或检测。在本揭示内容中,出于说明的目的,考虑头部或头部与肩部视频序列,但本文描述的技术可应用于含有除人之外或作为人的替代的多种对象的其它类型的视频序列。
帧级速率控制器54对视频序列内的各个帧产生位分配。明确地说,帧级速率控制器54产生值RBUDGET,其指示可用于编码当前帧内的所有MB(即,ROI和非ROI MB两者)的位的数目。如图4中进一步展示,ρ域位分配模块48从非ROI背景跳过模块50接收跳过指示(跳过开启/关闭),其指示将编码还是跳过当前帧中的背景。如果将跳过背景,那么ρ域位分配模块48可有效地取回原本将已分配到非ROI的位,并将其重新分配到可用于编码ROI的位集区。因此,如果特定帧中跳过是开启的,那么ρ域位分配模块48在RBUDGET内具有较多位来分配到ROI。如果在特定帧中跳过背景,那么可在其位置中代入来自先前编码的帧的背景。或者,可通过内插来产生跳过的背景。
通过使用权重wi、ROI MB映射、RBUDGET、跳过开启/关闭指示和标准偏差σ,ρ域位分配模块48产生指示每一MB的ρ预算的ρ域输出。ρ域输出施加到ρ-QP映射器56,所述ρ-QP映射器56将ρ值映射到每一MB的相应QP值。通过使用帧内MB的QP值,视频编码器58编码输入视频以产生经编码的视频。另外,跳过模块50将跳过指示(跳过开启/关闭)提供给视频编码器58,以引导视频编码器将连续帧分组为帧单元,编码帧的ROI区域,并跳过对帧单元内的一个帧的非ROI区域的编码。跳过可以是适应性的,因为跳过模块50可引导视频编码器58在与先前帧单元相关联的失真值小于阈值时跳过对帧单元中的一个帧的非ROI区域的编码。以此方式,跳过模块50可基于失真水平而应用适应性跳过以便维持视觉质量。
可从与视频通信装置12集成或可操作地耦合到视频通信装置12的视频俘获装置(例如摄影机)中获得输入视频。举例来说,在一些实施例中,视频俘获装置可与移动电话集成以形成所谓的摄像电话或视频电话。以此方式,视频俘获装置40可支持移动VT应用。视频可在视频通信装置12上本地呈现,且通过传输经由显示装置在视频通信装置14上呈现,所述显示装置例如液晶显示器(LCD)、等离子屏幕等,其可与视频通信装置12或14集成或可操作地耦合到视频通信装置12或14。
失真分析器60分析经编码视频与原始输入视频。举例来说,失真分析器60将原始输入视频帧F与重构视频帧F′进行比较。失真分析器60产生失真值DNONROI_SKIP以供施加到非ROI背景跳过模块50。失真值DNONROI_SKIP指示是否应跳过下一视频帧的非ROI区域。因此,对于当前帧中的适应性非ROI跳过,非ROI跳过模块50通常可依赖于与先前帧或含有两个或两个以上帧的帧单元有关的失真信息。
如果失真值DNONROI_SKIP超过所需阈值,那么非ROI背景跳过模块50指示不应跳过下一帧中的非ROI。在此情况下,编码ROI和非ROI区域两者。然而,如果失真值小于所需阈值,那么可跳过非ROI区域而不会有过度水平的失真。在此情况下,针对先前帧编码的非ROI区域用于当前帧中。如将描述,非ROI跳过模块50可将连续帧分组为帧单元,并引导视频编码器58依据先前帧单元(即,含有在当前正编码的帧之前的帧的帧单元)的失真值DNONROI_SKIP而跳过对一个帧的非ROI的编码。
图5是说明根据本揭示内容的另一实施例的ROI质量度量计算器61的方框图。图4的ROI权重计算器46可形成ROI质量度量计算器61的一部分。因此,ROI质量度量计算器46的一个产物可能是一组权重wi,其可基于用户偏好因数α以及视频保真度、空间质量和/或时间质量值。如图5所示,ROI质量度量计算器61接收用户偏好值α和一个或一个以上视频失真值。视频失真值可划分为ROI值和非ROI值,且可包含视频保真度值DRF、DNF、空间质量值DRS、DNS以及时间质量值DRT、DNT。DRF表示ROI内的视频保真度,而DNF表示非ROI区内的视频保真度。DRS表示ROI区域内的空间质量,而DNS表示非ROI区域内的空间质量。DRT表示ROI区域内的时间质量,而DNT表示非ROI区域内的时间质量。ROI质量度量在评估经编码视频序列的质量时共同考虑用户关注、视频保真度和感知质量(空间、时间或两者)。在一些实施例中,所述度量可用于偏移由ρ域位分配模块48应用的位分配算法以实现较好的主观视觉质量。
尽管已广泛地学习了ROI视频编码,但尚未充分详细地叙述针对ROI视频的质量测量。大多数质量测量技术使用峰值信号噪声比(PSNR)作为失真测量来评估视频帧的ROI和非ROI部分的质量。ROI视频质量度量不仅可用于分析目的,而且可用作输入来朝向主观视觉有利的解决方案偏移经加权位分配技术(例如,如图4的位分配模块48所应用)。一般来说,如上文论述,ROI视频质量的评估考虑至少三个方面用户对ROI视觉质量的关注或偏好α、重构视频数据的视频保真度以及重构视频数据的感知质量(空间、时间或两者)。
用户偏好α直接决定将视频帧分类为ROI和非ROI部分及其相关联的感知重要性因素。在视频电话应用中,发言者的脸部区是典型的ROI,因为人类的面部表情非常复杂且较小的变化可传达大量信息。对于视频保真度因素,PSNR是良好测量,其指示重构视频帧与原始帧相比的失真总量。重构帧是通过解码经编码的视频帧而产生的,而原始帧是编码之前的视频帧。
在许多情况下,视频保真度将是视频编码的最重要的考虑因素,其中任何改进均可能产生更好的主观视觉质量。然而,情况并非总是如此,这就是为什么在一些情况下还应考虑感知质量因素。感知质量考虑空间误差和时间误差两者。空间误差可包含成块(即,块效应)、环绕假象或两者的存在。时间误差可包含时间闪烁的存在,即当视频帧的视觉质量沿着时间轴不均匀地变化时。时间误差可导致视频序列中的常变运动,这是不合需要的。
DR和DNR表示ROI和非ROI的标准化每像素失真,且α表示ROI感知重要性因数。如果假定可在视频质量评估中将上文提及的各方面之间的关系简化为线性函数,那么视频序列的总体失真可表示为 其中fi和

是视频序列中的M个帧内的第i个原始和重构帧,β和γ是加权因数,DR和DNR是ROI和非ROI的总体失真,DRF、DRS和DRT是ROI的保真度、空间感知质量和时间感知质量的标准化误差,且DNF、DNS和DNT是其对于非ROI区域的对应物。应当向值α、β和γ指派介于0与1之间的实值。所得的质量度量可用作成本函数以用公式表示经加权位分配中的ρ参数的优化问题或用于ROI处理中的其它问题。
在低位速率视频应用(例如无线视频电话)中,成块(即,块效应)、假象是空间感知质量的主要问题。这种假象是由量化引起的,其中大多数高频系数被移除,即设定为零。所得效果是经平滑的图像区块使区块边界相当明显。在极低的位速率情况下,将仅编码DC系数,这使得经解码的图像成为分段的恒定区块。在本揭示内容中,将ROI空间质量值DRS(对于DNS是类似的)定义为标准化块效应失真,其可表示为
其中,检查区块之间的边界以查明是否存在可感知的不连续性。在S.Minami和A.Zakhor的“An optimization approach for removing blocking effects in transform coding”(IEEE Trans.Circuits Systems for Video Technology,第5卷,第2期,第74-82页,1995年4月)中描述了一种适宜的不连续性检测方法,其检查区块边界上的强度斜率均方差的总和,所述文章的全部内容以引用的方式并入本文中。此方法假设,区块边界两侧的斜率应当是相同的,且可能由于量化的缘故引起斜率的急剧变化。
在等式(1)中,基于视频序列中所有帧的DRS(或DNS)的方差,将DRT(或DNT)值定义为在
范围内的指派分数。以此方式,视频保真度、空间感知质量和时间感知质量的各项得以标准化,且可通过加权参数α、β和γ桥接以形成可控制的视频质量测量。这些加权参数的选择由用户基于其要求和期望来确定。再次,此测量可有用地作为输入以朝向有利于主观感知而偏移位分配过程。因此,用户可在ROI编码方面实现视觉上较合意的结果。
图6是说明并入有用于ROI质量度量计算的ROI用户偏好输入装置62的无线通信装置36的图。在图6中,无线通信装置36大体上与图2一致,但进一步并入有输入装置62以俘获用户偏好α,所述用户偏好α指定分派到视频场景32的ROI和非ROI部分的相对重要性。在图6的实例中,输入装置62展示为具有滑块64的滑动条的形式,所述滑块64可沿着滑动条的长度移动以指示用户偏好程度α。
通过使用输入装置62,用户可例如通过质量度量计算器61来选择性地调节用户偏好α以便以动态基础影响ROI位分配。随着用户偏好α变化,视频帧的ROI与非ROI部分之间的位分配可发生变化。尽管图6中描绘水平滑动条,但输入装置62可由例如垂直滑动条、按钮、刻度盘、下拉百分比菜单等多种等效输入媒体中的任一者来实施。此类输入媒体可经由触摸屏或多种硬键、软键、指向装置等中的任一者来操纵。
图7是说明使用ROI质量度量计算器61来分析视频序列以优化由ROI启用视频编码器63应用的编码参数的方框图。如图7所示,在视频序列由ROI启用视频编码器63编码之前,应用ROI质量度量计算器61来分析传入视频序列的失真值。因此,ROI质量度量计算器分析视频位流的失真值,例如参看图5描述的。基于失真值和用户偏好值α,ROI质量度量计算器产生一组经优化的参数以供视频编码器63使用来编码传入的视频序列。经优化的参数可包含由位分配模块用来在视频帧的ROI与非ROI区域之间分配编码位的权重,或位分配中使用的其它参数的值,例如加权因数β和γ。在某种意义上,图7表示开放式环路实施方案,其中ROI质量度量计算器61在编码之前分析传入的视频流,但不分析经编码的视频。质量度量导致产生最佳编码参数以供编码器63使用。
图8是说明使用ROI质量度量计算器61来分析经编码视频以调节由ROI启用视频编码器63应用的编码参数的方框图。在图8的实例中,ROI质量度量计算器61分析与经编码视频相关联的失真值以及用户偏好值α,以产生对于由ROI启用视频编码器63使用的编码参数的调节。因此,ROI质量度量计算器61在视频已由ROI启用视频编码器63编码之后分析所述视频,并以闭合式环路基础产生调节(例如)以改进视频编码器的性能和经编码视频的质量。对编码参数的调节可包含调节由位分配模块用来在视频帧的ROI与非ROI区域之间分配编码位的权重,或位分配中使用的其它参数的值,例如加权因数β和γ。在图8的实例中,质量度量用于在环路中迭代地编码和评估质量,直到质量度量与阈值的比较令人满意为止。在每次迭代中,质量度量计算器61发送一组改进的编码参数。最终,迭代由于质量度量阈值满足或结果收敛而停止。
图9是说明ROI质量度量计算的流程图。如图9所示,给定适用的ROI MB映射,ROI质量度量计算器46获得ROI用户偏好α(68)并编码视频帧的ROI和非ROI部分(70)。当重构经编码视频帧时,失真分析器60分析先前编码的视频帧和原始视频帧以分别确定先前视频帧的ROI和非ROI部分的视频保真度DRF和DNF。另外,失真分析器60分别产生ROI和非ROI感知时间质量值DRT、DNT以及ROI和非ROI感知空间质量值DRS、DNS。ROI质量度量计算器46从失真分析器60处获得视频保真度(72)、ROI和非ROI时间质量(74)以及ROI和非ROI空间质量(76)。
基于用户偏好α、视频保真度、空间质量和时间质量,ROI质量度量计算器46确定ROI质量度量(78)。视频保真度例如以逐个像素为基础依据颜色强度值来测量重构视频帧相对于原始帧的视频误差。空间质量测量重构帧相对于原始帧的空间误差,例如成块和环绕假象。时间质量测量例如在帧视觉质量沿着时间轴不均匀地变化的情况下的时间闪烁的误差。
值得注意的是,用户偏好α是用户所施加的当前值,而视频保真度、空间质量和时间质量是从位分配模块48处理的当前帧之前的一个或一个以上帧中导出的。用户偏好α在帧之间可以是固定的,直到用户改变所述值时为止。如果用户尚未指定值,那么可向用户偏好因数α指派默认值。可应用ROI质量度量来偏移当前视频帧的ROI与非ROI之间的位分配(80),如上文参看图5所描述。举例来说,可使用质量度量来调节用于ROI位分配的权重。在一些实施例中,图9所示的功能性可表示图8的“闭合式环路”实例中ROI质量度量计算器61所执行的操作。
图10是说明针对视频序列的ROI质量度量计算的流程图。图10大体上对应于图9,但表示在编码视频流之前相对于视频流进行质量度量计算的实施例。因此,图10的过程进一步包含获得视频流(67)。另外,与图9形成对比,在偏移ROI/非ROI位分配(80)之后执行视频编码(70)。在一些实施例中,图9所示的功能性可表示图7的“开放式环路”实例中ROI质量度量计算器61所执行的操作。
图11是说明ROI ρ域位分配的流程图。如图11所示,位分配模块48获得ROI界定(82)和帧的速率预算(84)两者。ROI界定可采取ROI MB映射的形式,其识别落在ROI内的MB或其它视频区块。速率预算提供可用于编码整个帧(包含ROI和非ROI区域)的位的数目。另外,位分配模块48从ROI权重计算器46获得ROI权重wi(86),其偏移ROI与非ROI之间的位分配。当确定帧的非ROI跳过模式(88),即对于所述帧是开启还是关闭跳过时,位分配模块48获得当前帧的统计(89)。当前帧统计(89)接着可用于对后续帧作出跳过模式决策。帧统计可包含(例如)运动评估之后帧的剩余物的标准偏差。或者,可获得先前帧的帧统计。利用跳过模式指示(88),位分配模块48能够确定所有可用的位均可归属于ROI(非ROI帧跳过开启)还是所述位必须在ROI与非ROI之间共用(非ROI帧跳过关闭)。
通过使用ROI界定、帧速率预算、质量度量偏移和非ROI跳过模式,位分配模块48产生ROI MB与非ROI MB之间的位的经加权ρ域分配(90)。当确定ρ域位分配时,映射器56执行ρ-QP映射以提供MB QP值(92)以供施加到视频编码器58(94)。映射器56可应用ρ-QP映射表或者针对特定ρ产生QP的等式或函数。视频编码器58使用由位分配模块48和映射器56提供的QP值来编码可应用视频帧内的各个ROI和非ROI MB。所得的位分配可不仅考虑适用的帧预算而且还考虑非ROI跳过的可用性以及与视频序列中的先前帧相关联的质量度量。下文将更详细描述位分配模块48的操作。
本揭示内容中描述的位分配技术通常假定充分的ROI检测或界定可用,且可接受的帧级速率控制可用。以此为基础,位分配技术通常集中在ROI与非ROI MB之间的MB级速率控制上。大多数常规ROI位分配算法基于ITU H.263+TMN8模型的经加权版本,其中创建成本函数,且通过使用一组预设权重来不同地惩罚函数中各个区上的失真分量。与大多数其它视频标准相似,TMN8使用Q域速率控制方案,其以QP的函数建模速率和失真。然而,本揭示内容中描述的位分配技术利用ρ域速率控制模块,其中ρ表示视频编码过程中MB中的非零量化AC系数的数目。如本文所描述,使用ρ域位分配趋向于比QP域速率控制更准确,且可有效地减少速率波动。
在视频编码应用中,典型的问题是在给定视频序列的位预算的情况下使失真值Dsequence最小化。此复杂问题的最佳解决方案依赖于最佳帧级速率控制算法和最佳宏区块级位分配方案。然而,对于实时应用(例如视频电话),在当编码当前帧时关于将来帧的非常有限的信息可用的情况下,追求最佳帧级速率控制不是实际的或可行的。通常,应用普遍的算法(“贪婪”算法)。贪婪算法假定视频内容的复杂性沿着视频序列中的帧均匀分布。以此为基础,贪婪算法将可用位的一小部分分配到序列中的每一帧。在实时应用中,将来帧信息的有限可用性还使得难以考虑速率控制中的时间质量。
在本揭示内容中,为了找到实用的解决方案并简化位分配问题,通常假定良好的帧级速率控制是可用的。这一假定将位分配问题简化为宏区块级位分配。同时,位分配方案可利用非ROI跳过方法。非ROI跳过增加了减小时间失真项

的值的可能性,因为被跳过的区将呈现与先前帧的感知质量相同的感知质量。因此,跳过非ROI区域可减少连续帧之间的感知质量的波动。
出于说明目的,根据等式(1)来评估视频帧的图像质量。然而,为简单起见,设定β和γ使得β+γ=1。将Rbudget表示为给定帧f的总计位预算且将R表示为编码所述帧的位速率,所述问题可由以下函数表示 最小化
使得R≤Rbudget。
上述优化问题可通过格拉朗日松弛和动态编程来解决。然而,此类方法的计算复杂性将大大高于实时系统所能承受的。因此,根据本揭示内容,低复杂性近最佳解决方案是优选的。明确地说,在本揭示内容中,应用ρ域中的二阶段位分配算法。第一阶段涉及以下优化问题 最小化使得R≤Rbudget。(4) 在获得等式(4)的最佳编码参数之后,第二阶段以迭代方式调节编码参数以降低项直到达到局部最小值为止。当β是相对较大的数字时,此二阶段算法的结果可能非常接近最佳解决方案。当β=1时,问题(3)与(4)相同。在本揭示内容中,集中在第一阶段和针对问题(4)的解决方案上。
在ROI视频编码中,N是帧中的MB的数目,{ρi}、{σi}、{Ri}和{Di}分别是第i个宏区块的ρ、标准偏差、速率和失真(误差平方和)的集合。因此,为帧中所有MB界定一组权重{wi}
其中K是ROI内的MB的数目。等式(5)可(例如)由ROI权重计算器46实施。
因此,帧的经加权失真为 因此,问题(4)可重写为 最小化D,使得R≤Rbudget。(7) 通过使用基于建模的位分配方法来求解等式(7)。自然图像的AC系数的分布可由拉普拉斯分布来最佳近似。因此,可在以下等式(8)和(9)中将第i个宏区块的速率和失真建模为ρ的函数。
举例来说,速率可表示为 Ri=Aρi+B,(8) 其中A和B是恒定建模参数,且A可认为是编码非零系数所需的位的平均数目,且B可认为是归因于非纹理信息的位。
另外,失真可表示为 其中θ是未知常数,且σ是剩余数据的标准偏差。此处,位分配技术优化ρi而并非量化器,因为假定存在充分准确的ρ-QP表可用于根据任何选定ρi产生可接受的量化器。一般来说,可通过使用格拉朗日松弛法来求解等式(7),其中将受约束的问题转化为不受约束的问题,如下
其中λ*是实现的解。通过在等式(10)中将偏导数设定为零,获得以下经优化ρi的表达式 令 其为 因此 且 另一方面,因为 所以以下关系成立, 根据等式(14)和(16),获得位分配模型I,如下 接着将所得ρ映射到相应QP并用于将适当数目的编码位分配到各个ROI或非ROIMB。
可使用替代失真模型来获得另一位分配模型(位分配模型II)。根据所述替代失真模型,假定步长为q的均匀量化器可用,由下式给出由量化引起的失真 且由下式给出零的百分比 因此, 根据如T.M.Cover和J.A.Thomas的“Elements of information theory”(Wiley,NewYork,NY,1991)中描述的香农源编码定理,对于拉普拉斯源,表示符号所需的位的最小数目由给出,使得 由于其中384是对于4∶2∶0视频的第i个宏区块中的系数总数目,因而可通过使用泰勒展开式来展开等式(21),且可由下式来近似位速率与ρ之间的关系 Ri=Aρi+B,(22) 其中A和B是恒定建模参数,且A可认为是编码非零系数所需的位的平均数目,且B可认为是归因于非纹理信息的位。
另外,由下式表示系数的方差 因此,可由下式表示第i个宏区块的失真 与位分配模型I的推导一样,可通过解决优化问题(7)(即,以下问题)来实现最佳位分配方案
一般来说,可通过使用格拉朗日松弛法来求解等式(25),其中将受约束的问题转化为不受约束的问题,如下
其中λ*是实现的解。通过在等式(26)中将偏导数设定为零,获得以下经优化ρi的表达式 令 其为 因此 另一方面,因为 那么 根据等式(28)和(30),获得以下表达式 其中ρbudget是帧的总计ρ预算。
尽管等式(32)中以不同方式建模失真,但基于所述模型,获得以下位分配模型II 可(例如)通过位分配模块48来实施等式(33)。
图12是将使用经加权位分配模型I和II的编码技术与最佳解决方案的总体感知质量进行比较的曲线图。通过格拉朗日松弛法来实现最佳解决方案,而如上文所述来实施位分配模型I和II。图12展示在对标准Foreman视频测试序列的最初100个帧进行ROI编码期间的PSNR(以分贝计)与帧数目。在图12中,分别由参考标号91、93和95识别最佳解决方案、位分配模型I和位分配模型II。对于位分配模型I和II,出于位分配加权等式(5)的目的,α的值为0.9。如图12所示,与最佳解决方案相比,位分配模型I和II两者均执行得非常好。
图13是说明非ROI(“背景”)跳过技术的流程图。跳过对视频帧的非ROI区域的编码的能力可产生位分配的显著节省。如果不编码(即,跳过)非ROI,那么原本分配到非ROI的位可改为被重新分配用于编码ROI,从而改进ROI中的MB的视觉质量。如果针对给定帧跳过非ROI,那么针对先前帧编码的非ROI重复,或用内插的非ROI区域代入当前帧中。除了保留位以供用于ROI编码外,跳过非ROI区域还可改进当前帧的时间质量。明确地说,在两个或两个以上连续帧中呈现相同的非ROI区域将趋向于减少非ROI区域中的时间闪烁。
在非常低的位速率(例如,32kbps)下,即使位均匀地分布在MB之间,通常也粗略地编码非ROI区,其中例如闪烁的时间视觉质量问题变得显著。另一方面,在背景是非ROI的大多数视频电话应用情况下,背景中存在非常有限的移动。因此,背景跳过是重新分配位以改进ROI和经编码非ROI区的质量的解决方案,只要所述跳过不会严重降级视频保真度。
帧跳过是在非常低位速率应用中用以保留编码位的普遍方法。非ROI跳过与帧跳过之间的差异在于,在非ROI跳过方法中编码每一帧的ROI以确保ROI的良好视觉质量。帧跳过在许多应用中非常有用。然而,在ROI视频编码中,帧跳过将存在丢失例如面部表情的重要信息的风险,尤其是当在等式(1)中将α设定为较大值时,因为任何ROI失真都会受到严重惩罚并可降级总体性能。因此,非ROI跳过是较佳选择且通常可节省大量的位以改进ROI质量,因为背景MB的数目在普通视频帧中占支配地位。
如图13所示,非ROI跳过技术涉及将连续帧分组为单元,所述单元包含帧的ROI区域和帧之间共享的共同非ROI区域。在图13的实例中,将两个连续帧进行分组。非ROI背景跳过模块50将帧i和帧i+1分组为帧单元(96),并通知视频编码器58关于其中将跳过非ROI区域的帧。作为响应,视频编码器58使用由位分配模块48提供的经加权位分配来编码帧i和i+1的各自ROI区域(98)。另外,视频编码器58使用经加权位分配来编码帧i的非ROI区域。然而,视频编码器58不编码帧i+1的非ROI区域。而是,跳过帧i+1的非ROI区域,且在其位置中提供先前帧i的非ROI区域。
可以全部时间为基础提供非ROI跳过。举例来说,可以交替帧为基础出于连续全部时间跳过非ROI的目的,将每两个帧分组为一单元。换句话说,可以全部时间为基础跳过每隔一个帧中的非ROI。作为替代,可在适应性基础上激活和解除跳过。当由最近的先前帧产生的非ROI失真超过失真阈值时,可解除跳过。如图13所示,举例来说,如果先前帧的非ROI区域中的失真小于阈值(102),那么跳过帧i+1的非ROI(104),且过程继续到下一组两个连续帧,如由帧递增i=i+2(106)表示。在此情况下,非ROI失真的水平是可接受的,且激活跳过。然而,如果非ROI失真大于失真阈值(102),那么使用经加权位分配来编码帧i+1的非ROI区域(108)。在此情况下,由于过度的非ROI失真(即,相关视频场景的非ROI区域内的过度失真)的缘故而解除跳过。
图14是说明将连续帧分组为单元以支持非ROI跳过的图。如图14所示,帧0、1、2和3表示视频序列内的连续帧。在此实例中,帧0和帧1分组为单元1,且帧2和帧3分组为单元2。每一单元共享共同非ROI区域。明确地说,在具有可接受失真的全部时间跳过或适应性跳过的情况下,针对帧1重复帧0的非ROI区域。因为针对帧1重复帧0的非ROI区域,所以不必编码帧1的非ROI区域。将帧分组为单元可应用于整个视频序列。在图14的实例中,将两个帧分组为一单元。然而,在一些应用中,可将两个或两个以上帧分组为一单元,其中除了单元中的一个帧外,跳过其它所有帧中的非ROI。
图15是说明编码连续ROI区域以及共同非ROI区域的图。明确地说,当将连续帧0和1分组为一单元时,分别编码帧0和1中的ROI区域110、112。然而,针对帧0和帧1两者重复帧0非ROI区域114,使得跳过帧1的非ROI区域(未图示)。以此方式,可避免原本需要用于编码帧1非ROI的位消耗。在图15的实例中,应注意,非ROI区域114尽管被称为“背景”但可包含例如人的肩部的前景特征。因此,本揭示内容中背景通常用于指代ROI外部的任何区域,且不应认为严格限于视频场景内的背景成像。下文进一步详细描述非ROI跳过。
现将描述用于实施图4的非ROI跳过模块50的示范性原型系统。在所述原型系统中,如上文参看图13-15描述将每两个帧分组为一单元。在每一单元中,编码第一非ROI区域而跳过第二非ROI区域(例如使用具有零运动向量的预测MB)。每一单元的位分配可基于与“贪婪”帧级位分配相同的逻辑,其中假定序列中的视频帧的内容复杂性均匀分布在帧中。通过这一假定,位应当均匀地分布在两帧单元之间 其中ρsequence是视频序列中的一组M个连续帧的总计ρ预算,ρuniti是针对第i个单元的ρ分配,且ρused是最初(i-1)/2个单元的ρ消耗。在单元内,可使用任一位分配模型(I或II)将位分配到ROI和非ROI区域内的MB。
为了评估非ROI跳过的结果,如本文所述,已执行了若干测试。在所述测试中,对以下位分配技术进行了比较(a)经加权位分配算法,其基于模型II,具有全部时间非ROI跳过;(b)经加权位分配算法,其基于模型II,没有非ROI跳过;以及(c)“贪婪”算法,其中在位分配过程中等同地对待ROI和非ROI MB。以15帧每秒(fps)的速率对标准“Carphone”QCIF视频序列的最初150个帧实行了所述测试。图16-23中展示所述比较的结果。
图16是将上述编码技术(a)、(b)和(c)的总体感知质量进行比较的曲线图。明确地说,图16描绘在一编码速率范围(以每秒千位(kbps)计)内的感知PSNR(以分贝(db)计)。图17是将上述编码技术(a)、(b)和(c)的总体视频保真度进行比较的曲线图。术语“总体”视频保真度是指ROI和非ROI区域两者的组合(即,整个帧的视频保真度),且可替代地称为“帧”视频保真度。图17描绘在一编码速率范围(以每秒千位(kbps)计)内的“帧”PSNR(以分贝(db)计)。
图18和19分别是将上述编码技术(a)、(b)和(c)的ROI视频保真度与非ROI视频保真度进行比较的曲线图。明确地说,图18和19描绘在一编码速率范围(以每秒千位(kbps)计)内的PSNR(以分贝(db)计)。根据图18,ROI视频保真度是指视频帧的ROI区域内的视频保真度。根据图19,非ROI视频是指视频帧的非ROI区域内的视频保真度。图16-19表示在经加权位分配算法中应用用户偏好因数α=0.9。在图16-19的每一者中,(a)具有全部时间非ROI跳过的经加权位分配、(b)没有跳过的经加权位分配和(c)贪婪算法的曲线分别由参考标号116、118、120识别。
图20和21分别是将上述编码技术(a)、(b)、(c)的总体感知质量和总体视频保真度进行比较的曲线图。明确地说,图20描绘在一编码速率范围(以每秒千位(kbps)计)内的感知PSNR(以分贝(db)计)。图21描绘在一编码速率范围(以每秒千位(kbps)计)内的PSNR(以分贝(db)计)。图20和21表示在经加权位分配算法中应用用户偏好因数α=0.7。图22和23分别是将编码技术(a)、(b)和(c)的总体感知质量和总体视频保真度进行比较的曲线图。图22和23表示在经加权位分配算法中应用用户偏好因数α=0.5。在图20-23中,(a)具有全部时间非ROI跳过的经加权位分配、(b)没有跳过的经加权位分配和(c)贪婪算法的曲线分别由参考标号116、118、120识别。
对于图16-23所示的测试结果,四组视频质量测量(即感知PSNR、帧PSNR、ROI PSNR和非ROI PSNR)已界定如下 1.感知PSNR=-10 log10 DFrame; 2.帧 3.以及 4.非 在以上表达式中,DFrame是帧的总体时间和空间失真,DF是原始帧与重构帧之间的视频保真度,DRF是原始帧与重构帧的ROI区域之间的视频保真度,且DNF是原始帧与重构帧的非ROI区域之间的视频保真度。图16、20和22中展示感知PSNR。图17、21和23中展示帧PSNR。图18中展示ROI PSNR,且图19中展示非ROI PSNR。图16-23所示的结果表明所提议的非ROI跳过方法与所有测试中的其它方法相比在感知PSNR(PPSNR)方面具有1dB以上的增益。所述增益主要来自ROI质量的改进,如图18和19所示,所述改进是通过在编码帧中将来自非ROI的位重新分配到ROI来实现的。
一个引入注意的观测结果是,非ROI(背景)跳过方法在低位速率下帧PSNR方面也胜过其它方法,如图17、21和23所示。另外,曲线图展示帧PSNR的增益随着用户偏好因数α的减小而增加。这些观测结果指示非ROI跳过方法对于如无线VT的非常低位速率应用非常具有吸引力,因为其不仅在视频保真度而且在视觉质量方面均胜过其它方法。预期当为α指派较大值(例如,图16中α=0.9)时,经加权位分配方法将胜过贪婪算法。然而,所述优点随着α的减小而减小,如图20和22所示。
已经执行了额外测试来评估并入有非ROI跳过的位分配技术与依赖于帧跳过(即,跳过整个帧而不是仅跳过非ROI区域)的经加权位分配技术的性能。图24是将使用标准帧跳过和背景跳过的ROI编码技术的感知质量进行比较的曲线图。在每一情况下,均应用如本文所述的经加权位分配。在一种情况下,应用非ROI(背景)跳过。在另一情况下,应用全部时间帧跳过,使得以交替基础每隔一个帧进行跳过。图24描绘感知PSNR(以分贝计)与速率(以每秒千位(kbps)计)。在图24中,参考标号122、124和126分别识别具有帧跳过且用户偏好因数α=0.9、0.7和0.5的经加权位分配的曲线。参考标号128、130、132分别识别具有非ROI跳过且用户偏好因数α=0.9、0.7和0.5的经加权位分配的曲线。如图24所示,具有非ROI跳过的经加权位分配在α的所有设定值下均胜过具有帧跳过的经加权位分配。非ROI跳过所提供的性能增益随着α值的增加而增加。此结果是合理的,因为当α较大时,因帧跳过而对ROI的惩罚加重。
如图16-24表明,非ROI背景跳过方法产生良好性能,尤其是在非ROI维持相对较低移动时。然而,对于具有含有大量运动的非ROI区域的视频序列,性能增益可能减小。同时,可能跳过重要的背景信息,从而导致系统性能降级。因此,当跳过严重降级视频保真度时,例如当背景内容含有重要信息时,需要关闭背景跳过。举例来说,将通过具有开启和关闭的非ROI跳过的经加权位分配进行的ROI编码应用于标准Carphone视频测试序列的其中背景快速移动的第180到209个帧。图25展示此分析的结果。更明确地说,图25是将如本文所描述当非ROI跳过开启和关闭时的经加权位分配的ROI编码技术的感知质量进行比较的曲线图。
图25以曲线图描绘感知PSNR(以分贝计)与速率(以每秒千位计)。在图25中,参考标号134和136分别识别表示应用非ROI跳过开启的且用户偏好因数α=0.9和0.5的经加权位分配的曲线。参考标号138、140分别识别表示应用非ROI跳过关闭的且用户偏好因数α=0.9和0.5的经加权位分配的曲线。图25中的结果指示所比较的非ROI跳过的优点随着α减小(例如,从0.9到0.5)而减小。此结果还指示开发实现基于视频序列的内容和用户的关注程度(如用户偏好因数α所表示)对非ROI跳过进行动态控制的适应性非ROI跳过方法的价值。
可明确地比较具有和不具有非ROI跳过的经加权位分配所产生的失真,如以下指示 DSkip_on=αDRF(ρ1)+(1-α)DNF(ρ2)+αDRF(ρunit-ρ1-ρ2)+(1-α)DNonROI_skip,(35) DSkip_off=αDRF(ρ1′)+(1-α)DNF(ρ2′)+αDRF(ρ3′)+(1-α)DNF(ρunit-ρ1′-ρ2′-ρ3′),(36) 其中DSkip_on是当非ROI跳过模式开启时的单元总计失真,DSkip_off是当背景跳过模式关闭时的单元总计失真,DNonROI_skip是由跳过单元的第二帧中的非ROI引起的失真,且其中等式(35)中的ρ1和ρ2以及等式(36)中的ρ1′、ρ2′和ρ3′是分配到ROI和非ROI的AC系数(ρ)的数目。
从等式(35)和(36)中可观察到,仅当DNonROI_skip>>DNF(ρunit-ρ1′-ρ2′-ρ3′)时,Dskip_on>Dskip_off才成立,因为通常以下表达式成立 αDRF(ρ1)+(1-α)DNF(ρ2)+αDRF(ρunit-ρ1-ρ2)<αDRF(ρ1′)+(1-α)DNF(ρ2′)+αDRF(ρ3′) 从如图26所示的Carphone视频测试序列的DNonROI_skip的统计中验证此观测结果是正确的。图26是说明示范性视频序列上由背景跳过引起的失真的曲线图。明确地说,图26描绘Carphone视频测试序列的最初240个帧上的平均非ROI区剩余能量DNonROI_skip与帧数目。根据图26,可容易了解到在帧180-209期间DNonROI_skip值远远大于其它值,帧180-209是以高度运动为特征的帧。因此,尽管非ROI跳过通常是有利的,但在帧180-209所提供的高运动部分期间其并不有利。
基于以上观测结果,追求用于开启和关闭背景跳过模式的标准的任务转化为寻找DNonROI_skip失真的阈值的任务。如果假定视频序列中的单元失真以平滑方式变化(通常如此),那么最新近处理的单元失真的平均值可用于导出失真阈值。将

表示为最新近n个单元的平均失真,那么基于(35)和(36),如果成立,那么非常有可能实现DSkip_on>DSkip_off。换句话说,用于关闭非ROI跳过的标准可被指定为此标准可充当适应性非ROI跳过算法的基础。
适应性非ROI跳过算法可与图13所示的过程大体上一致,且可进一步描述为如下。
步骤0初始化数据,并设定且跳过模式=开启。
步骤1使用等式(34)为当前单元(具有两个连续帧Fn和Fn+1的群组)分配ρ预算。
步骤2在当前单元内,通过等式(32)为每一宏区块分配位。如果跳过模式开启,那么不为单元内的第二帧的非ROI分配位。
步骤3在获得当前单元的失真之后,通过更新

其中η是学习因数且在
范围内。
步骤4为下一单元取得数据;如果这是最后的单元,那么行进到步骤6。
步骤5计算新单元(具有接下来两个帧Fn+2和Fn+3的群组)的DNonROI_skip失真;如果那么关闭跳过模式;否则,开启跳过模式。返回到步骤1。
步骤6终止适应性跳过算法。
图27是将使用非ROI跳过、没有非ROI跳过和适应性非ROI跳过的ROI编码技术的总体感知质量进行比较的曲线图。在每一情况下,均应用如本文所述的经加权位分配算法。图27描绘针对标准Carphone视频测试序列的帧180-209的ROI视频编码的感知PSNR(以分贝计)与速率(以每秒千位计)。参考标号142和144分别识别表示非ROI跳过开启的且用户偏好因数α=0.9和0.5的经加权位分配的曲线。参考标号146和148分别识别表示非ROI跳过关闭的且用户偏好因数α=0.9和0.5的经加权位分配的曲线。参考标号150和152分别识别表示具有适应性非ROI跳过和用户偏好因数α=0.9和0.5的经加权位分配的曲线。在此估计中,值η设定为η=0.25。图27中的结果展示,对于α的各种值,适应性非ROI跳过方法的结果均非常接近于最佳解决方案。
图28-33展示应用如本揭示内容中描述的经加权位分配技术的ROI编码技术的额外实验结果。图28-32表示将各种ROI编码技术应用于标准Carphone视频测试序列。对于图28-32,经加权位分配方法(“提议的方法”和“经加权位分配”)中使用的用户偏好因数α设定为0.9。“提议的方法”标记是指具有非ROI跳过的经加权位分配。“经加权位分配”标记是指没有非ROI跳过的经加权位分配。
图28是将使用各种位分配技术的ROI编码技术的总体感知质量进行比较的曲线图,并描绘感知PSNR与速率。在图28中,参考标号154、156、158、160和162分别识别表示应用帧跳过方法、具有非ROI跳过的经加权位分配方法、贪婪算法、恒定QP算法和没有非ROI跳过的经加权位分配方法的曲线。
图29是将在40千位每秒(kps)的编码速率下使用各种位分配技术的ROI编码技术的总体感知质量进行比较的曲线图。明确地说,图29描绘针对具有非ROI跳过的经加权位分配、贪婪算法和恒定QP算法的感知PSNR与帧数目。
图30是将在40千位每秒(kps)的编码速率下使用各种位分配技术的ROI编码技术的总体视频保真度进行比较的曲线图,并描绘PSNR与帧数目。图31是将在40千位每秒(kps)的编码速率下使用各种位分配技术的ROI编码技术的ROI视频保真度进行比较的曲线图,并描绘ROI中的PSNR与帧数目。图32是将在40千位每秒(kps)的编码速率下使用各种位分配技术的ROI编码技术的非ROI视频保真度进行比较的曲线图,并描绘非ROI PSNR与帧数目。
在图29-32中,具有非ROI跳过的经加权位分配由参考标号164指示,贪婪算法由参考标号166指示,且恒定QP算法由参考标号168指示。恒定QP算法是仅帧级速率控制算法,其中帧中的所有MB均被分派相同量化器。贪婪算法已在上文中描述,且以MB级进行操作。帧跳过算法应用标准帧跳过以避免以交替基础编码每隔一个帧的内容,且跳过ROI和非ROI区域两者。没有非ROI跳过的经加权位分配和具有适应性帧跳过的经加权位分配(“提议的方法”)已在上文中描述。
图28展示提议的方法在整个位速率范围内均胜过所有其它方法,且性能增益多达2dB。在图29-32中,表明提议的方法、贪婪算法和恒定QP算法的帧级细节。
图33是将在一编码速率范围内针对另一示范性视频序列使用各种位分配技术的ROI编码技术的总体感知质量进行比较的曲线图。明确地说,图33描绘标准Foreman视频测试序列的最初180个帧上的感知PSNR与速率。在图33中,参考标号154、156、158、160和162分别识别表示应用帧跳过方法、具有非ROI跳过的经加权位分配方法、贪婪算法、恒定QP算法和没有非ROI跳过的经加权位分配方法的曲线。
如图33所示,帧跳过方法没有像在Carphone序列中执行得那样好,因为与Carphone序列相比,Foreman序列的脸部含有大得多的运动。因此,在Foreman序列中帧跳过遗漏过多量的ROI信息,从而导致令人不满意的性能。值得注意的是,具有适应性非ROI跳过的经加权位分配的提议方法对于Foreman序列执行得非常好,如图33表明。
在本揭示内容中,已描述了各种技术以支持用于视频电话或视频串流应用的ROI编码,尤其是在具有非常低位速率要求时(例如,在无线视频电话中)。本揭示内容提供两种不同的经优化的用于ROI视频编码的ρ域中的经加权位分配方案。本揭示内容还提供可与经加权位分配模型共同工作以实现较好性能的适应性非ROI(“背景”)跳过方法。另外,本揭示内容提供用于测量ROI视频质量的视频质量度量。ROI质量度量可用于引导优化的位分配技术通过共同考虑用户对ROI的偏好、视频保真度、空间感知质量和时间感知质量来产生较好的主观视觉质量。ROI质量度量实现用户交互以偏移编码参数从而满足主观感知质量要求。
本文描述的技术可在硬件、软件、固件或其任何组合中实施。如果在软件中实施,那么可部分通过计算机可读媒体来实现所述技术,所述计算机可读媒体包括含有在执行时会执行所述方法中的一者或一者以上的指令的程序代码。在此情况下,计算机可读媒体可包括例如同步动态随机存取存储器(SDRAM)的随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、FLASH存储器、磁性或光学数据存储媒体等。
程序代码可由一个或一个以上处理器执行,所述一个或一个以上处理器例如一个或一个以上数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路。在一些实施例中,本文描述的功能性可提供在经配置以用于编码和解码的专用软件模块或硬件单元内,或并入在组合的视频编解码器(CODEC)中。
已描述了各种实施例。这些和其它实施例属于所附权利要求书的范围内。
权利要求
1.一种方法,其包括
获得视频帧内的关注区的界定;
获得界定可用于所述帧的编码位数目的帧预算;以及
基于所述帧预算和所述关注区内的宏区块与所述视频帧的不在所述关注区内的区域内的宏区块之间的加权将ρ域值分配到所述帧内的宏区块。
2.根据权利要求2所述的方法,其进一步包括将所述ρ域值映射到相应的量化参数(QP)值以将一数目的编码位分配到所述宏区块中的每一者。
3.根据权利要求2所述的方法,其进一步包括使用所述分配的编码位来编码所述视频帧的所述宏区块。
4.根据权利要求2所述的方法,其中所述分配的位的数目小于或等于由所述帧预算指定的位数目。
5.根据权利要求2所述的方法,其中所述加权至少部分基于先前帧的失真。
6.根据权利要求2所述的方法,其中所述加权至少部分基于先前帧的视频保真度、所述先前帧的感知质量和用户对所述关注区的偏好。
7.根据权利要求6所述的方法,其中所述感知质量包含所述先前帧的时间质量值和空间质量值。
8.根据权利要求6所述的方法,其中所述时间质量值包含所述关注区的第一时间质量值以及所述视频帧的不在所述关注区内的区域的第二时间质量值。
9.根据权利要求6所述的方法,其中所述空间质量值包含所述关注区的第一空间质量值以及所述视频帧的不在所述关注区内的区域的第二空间质量值。
10.根据权利要求6所述的方法,其中所述空间质量值至少部分基于所述先前帧中成块假象的存在,且其中所述时间质量值至少部分基于所述先前帧中时间闪烁假象的存在。
11.根据权利要求6所述的方法,其中所述视频保真度包含至少部分基于所述先前视频帧的峰值信号噪声比的失真值。
12.根据权利要求1所述的方法,其中分配ρ域值包含基于关于是否将跳过对不在所述关注区内的所述区域的编码的指示来分配所述ρ域值。
13.根据权利要求12所述的方法,其进一步包括将连续帧分组为帧单元,编码与所述各个帧相关联的关注区,以及针对所述帧中的至少一者跳过对所述视频帧的不在各个关注区内的区域的编码。
14.根据权利要求12所述的方法,其进一步包括当与先前帧单元相关联的失真值小于阈值时,针对所述帧中的至少一者选择性地跳过对不在各个关注区内的区域的编码。
15.一种装置,其包括
关注区映射器,其产生视频帧内的关注区的界定;
帧级速率控制器,其产生界定可用于所述帧的编码位数目的帧预算;以及
位分配模块,其基于所述帧预算和所述关注区内的宏区块与所述视频帧的不在所述关注区内的区域内的宏区块之间的加权而将ρ域值分配到所述帧内的宏区块。
16.根据权利要求15所述的装置,其进一步包括ρ-QP映射器,所述ρ-QP映射器将所述ρ域值映射到相应的量化参数(QP)值以将一数目的编码位分配到所述宏区块中的每一者。
17.根据权利要求15所述的装置,其进一步包括视频编码器,所述视频编码器使用所述分配的编码位来编码所述视频帧的所述宏区块。
18.根据权利要求15所述的装置,其中所述分配的位的数目小于或等于由所述帧预算指定的位数目。
19.根据权利要求15所述的装置,其中所述加权至少部分基于先前帧的视频保真度、所述先前帧的感知质量和用户对所述关注区的偏好。
20.根据权利要求19所述的装置,其中所述感知质量包含所述先前帧的时间质量值和空间质量值。
21.根据权利要求20所述的装置,其中所述时间质量值包含所述关注区的第一时间质量值以及所述视频帧的不在所述关注区内的区域的第二时间质量值。
22.根据权利要求20所述的装置,其中所述空间质量值包含所述关注区的第一空间质量值以及所述视频帧的不在所述关注区内的区域的第二空间质量值。
23.根据权利要求20所述的装置,其中所述空间质量值至少部分基于所述先前帧中成块假象的存在,且其中所述时间质量值至少部分基于所述先前帧中时间闪烁假象的存在。
24.根据权利要求19所述的装置,其中所述视频保真度包含至少部分基于所述先前视频帧的峰值信号噪声比的失真值。
25.根据权利要求15所述的装置,其中所述位分配模块基于关于是否将跳过对不在所述关注区内的所述区域的编码的指示来分配ρ域值。
26.根据权利要求25所述的装置,其进一步包括
视频编码器,其编码所述视频帧的所述宏区块;以及
跳过模块,其引导所述视频编码器将连续帧分组为帧单元,编码与所述各个帧相关联的关注区,且针对所述帧单元内的所述帧中的至少一者跳过对所述视频帧的不在各个关注区内的区域的编码。
27.根据权利要求25所述的装置,其中当与先前帧单元相关联的失真值小于阈值时,所述跳过模块引导所述视频编码器针对所述帧中的至少一者选择性地跳过对所述视频帧的不在各个关注区内的区域的编码。
28.根据权利要求15所述的装置,其进一步包括无线发射器,所述无线发射器经由无线通信通道来传输所述经编码的视频帧,其中所述装置经配置以支持移动视频电话。
29.一种计算机可读媒体,其包括用以促使处理器执行以下操作的指令
获得视频帧内的关注区的界定;
获得界定可用于所述帧的编码位数目的帧预算;以及
基于所述帧预算和所述关注区内的宏区块与所述视频帧的不在所述关注区内的区域内的宏区块之间的加权将ρ域值分配到所述帧内的宏区块。
30.根据权利要求29所述的计算机可读媒体,其进一步包括用以促使所述处理器执行以下操作的指令将所述ρ域值映射到相应的量化参数(QP)值以将一数目的编码位分配到所述宏区块中的每一者。
31.根据权利要求29所述的计算机可读媒体,其进一步包括用以促使所述处理器执行以下操作的指令使用所述分配的编码位来编码所述视频帧的所述宏区块。
32.根据权利要求29所述的计算机可读媒体,其中所述分配的位的数目小于或等于由所述帧预算指定的位数目。
33.根据权利要求29所述的计算机可读媒体,其中所述加权至少部分基于先前帧的失真。
34.根据权利要求29所述的计算机可读媒体,其中所述加权至少部分基于先前帧的视频保真度、所述先前帧的感知质量和用户对所述关注区的偏好。
35.根据权利要求34所述的计算机可读媒体,其中所述感知质量包含所述先前帧的时间质量值和空间质量值。
36.根据权利要求35所述的计算机可读媒体,其中所述时间质量值包含所述关注区的第一时间质量值,和所述视频帧的不在所述关注区内的区域的第二时间质量值。
37.根据权利要求35所述的计算机可读媒体,其中所述空间质量值包含所述关注区的第一空间质量值以及所述视频帧的不在所述关注区内的区域的第二空间质量值。
38.根据权利要求35所述的计算机可读媒体,其中所述空间质量值至少部分基于所述先前帧中成块假象的存在,且其中所述时间质量值至少部分基于所述先前帧中时间闪烁假象的存在。
39.根据权利要求34所述的计算机可读媒体,其中所述视频保真度包含至少部分基于所述先前视频帧的峰值信号噪声比的失真值。
40.根据权利要求29所述的计算机可读媒体,其进一步包括用以促使所述处理器执行以下操作的指令基于关于是否将跳过对不在所述关注区内的所述区域的编码的指示来分配所述ρ域值。
41.根据权利要求40所述的计算机可读媒体,其进一步包括用以促使所述处理器执行以下操作的指令将连续帧分组为帧单元,编码与所述各个帧相关联的关注区,且针对所述帧中的至少一者跳过对所述视频帧的不在各个关注区内的区域的编码。
42.根据权利要求40所述的计算机可读媒体,其进一步包括用以促使所述处理器执行以下操作的指令当与先前帧单元相关联的失真值小于阈值时,针对所述帧中的至少一者选择性地跳过对不在各个关注区内的区域的编码。
全文摘要
本揭示内容针对用于视频电话(VT)的关注区(ROI)编码的技术。所揭示的技术还包含用于在ρ域内以宏区块(MB)级使用经加权位分配模型将位分配到ROI和非ROI区域的技术。
文档编号H04N7/26GK101164342SQ200680013595
公开日2008年4月16日 申请日期2006年2月28日 优先权日2005年3月1日
发明者王浩宏, 哈立德·希勒米·厄勒-马列 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1