引入视觉模型的mpeg视频码流码率转换方法

文档序号：7946344阅读：429来源：国知局

专利名称：引入视觉模型的mpeg视频码流码率转换方法
技术领域：
本发明涉及MPEG视频码流码率转换方法。
背景技术：
随着视频压缩技术和网络技术的发展，各种网络多媒体服务，如多点视频会议、视频点播、数字电视等，不断出现。为了支持各种服务，视频服务器必须适应客户端与传输信道的异质性，从而要求其具有视频码流转换的功能。码流转换包括语法转换、(空间和时间)分辨率转换、码率转换等。本发明针对码率转换，即把已有的视频码流根据传输信道的实际带宽限制转换为与之相适应的更低码率的码流。
目前视频码流转换有许多方法，可以概括为三类体系结构(1)级联像素域转换；(2)快速级联像素域转换；(3)DCT(离散余弦变换)域转换。级联像素域转换需要经过完全解码，再重新编码的过程，计算量大，转换速度很慢。DCT域转换直接在DCT域上进行，无需DCT/IDCT过程，计算量很小，但是它的灵活性受到限制，当要求改变运动矢量时很难实现，不易实现扩展。快速级联像素域转换是级联像素域转换的简化版，由于不需要进行运动估计，因此转换速度明显高于级联像素域转换；但有由于要进行DCT/IDCT过程，因此转换速度要低于DCT域转换。
目前已有视频码流转换没有很好地利用人类视觉系统(HVS)特性，导致所转换成的低码率码流不能很好地与HVS特性一致，主观质量较差，转换效率低。

发明内容
本发明的目的是提供一种与HVS特性一致的快速MPEG视频码流码率转换方法，在异质网络环境中传递主观质量更好的视频码流。
为了实现上述目的，一种引入视觉模型的MPEG视频码流码率转换方法，包括步骤对输入的码流进行部分解码；DCT系数截断，去除高于截止频率的系数；码率控制，重新确定各宏块的量化因子；再编码。
本发明在转换中巧妙地利用了Fovea视觉模型，有效地提高转换效率，产生主观质量相对更好低码率码流，并进一步减少了计算量。

图1是本发明的结构示意图；图2是8×8 DCT系数块的多分辨率频带表示。
具体实施例方式
为了更好地理解本发明，首先对Fovea视觉模型给予说明。根据对HVS研究表明人眼对于视觉信息的采样是非均匀的。一般情况下，人眼观看一幅图像时有一个注视点，可称为Fovea点，在该点处人眼具有最高感知清晰度。以该点为中心，向周围延伸人眼感知清晰度快速下降。依据这样的特性，人们给出可应用于视频图像编码的Fovea视觉模型给定Fovea点，对于图像中的任意一点(x，y)，它的截止频率(人眼的最大可感知频率)fc(x，y)由下面的公式确定fc(x,y)=min{i8:d&GreaterEqual;B[i,V],1≤i≤8,i&Element;Z+}]]>d＝(x-xf)2+(y-yf)2B[i，V]＝min{r2[fc(r，V)×8]＝i，r∈Z+}fc(r,V)=11+Karctan(r-RV)]]>其中，(xf，yf)代表图像中Fovea点坐标，V代表视点到图像的距离，模型参数k＝13.75，R代表以Fovea点为中心的圆形区域的半径，对该区域给予最高感知清晰度(即fc＝1.0)的编码。在图像中频率高于截止频率fc(x，y)的信息不能被人眼感知。
把一帧图像分为8个区域，每个区域中具有相同的截止频率，不同的区域截止频率不同，截止频率取值范围是i8(1≤i≤8,i&Element;Z+).]]>图1给出了本发明的结构示意图，图中缩写的意思是VLD-变字长解码、VLC-变字长编码、DCT-离散余弦变换、IDCT-反离散余弦变换、Q-量化、IQ-反量化、MV-运动矢量、MC-运动补偿、FM-帧存储。鉴于快速级联像素域转换的体系结构具有计算量较小，结构灵活，便于扩展的优点，本发明基于该结构，并依据Fovea视觉模型进行了相应的改进。本发明主要由以下几个部分构成●部分解码对输入的码率为R1的MPEG视频流进行变字长解码(VLC)，之后根据码流中的量化因子信息进行反量化(IQ1)，得到每个8×8块DCT系数。
●DCT系数截断依据Fovea视觉模型，在8×8 DCT块内高于截止频率的系数不能被人主观视觉感知，如果将其去除，不会影响主观视觉质量，可以有效地提高转换效率。DCT系数截断模块就是为实现这一目的而加入的。
可以近似认为一个8×8块具有唯一截止频率，一般取8×8块的中心点为代表，由它的坐标计算该块的截止频率fc。一个8×8的DCT系数块可分成8个频带，构成多分辨率表示，如图2所示。对于任意一频带m，它的频率f(m)为m8(1≤m≤8,m&Element;Z+).]]>这样基于Fovea视觉模型的DCT系数截断方法可以如下表述给定Fovea点，对于一个8×8的DCT块，其截止频率为fc，它的一个DCT系数为F(u，v)，该系数属于频带m，那么 ●码率控制要把MPEG视频码流的码率由R1降为R2，就要运用码率控制模块重新确定各宏块的量化因子，根据量化因子对DCT系数重新量化。本发明依据Fovea视觉模型对原有的MPEG TM5码率控制方法进行改进，构成新的基于Fovea视觉模型的码率控制方法，其主要步骤如下(1)图像帧级目标编码比特数分配具体方法与TM5方法相同，不再详细阐述。
(2)宏块级目标编码比特数分配假设一帧图像的编码比特数为R，在此图像中共有M个宏块，每个宏块中有N个8×8块。原有的TM5方法对每个宏块平均分配目标编码比特数，即对于任一个宏块k，它被分配的目标编码比特数为r(k)=RM.]]>经改进后，宏块的目标编码比特数根据截止频率的大小比例来分配(宏块内的截止频率越高，被分配的目标编码比特数应越多)，即r(k)=Σj=0N(fc(k)(j))2Σi=0M×N(fc(i))2R]]>其中Σj=0N(fc(k)(j))2]]>表示宏块k内的N个8×8块的截止频率的平方和，Σi=0M×N(fc(i))2]]>为图像内所有8×8块的截止频率的平方和。
(3)码率控制根据虚拟缓冲区(VBV)的满度，确定各宏块的参考量化因子Qi。此处采用的方法与TM5相同，不再详细阐述。
(4)自适应量化在TM5方法中，根据宏块的空间活动性来自适应确定它的最终量化因子，而宏块的空间活动性是该宏块内所有8×8块空间活动性的最小值，其中8×8块空间活动性是由块内的信息变化率V来确定，即V=164Σi=064(pi-pmean)2,]]>其中pmean=164Σi=064pi2]]>
其中pi表示块内第i个像素的亮度值。在压缩域上这样的信息无法得到，为此本发明提出了DCT块空间活动性V DCT的计算方法V_DCT=1NΣi=0N|Fi|2]]>其中，此DCT块内低于此块截止频率的所有交流系数的个数为N，Fi表示这N个系数中的一个的值。
根据宏块内所有8×8DCT块空间活动性宏块的空间活动性，确定该宏块的空间活动性(经规范化后)NVi，那么该宏块的最终量化因子mqi为mqi＝Qi×NVi●再编码根据各宏块的最终量化因子mqi对该宏块内的所有DCT块的系数进行再量化(Q2)，之后再进行变字长编码(VLC)，生成码率为R2的MPEG视频码流。
●误差漂移补偿以上过程即可以实现MPEG视频码流转换。然而由于对DCT系数的再量化(Q2)会引起编码端和解码端的参考图像的不匹配，导致误差漂移，影响转换后所生成的码流的图像质量。为此需要误差漂移补偿模块来避免误差漂移。
把再量化前的DCT系数与再量化后的DCT系数的差值进行IDCT变换，得到像素域系数，送入帧存储器中。然后根据部分解码所得到的运动矢量(MV)信息，在像素域进行运动补偿(MC)，并将所得的预测值利用DCT变换转换成DCT系数，反馈回去与原有的预测帧的残差DCT系数相加，从而实现误差漂移补偿。
由于要进行IDCT及DCT变换，因此与DCT域转换相比，运算量较大。但是根据Fovea视觉模型，对一部分DCT系数可以不予计算，据此本发明提出了DCT/IDCT快速计算方法，显著减小DCT/IDCT计算量。原有的DCT及IDCT计算公式分别为F(u,v)=14C(u)C(v)Σi=07Σj=07f(i,j)×cosπu(2i+1)16cosπv(2j+1)16]]>
f(i,j)=14Σi=07Σj=07C(u)C(v)F(u,v)×cosπu(2i+1)16cosπv(2j+1)16]]>设一个8×8块的截止频率为t8(1≤t≤8,t&Element;Z+)]]>那么在该块内所有高于截止频率的高频DCT系数不被人眼感知，可以不予处理，即赋值为0。因此在对该块进行DCT/IDCT变换时，只计算低于截止频率的DCT系数，从而DCT及IDCT计算公式变为 u≤t且v≤t否则f(i,j)=14Σi=0tΣj=0tC(u)C(v)F(u,v)×cosπu(2i+1)16cosπv(2j+1)16]]>最后，需要指出在本发明中，Fovea点的选择可以由用户通过鼠标用交互的方式实现。
权利要求
1.一种引入视觉模型的MPEG视频码流码率转换方法，包括步骤对输入的码流进行部分解码；DCT系数截断，去除高于截止频率的系数；码率控制，重新确定各宏块的量化因子；再编码。
2.按权利要求1所述的方法，其特征在于所述的部分解码包括步骤对输入的视频流进行变字长解码；根据码流中的量化因子进行反量化。
3.按权利要求1所述的方法，其特征在于所述的码率控制包括步骤图像帧级目标编码比特数分配；宏块级目标编码比特数分配，根据截止频率的大小进行分配；码率控制；自适应量化。
4.按权利要求1所述的方法，其特征在于所述的再编码包括步骤根据各宏块的最终量化因子，对该宏块内的所有DCT块的系数进行量化；再进行变字长编码。
5.按权利要求1所述的方法，其特征在于还包括误差漂移补偿步骤把再量化前的DCT系数与再量化后的DCT系数的差值进行IDCT变换；根据部分解码所得到的运动矢量信息，在像素域进行运动补偿；将所得到的预测值利用DCT变换转换成DCT系数，并反馈回去与原有的预测帧的残差DCT系数相加。
6.按权利要求5所述的方法，其特征在于所述的DCT/IDCT的转换计算公式如下 u≤t且v≤t否则f(i,j)=14Σi=0tΣj=0tC(u)C(v)F(u,v)×cosπu(2i+1)16cosπv(2j+1)16.]]>
全文摘要
一种引入视觉模型的MPEG视频码流码率转换方法，包括步骤对输入的码流进行部分解码；DCT系数截断，去除高于截止频率的系数；码率控制，重新确定各宏块的量化因子；再编码。本发明在转换中巧妙地利用了Fovea视觉模型，有效地提高转换效率，产生主观质量相对更好低码率码流，并进一步减少了计算量。
文档编号H04N5/14GK1510923SQ02157889
公开日2004年7月7日申请日期2002年12月20日优先权日2002年12月20日
发明者张勇东, 曹岗, 林守勋, 李锦涛申请人:中国科学院计算技术研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张勇东、曹岗、林守勋、李锦涛
技术所有人：中国科学院计算技术研究所
我是此专利的发明人

上一篇：搜索请求的产生方法及移动通信设备的制作方法
上一篇：移动网络消息到电子邮件的重定向的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。