实时运动图像编码的高速运动估计方法及其装置的制作方法

文档序号：6416382阅读：209来源：国知局

专利名称：实时运动图像编码的高速运动估计方法及其装置的制作方法
技术领域：
本发明涉及一种实时运动图像编码的超高速运动估计方法，更具体地涉及这样一种运动估计方法，它通过对诸如MPEG-2的运动画面编码按运动估计在低分辨率下确定多个候选运动矢量、利用相邻块的运动矢量相关性确定各候选运动矢量、选择以多个运动矢量为中心的搜索区、以及计算运动矢量，来减少运动矢量的计算量。
在运动图像编码中广泛采用了通过除去时域重复(temporal duplication)来获得高数据压缩率的运动补偿编码，该编码在国际视频编码标准如MPEG-1、2、和4或H-263标准中有着重要作用。
运动补偿编码通过运动估计预测一个与从先前帧信息接收的图像最相近的图像，并转换编码一个通过从接收图像中减去估计图像获得的减法图像。

图1中示出了一种通常的运动图像编码装置。参照图1，通常的运动图像编码装置包括帧存储器102、运动估计器104和106、运动补偿器108、减法器110、离散余弦变换器112、量化器114、逆离散余弦变换器118、加法器120、帧延迟器122、前向分析和编码率控制器124、可变长度编码器126以及缓冲器128。
按帧单元输入的图像被存储在帧存储器102中。第一运动估计器104按整数象素单元来计算图像的运动矢量。第二运动估计器106利用从第一运动估计器104接收的运动矢量、从帧存储器102接收的视频信号、和从帧延迟器122接收的先前帧信息，按半象素单元来计算当前输入图像的运动矢量。
运动补偿器108根据从第二运动估计器106接收的运动矢量和从帧延迟器122接收的先前帧信息，执行运动补偿，以输出当前帧的估计图像。通过获得由减法器110从接收自帧存储器102的当前运动图像中减去运动补偿后的估计图像所得到的减法图像，去除运动图象时域重复。这种运动估计和补偿处理是按16×16的块单元来执行的，通常，将这样的块称作宏块。在运动估计和补偿后得到的减法图像，还要经受离散余弦变换器112和量化器114的离散余弦变换和量化处理。于是，去除了减法图像的剩余空间重复。运动矢量和量化后的减法图像由可变长度编码器126编码，并按位流的形式经缓冲器128传送。
前向分析和编码率控制器124控制可变长度编码器126的编码率。逆量化器116和逆离散余弦变换器118内插和恢复量化后的视频信号。加法器120将内插和恢复的结果与运动补偿后的视频信号相加，在帧延迟器122中存储相加结果。帧延迟器122存储的图像帧是当前图像帧的前一图像帧，帧延迟器122存储的该先前图象帧信息被输入到第二运动估计器106和运动补偿器108。
目前，本领域技术人员已经公知在处理运动图像的运动估计和补偿方法中按帧单元进行运动估计和补偿的方法和按场单元进行运动估计和补偿的方法，因此这些方法的说明在本说明书中被省略。
在通过整块规模匹配的分析(FSBMA)来进行运动估计的常规方法中，通过将当前帧划分成均一尺寸的块、将所划分的各个块按照给定的匹配标准与在参考帧的搜索区中所有块进行比较、并搜索最佳匹配块位置，来估计各个块的两维运动矢量。在这种常规块匹配方法中采用计算相对简单的平均绝对差值(MAD)作为搜索最佳匹配块的匹配标准。利用方程1计算MAD。MAD(i,j)=1N2Σk=1NΣI=1N|ft(k,I)-ft-1(k+i,I+j)|----(1)]]>其中，ft(k，I)是当前帧在(k，1)位置上的象素的亮度值，ft-1(k+i，I+j)是从(k，1)移动(i，j)后所处位置上的象素的亮度值。
在这种块匹配方法中，根据在进行编码时实际图像的运动来确定最大的运动估计范围。通过比较在运动估计范围中的所有块与当前块来估计运动矢量的FSBMA在估计增益上具有最佳性能。然而，需要过多的计算量。例如，若一帧中的最大运动位移在尺寸为M×N的块中为±p(间距/帧)，则在参考帧中搜索区的尺寸为(M+2p)×(N+2p)。即，由于按照该匹配标准要比较的候选块的数量为(2p+1)2，所以随着p变大，要实现实时运动图像编码就更困难了。
在电气与电子工程师协会的《视频技术的电路与系统》会刊1995年5月第4期第344至351页(IEEE Trans.of Circuits & Systems for VideoTechnology，1995，5，(4)，pp344-351)的作者为K.M.Nam，J.S.Kim，R.H.Park，Y.S.Shim题目为“采用等分锥的快速分级运动矢量估计算法(A FastHierarchical Motion vector Estimation Algorithm Using Mean Pyramid)”、以及电气与电子工程师协会的《视频技术的电路与系统》会刊1994年4月第1期第88至90页(IEEE Trans.of Circuits & Systems for Video Technology，1994，4，(1)，pp88-90)的题目为“提高用于视频编码的3级搜索区匹配算法的精度并减小其成本(Accuracy Improvement And Cost Reduction of 3-step SearchRegion Matching Algorithm for Video Coding)”文中提供了解决这种问题的另一种现有技术。在上述文件中，描述了采用多个候选方案来代替FSBMA的高速分级搜索方法。
采用多个候选方案的该方法能够解决因分级搜索而产生的局部最小值问题。然而，要达到近于FSBMA的性能，仍需要大量的计算。而且，由于这些方法基于三级分级搜索方法，所以它们的共同缺点是不适于估计大搜索区中的运动。
为了解决上述问题，本发明的目的是提供一种运动估计方法，通过它，能够减小用于计算运动矢量的计算量，从而高速估计运动矢量。
本发明的另一个目的是提供一种采用该运动矢量估计方法实现的运动估计装置。
因此，为了实现第一目的，提供了一种通过块匹配来压缩运动图像的运动估计方法，它包括下列步骤(a)通过减小层0的分辨率来提供层1，并通过减小层1的分辨率来提供层2，其中层0是输入图像帧；(b)计算相对于层2的一搜索区的平均绝对差值(MAD)；(c)确定至少两个使步骤(b)计算的MAD最小的位置，作为在层1中的初始搜索中心点；(d)利用当前块的各相邻块的相关性，在层1中进一步确定至少一个初始搜索中心点；(e)在层1中计算相对于以初始搜索中心点为中心的各搜索区的MAD；(f)选择使步骤(e)计算的MAD最小的位置，作为在层0中的搜索中心点；(g)在层0中相对于在步骤(f)所选择的初始搜索中心点为中心计算搜索区的MAD；以及(h)根据在步骤(g)计算的MAD的位置和原点之间距离的信息，确定最终运动矢量。
为了实现第一目的，提供了另一种通过块匹配来压缩运动图像的运动估计方法，它包括下列步骤(a)在输入图像帧是层0时，则通过减小层0的分辨率来提供层1，并通过减小层1的分辨率来提供层2；(b)计算相对于层2的一搜索区的平均绝对差值(MAD)；(c)确定两个使步骤(b)计算的MAD最小的位置，作为在层1中的初始搜索中心点；(d)利用当前块的各相邻块的相关性，进一步确定一个初始搜索中心点；(e)在层1中计算相对于以三个初始搜索中心点为搜索中心的搜索区的MAD；(f)选择使步骤(e)计算的MAD最小的位置，作为在该层中的初始搜索中心点；(g)计算相对于层0的该搜索区的MAD；以及(h)利用在步骤(g)计算的MAD最小的位置和原点之间距离的信息，确定最终运动矢量。
最好是，所述步骤(a)通过在水平和垂直方向上将输入层0的分辨率减小到1/2和1/4，来提供层1和层2。
最好是，所述步骤(d)通过计算各块的运动矢量的平均值来选择使MAD最小的位置，作为在层1中的初始搜索中心点；在所述各块中，各外围块之间运动矢量的绝对差值不大于预定阈值。
最好是，在所述步骤(e)和(g)中的搜索区由5×5个象素组成。
为了实现第二目的，提供了一种通过块匹配来压缩运动图像的运动估计装置，包括分辨率控制装置，用于通过降低层0的分辨率来提供层1，并且通过降低层1的分辨率来提供层2，其中层0是输入图像帧；MAD计算装置，用于计算相对于层2搜索区的第一MAD，计算相对于层1中将对应于各候选运动矢量的位置作为搜索中心点的搜索区的第二MAD，并且计算相对于层0中将使第二MAD最小的位置作为层0的搜索中心点的搜索区的第三MAD；初始搜索中心点判定装置，用于确定至少两个使第一MAD最小的位置，作为在层1中的初始搜索中心点，并且进一步利用当前块的各外围块的相关性来选择至少一个初始搜索中心点；以及，最终运动矢量判定装置，用于根据在第三MAD最小的位置和原点之间距离的信息，来确定最终运动矢量。
本发明的上述目的和优点将通过参照附图对其优选实施例的详细说明来更清楚地体现，附图中图1是应用本发明的运动图像编码装置原理结构的方框图；图2是表示本发明一实施例的运动估计方法主要步骤的流程图；图3描述本发明该实施例在由运动估计方法执行分级搜索时的分级搜索位置；图4A至图4F描述本发明该实施例在运动估计方法中采用当前块与外围块的相关性来确定候选运动矢量的过程。
以下，将参照附图对本发明用于实时运动图像编码的超高速运动估计方法及其装置的优选实施例进行详细说明。
图2是表示本发明一实施例的运动估计方法主要步骤的流程图。图3描述了由该运动估计方法执行分级搜索时的分级搜索位置。参照图2，在本发明的运动估计方法中，在水平和垂直方向上将接收图像帧的分辨率减小到1/2和1/4，于是形成了层1和层2(步骤202)。减小分辨率是为了通过减小搜索区尺寸来减小用于计算运动矢量的计算量。例如，若整个搜索区尺寸为R×R，则本实施例中搜索区的范围为(R/4)×(R/4)。
计算相对于层2的搜索区SR(2)(图3)的平均绝对差值(MAD)(步骤204)。由于所确定的搜索区SR(2)(图3)是来自-Ns到+Ns-1的区域，其中Ns为预定正整数，则它为宽度和长度均为2Ns且包含0的区域，于是搜索位置的数量为(2Ns×2Ns)/16，即(Ns×Ns)/4。
然后，选择使在步骤204中计算的MAD最小即估计误差最小的两个位置，作为下一步(在层1中)的初始搜索中心点(步骤206)。
进一步选择一个初始搜索中心点。下面将参照图4来说明选择进一步的初始中心点的过程。按诸如宏块等的块单元进行数字运动图像的压缩。例如，可以逐行地顺序处理各块。
如图4中所示，本发明中采用的外围块是三个相关的块。而且，根据运动矢量间的相关性，可将外围块划分成如图4所示的五个组。例如，若外围块的运动矢量MV为如图4A所示的各MV，则在外围块之间的运动矢量的绝对差值由方程2来定义。
S1＝‖MV1-MV2‖，S2＝‖MV2-MV3‖， ...(2)S3＝‖MV3-MV1‖之后，定义D为用于检查两个运动矢量之间相似性的阈值。然后，根据运动矢量之间的相关性，将外围块分成五组。即，参照图4B，组1满足ξ1≤D、ξ2≤D以及ξ3≤D的条件。参照图4C，组2满足ξ1≤D、ξ2＞D以及ξ3＞D的条件。参照图4D，组3满足ξ1＞D、ξ2≤D以及ξ3＞D的条件。参照图4E，组4满足的ξ1＞D、ξ2＞D以及ξ3≤D的条件。若不满足上述条件，就对应于组5。分别在组1、2、3和4的情况下，计算的运动矢量分别为MV＝(MVi+MV2+MV3)/3、MV＝(MVi+MV2)/2、MV＝(MV2+MV3)/2、以及MV＝(MVi+MV3)/2。选择使计算的运动矢量的平均值最小的位置，作为初始搜索中心点。
在此实施例中，只是为了解释的目的，说明了按照运动矢量的绝对差值将外围块分成五组并通过计算各组中平均运动矢量来确定初始搜索点的一种方法，然而，可将其修改成另一种利用外围块运动矢量相关性来选择一初始搜索中心点的方法，所以它没有限制由所附权利要求限定的本发明的范围。
然后，在层1中计算基于三个初始搜索中心点的搜索区SR1(1)、SR2(1)和SR3(1)的各MAD(步骤210)。在本实施例中，所设置的第一层中的搜索区按搜索中心点的±2个象素来构成，即总共有5×5个象素。
然后，选择使在步骤210中计算的MAD最小的位置，作为在层0中的初始搜索中心点(步骤212)。采用相对于所选择的初始搜索中心点的±2个象素的区域作为层0的搜索区，来计算MAD(步骤214)。
利用使所计算的MAD最小的位置和原点之间距离的信息，来确定最终的运动矢量(步骤216)。在两维图像的情况下，所确定的最终运动矢量是x-y轴坐标值。
利用MPEG-2试验图像进行一模拟试验，以评价本发明的运动估计方法的性能。在本领域技术人员所公知的试验图像中，采用五个MPEG-2图像序列，即‘足球’(fb)、‘轿车’(car)、‘苏茜’(sus)、‘汽车与日历’(mob)，‘激昂的啦啦队队长’(cheer)，作为输入图像。
所有图像具有30Hz的帧速率，并分别由150帧组成。各帧的尺寸为720×480。在层2、1和0中选择搜索点距离分别为4、2和1的尺寸为64×64(Ns＝32)、10×10、和5×5的搜索区。在层0中的块尺寸NB为16。考虑到相似性在偏离8个象素时会降低，将用于检查外围块之间相关性的阈值D设置为8。该值是层2中搜索点距离值的两倍。
为了证明本发明的运动估计方法的效果，将FSBMA的性能与一般分级搜索方法的性能相比较。只将具有最小估计差值的三个运动矢量确定为采用多个候选运动矢量的一般分级搜索方法中层2的候选运动矢量。同时，在FSBMA中从相邻块的运动矢量中估计第三候选运动矢量。表1示出对MPEG-2试验图像的首批150帧进行的运动估计和运动补偿的比较结果。
表1
参照表1，与FSBMA相比，本发明的运动估计方法的性能略低大约0.2dB，然而，其复杂度仅为FSBMA方法的1.5％。如果计算每个象素的MAD所需的运算次数和块数量分别为N和NB，则复杂度可通过表示式
来估算。这里
和25分别代表在层2、层1和层0分辨率下的计算量的比值。因此，对于32和64的NS，本发明运动估计方法的复杂度是FSBMA的复杂度的1.5％和0.7％。
而且，表2示出了对需要相对大搜索区的MPEG-2编码器应用本发明运动估计方法的结果。在本试验中，画面组(GOP)的数目N、P帧之间的距离以及目标位速率T分别设置为12、2和6Mbps。表2示出了再现图像的PSNR的比较结果。
表2
参照表2，本发明的运动估计方法的计算量显著减少到FSBMA的计算量的0.9％，而两者的PSNR几乎相等。
如上所述，在本发明的运动估计方法中，计算量小，并且，由于有效地利用了基于帧间最小估计差值的多个候选运动矢量和运动矢量空间的相关性，所以能够估计高速运动。
本发明的用于实时运动图像编码的超高速运动估计方法可以实现为装置。运动估计装置(未示出)包括分辨率控制器、MAD计算器、初始搜索中心点判定器、以及最终运动矢量判定器。
分辨率控制器在接收到的图像帧是层0时通过降低层0的分辨率来提供层1，并且通过降低层1的分辨率来提供层2。例如，在分辨率减小到1/2时可以利用两个相邻象素的平均值来实现一个图像帧，并且在分辨率减小到1/4时，可以利用四个相邻象素的平均值来实现一个图像帧。
计算MAD要计算相对于层2中搜索区的第一MAD，计算相对于层1中采用候选运动矢量所对应的位置作为搜索中心点的搜索区的第二MAD，计算相对于层0中采用使第二MAD最小的位置作为层0的搜索中心点的搜索区的第三MAD。
初始搜索中心点判定器确定至少两个使第一MAD最小的位置，作为下一步(层1)的初始搜索中心点。而且，初始搜索中心点判定器进一步利用当前块的各外围块的相关性来确定至少一个初始搜索中心点，作为下一步(层1)的初始搜索中心点。最终运动矢量判定器根据使第三MAD最小的位置和原点之间距离的信息来确定最终运动矢量。
而且，本发明运动估计方法的各个步骤可以写成程序，该程序能够在计算机中执行，而且，这些步骤可以在通常的数字计算机中实现以使运行来自计算机所用媒体的程序。这些媒体可以是如软盘或硬盘的磁记录媒体、如CD-ROM或DVD的光记录媒体、或如通过因特网传输的载波。而且，本发明所述领域的任何程序员都可容易推断出这些功能性程序、代码、和代码段。
权利要求
1.一种通过块匹配来压缩运动图像的运动估计方法，其特征在于该方法包括下列步骤(a)通过减小层0的分辨率来提供层1，并通过减小层1的分辨率来提供层2，其中层0是输入图像帧；(b)计算相对于层2的一搜索区的平均绝对差值(MAD)；(c)确定至少两个使步骤(b)计算的MAD最小的位置，作为在层1中的初始搜索中心点；(d)利用当前块的各相邻块的相关性，在层1中进一步确定至少一个初始搜索中心点；(e)在层1中计算相对于以初始搜索中心点为中心的各搜索区的MAD；(f)选择使步骤(e)计算的MAD最小的位置，作为在层0中的搜索中心点；(g)在层0中相对于在步骤(f)所选择的初始搜索中心点为中心计算搜索区的MAD；(h)根据在步骤(g)计算的MAD的位置和原点之间距离的信息，确定最终运动矢量。
2.一种通过块匹配来压缩运动图像的运动估计方法，其特征在于该方法包括下列步骤(a)在输入图像帧是层0时，则通过减小层0的分辨率来提供层1，并通过减小层1的分辨率来提供层2；(b)计算相对于层2的一搜索区的平均绝对差值(MAD)；(c)确定两个使步骤(b)计算的MAD最小的位置，作为在层1中的初始搜索中心点；(d)利用当前块的各相邻块的相关性，进一步确定一个初始搜索中心点；(e)在层1中计算相对于以三个初始搜索中心点为搜索中心的搜索区的MAD；(f)选择使步骤(e)计算的MAD最小的位置，作为在该层中的初始搜索中心点；(g)计算相对于层0的该搜索区的MAD；以及(h)利用使步骤(g)计算的MAD最小的位置和原点之间距离的信息，确定最终运动矢量。
3.如权利要求2所述的方法，其特征在于，所述步骤(a)通过在水平和垂直方向上将输入层0的分辨率减小到1/2和1/4，来提供层1和层2。
4.如权利要求2所述的方法，其特征在于，所述步骤(d)通过计算各块的运动矢量的平均值来选择使MAD最小的位置，作为在层1中的初始搜索中心点；在所述各块中，各外围块之间运动矢量的绝对差值不大于预定阈值。
5.如权利要求2所述的方法，其特征在于，在所述步骤(e)和(g)中的搜索区由5×5个象素组成。
6.一种通过块匹配来压缩运动图像的运动估计装置，其特征在于该装置包括分辨率控制装置，用于通过降低层0的分辨率来提供层1，并且通过降低层1的分辨率来提供层2，其中层0是输入图像帧；MAD计算装置，用于计算相对于层2搜索区的第一MAD，相对于层1中将对应于各候选运动矢量的位置作为搜索中心点的搜索区计算第二MAD，并且相对于层0中将使第二MAD最小的位置作为层0的搜索中心点的搜索区计算第三MAD；初始搜索中心点判定装置，用于确定至少两个使第一MAD最小的位置，作为在层1中的初始搜索中心点，并且进一步利用当前块的各外围块的相关性来选择至少一个初始搜索中心点；以及最终运动矢量判定装置，用于根据使第三MAD最小的位置和原点之间距离的信息，来确定最终运动矢量。
7.如权利要求6所述的装置，其特征在于，所述分辨率控制装置分别通过将接收层0的分辨率减小到1/2和1/4，来提供层1和层2。
8.如权利要求6所述的装置，其特征在于，所述初始搜索中心点判定装置计算各块的运动矢量的平均值并且选择使各运动矢量的平均值最小的位置，作为在层1中的初始搜索中心点；在所述各块中，各外围块之间运动矢量的绝对差值不大于预定阈值。
9.如权利要求6所述的装置，其特征在于，所述搜索区由5×5个象素组成。
全文摘要
一种通过块匹配来压缩运动图像的运动估计方法及其装置,其中:依次减小输入图像帧的分辨率以分别形成层0、1和2;分别根据相对于层2搜索区的平均绝对差值(MAD)和当前块的各相邻块的相关性,在层1中确定三个搜索区;根据相对于层1中各搜索区的MAD,在层0中选择一搜索区;根据使相对于层0中搜索区的MAD最小的位置和原点之间距离,确定最终运动矢量。与整块匹配分析(FSBMA)相比,显著降低了复杂度,能够高速地进行运动估计。
文档编号G06T9/00GK1272031SQ9910519
公开日2000年11月1日申请日期1999年4月27日优先权日1999年4月27日
发明者罗钟范, 林庆院, 崔健荣申请人:三星电子株式会社, 韩国科学技术院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗钟范;林庆院;崔健荣
技术所有人：三星电子株式会社;韩国科学技术院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。