专利名称:电视节目画面格式转换方法及其使用的转换器的制作方法
技术领域:
本发明所涉及的是将电视节目画面格式从4/3向16/9转换的方法,以及实现这转换所用的转换器。
通常,电视节目画面格式从4/3向16/9的转换可以通过不同的方式来实现。
图1a所示的是4/3格式的摄象机所摄制的一幅实际画面,而图1b是16/9格式的摄象机所摄制的一幅实际画面。
图2是展示的是将电视节目画面从4/3格式向16/9格式转换所使用的众所周知的方法如图2a所示,最简单的方法是保留4/3格式的画面,并用黑填充16/9画面中的空余部分。
另一种方法是对4/3格式的源画面进行变形或切割,以获得16/9格式的画面-水平的图像放大,即在水平方向上对4/3格式的画面进行扩展(图2b)-对画面的上、下部分进行图像放大和切割(图2c)-对画面的上、下部分进行同样的图像放大,但只对其上部进行切割,以保留标题(图2d)-线性图像放大,即在画面中图像放大系数是变化的,在画面的中心部分图像放大系数接近于1,而在画面的四周,图像放大系数取其最大值(图2e)以上方法也可兼而用之。
最后一种方法是利用特殊技术来生成画面四周所缺少的信息-边缘行或边缘列的复制-镜象效应(图2f)-填充法,即以对画面中物体的边角及细小局部等进行分析计算,以便对其进行适当的变形。
这些不同的方法既可以直接用于电视机,又可以在电视广播之前的节目摄制后序处理过程中使用。显然,这些技术不可能生成真实的信息,即使这些信息是在节目的后序制作中生成的也是如此,因为真实的信息是由16/9的摄象机摄制而成的完整画面。
在使用4/3格式的图象原有的信息时,这些技术都会使图象的综合质量下降,这种下降可以是由于附加了虚假的信息(这种附加的信息并不代表图像实际缺少的部分)而造成的,也可以是删除了信息或者对图象进行了变形而造成的。
本发明的目的就是克服上述的缺点。
为此,本发明的一个主题就是一个格式转换方法,用于将由具有给定格式的一系列画面构成的视频序列的画面转换成具有更大格式的画面,其特征为相对于前一个经过扩展的视区对当前的画面进行运动估算,相对于当前的画面对前一个经过扩展的视区在运动上进行补偿,通过对当前画面的数据进行的分析计算来修正前一个经过扩展的视区,以便给出一个经过修正的扩展视区,该视区在对下一个当前画面进行运动估算时将成为其前一个扩展视区,用经过修正的扩展视区的数据来完善当前的画面,以便给出具有更大格式的画面。
本发明的另一个主题也是一个格式转换方法,用于把由具有给定格式的一系列画面构成的视频序列的画面转换成具有更大格式的画面,其特征为,这种转换是分两路进行的,其中,一路对连续画面之间的运动进行估算,并形成一个由经过运动补偿的画面组成的序列的一个扩展视区;而另一路则对与扩展视区对应的序列中的每一幅画面进行定位,而扩展视区是在对预估的运动进行分析计算后形成的,这一路还要利用扩展视区的与更大的格式相对应的数据来对定位的画面进行完善。
对于本发明的一个具体方面而言,该方法特点在于,运动估算是在二维视觉运动的仿射模型基础上对整体运动进行的增强性估算。
对于本发明的另一个具体方面而言,该方法的特点在于,运动估算是以画面亮度的时-空梯度为基础的。
本发明还涉及到16/9电视机,该电视机的特点是包括一个实现格式转换方法的转换器。
本发明的目标是利用根据连续的视频画面而设置的扩展画面存储器来把4/3格式的画面转换成完整的16/9画面。
所要求的扩展视区的生成过程包括存储连续的4/3画面并将它们混合起来以生成更大格式的画面,最理想的是生成16/9或更大格式的画面。如果摄象机和画面的背景都是静止的,该过程将生成一个同4/3画面的大小完全同相的最终画面。然而,一旦摄象机移动(尤其是出现移动摄象机进行跟踪拍摄的动作时),通过连续的视频画面就可以看见画面的一个较大的局部,因此就可能生成一个较大的画面。如果这一较大的画面存于扩展视区存储器中,就可以用这一经过扩展的视区来对4/3画面而进行完善,进而生成16/9的画面,就好象通过16/9摄象机所看到的那样。
利用根据连续的视频画面而设置的扩展视区存储器来重建16/9画面的缺失部分可以在不对画面进行变形或添加虚假信息的情况下获得16/9的画面,因而改善了图象的质量。
本发明的其他特色及优点将在下面以非限定性的举例及附图的方式给出的描述中清晰地呈现出来,附图的含义如下图1a与图1b是4/3及16/9格式的源画面;图2a至图2f是根据现行技术将画面从4/3格式转换成16/9格式的方法;图3是利用扩展视区存储器来重新构成16/9画面;图4是以在线配置来完成处理过程的算法;图5是当前的扩展画面同当前画面的混合;图6是在线状态下当前层的画面同连续画面的混合;图7及图8是以离线配置来完成处理过程的算法;图9是在离线状态下当前层与连续画面的混合。
图3所示为使用扩展存储器来重键16/9画面。4/3格式的画面1乃系将被放大的当前画面,其界限2用左右两侧的虚线表示。16/9格式的画面3是经过对4/3格式的画面以及序列中的相邻画面的数据进行了分析计算之后重组的画面。为实现这一重组,扩展视区存储器4被用来存储经过处理的来自前面的及后续的画面的数据(如下面所述使用离线配置的时候)。例如,在4/3格式的画面1的右侧出现的部分三角形就能够利用来自后续的4/3格式的画面中的数据在扩展视区存储器中进行完善,并被显示在16/9格式的画面上,只是这些数据仅来自该三角形的与16/9的规格相对应的相关部分。典型的扩展视区可能就是移动摄像机跟踪拍摄而成的场景的大视区。
处理过程的实现随着所考虑的配置而稍有不同-“在线”配置转换是以“在线”方式,即时实方式进行的,如直接在电视机上进行转换。在这种情况下,扩展视区是随着视频图像出现的顺序被逐步修正的。因此在视频图像的开头,扩展视区肯定要比它在末尾时稍小,16/9格式的画面是随着扩展视区规模的增大而逐步填充起来的。
-“离线”配置转换过程是以“离线”方式进行的。这意味着16/9格式画面的生成存在一个延迟时间,这就降低了这种处理方式直接在电视机上应用的可能性。在这种情况下,这种处理方式最好是作为一种后序处理方法来使用。然而,从MPEG-4标准的角度来看,这种类型的扩展视区存储器估计可以达到编码器的水平,而在实际上它也在用于向解码器发送信号,因为这里没有更多的计算要作。
图4描绘的是在线配置的处理方式并接着对算法进行了描述。
该处理方式的第一个步骤5在当前画面的数据与先前的扩展视区的数据之间进行了运动估算,以便给出运动数据。第二个步骤6利用这些运动数据(运动矢量)对先前的扩展视区数据进行了处理,即对运动补偿的扩展视区数据进行了计算。第三个步骤7根据这些扩展视区的数据和当前画面的数据对扩展视区进行了修正。这些与当前的4/3格式的画面有关的经过修正的扩展视区数据被反馈到第一、第二个步骤,在接收到下一个当前的4/3格式的画面时,被作为它的先前的扩展视区数据来使用。第四个步骤8接收当前画面的数据及经过修正的扩展的数据,用于对16/9的画面进行填充,以便得到当前的完善的16/9画面。
一开始,扩展视区是视频图像的第一幅源画面。然后,给出先前的扩展视区,由第一步骤5在该扩展视区和当前的4/3源画面之前作出总体的运动估算。
至于运作方式,在一个视频序列中的二维视觉运动仿射模型被选为对计算上的复杂性(只有6个参数必须被标识出来)与物质上的现实性(这是二维视觉运动的确切的表达式)的最佳兼顾方案之一。
画面上的一个点(x,y)的二维运动矢量εθ(x,y)在下面的公式中用6个动作参数θ=(a,b,α,β,γ,δ)T来模拟
这些参数要在整个画面的范围内进行计算。给定一个象素的坐标x,y,就能从这些参数中导出一个运动矢量。
这种计算可以避免高成本的对密集的运动场进行估算,况且对密集的运动场进行估算在出现大幅度的动作时会导致失败。
整体运动估算的处理方式是以画面亮度的时-空梯度为基础的,而这种估算是通过“光通量限定方程”与二维视觉运动相联系的。
我们假定在画面中坐标为x,y的一个象素在时刻t的亮度为Ix,y,1,而在经过时间增量dt之后其运动增量为dx,dy,但其亮度却未改变,则可表示为Ix,y,t=Ix+dx,y+dy,t+dt经过一阶求导可以给出以下方程Ix,y,t=Ix,y,t+∂Ix,y,t∂xdx+∂Ix,y,t∂ydy+∂Ix,y,t∂tdt]]>经简化可得其中,ΔIx·dx+ΔI,·dy+ΔI1=0其中,ΔIx,ΔIy和ΔIt是亮度函数的估导数。ΔIx和ΔIy可以作为一个象素与它的分别在同一行上及同一列上的相邻象素之间的亮度差来进行计算,而ΔIt可以作为一个象素与它在经过运动补偿的相临画面中所对应的象素之间的这度差来进行计算。
由于在运动及亮度上只能取近似值,因此,在实际上ΔIxdx+ΔIydy+ΔIt的值并不等于零而是等于一个干扰值(误差)。这就要对每个象素进行下述测算(误差)ε(x,y,θ)=dx.ΔIx+dy.ΔIy+ΔIt=(a+α.x+γ.y).ΔIx+(b+β.x+δ.y).ΔIy+ΔIt运动模型参数估算的基本问题是对主要的运动进行标识,尽管各画面的微小区域中具有不同的运动。最适于解决这一问题的技术是增强性估算方法,这一方法可以在估算过程中消去错误的采样。在本例中,所选的方法来源于反复加权的最小二乘法。这里假定变量ε(x,y)是依照适用于每个象素的相同偏差的自定中心高斯法则来分布的。
为了能对大幅度的运动进行估算,采用了多次换算的处理方式;首先建立两个画面的多次换算金字塔;然后,以给定的层次的运动参数的估算值为起始值,从较粗的层次开始,以从粗向细进行换算的方式实施估算过程。
为方差^б20(^=估算值)初始地规定一个给定的值,在本例中为50。同样,起始的整体运动参数矢量^θ0被置为-零矢量,如果处理过程在视频图像的刚刚开始的位置;-先前的值(即上一次的矢量);如果处理过程处在当前画面的刚刚开始的位置,则通过对更高换算层进行分析计算的方式来重新估算该值。
然后进行迭代处理。
设k为当前的迭代数。从运动参数矢量^θk-1的当前估算开始,完成扩展视区的运动补偿,并算出时-空梯度的映象。该处理过程的延续包括对9的第一次估算的值进行逐步的修正,直到修正值变低为止。对于每一个象素(x,y)和每一次迭代,加权系数wck(x,y)表示为wck(x,y)=σ^k-12σ^k-12+ΔIt(x,y)2]]>用最小二乘法对d^θk-1进行估算,其中要用到加权系数wck(x,y)dθ^k=minθΣwck(x,y),ϵ2(x,y,θ)]]>对dθk进行估算的加权最小二乘法包括对运动参数的变化进行计算,而该运动参数是与在上一次迭代中的相对应的运动参数相关联的,以及允许在整个画面上对加权和平方误差的和取最小值。令与每个变量(参数)相关的加权平方误差的和的导数等于零,对于6个参数给出6个方程。
然后,以只对加权的DFD进行分析计算的方式,再次对干扰的变化进行估算,作为更佳的结果给出σk2^=Σwck(x,y).ΔIt(x,y)2Σwck(x,y)]]>在整个画面上,假定DFD的平均值等于零。整体运动参数的矢量即得到修正θ^k=θ^k-1+dθ^k]]>在序列的第一个画面的第一次迭代中,运动的取值等于零(运动参数矢量为零失量)。这种假定是与被认为运动较小的低分辨率的画面相对应的。ΔIt(x,y)的计算与具有相同坐标(不动)的连续画面的象素之间的亮度差相对应。
对于其它的迭代,ΔIt(x,y)与DFD或者叫位移画面差相对应,DFD就是由运动矢量联系起来的象素之间的亮度差。这个差越大,加权系数越小,也就是说对象素的加权是较小的。
该迭代程将继续下去,直到估算的整体运动参数的修正值低于给定的量低限度为止。作为结果的运动参数矢量^θ被认为是对主要的运动参数矢量进行的增强性估算的结果。
连续的迭代(一般来说两、三次迭代就足够了)可以将画面(通常是前景)中的并不起主要作用的运动所造成的影响降至最低,而迭代的结果是与整体的运动相对应的,并且整体的运动通常是与背景相对应的运动。
在第二步骤6期间,用经过估算的整体运动参数对先前的扩展视区进行运动补偿,以便将这个扩展视区准确地与当前的4/3画面进行迭加。下一个步骤7包括以对当前的4/3画面进行分析计算的方式来修正经过运动补偿的扩展视区。该步骤根据先前的扩展视区和当前的4/3画面来生成经过修正的扩展视区。然后,用源于当前的4/3画面的数据对还要在下面进行解释的经过修正的扩展视区进行填充。
一个视频序列的一个扩展视区的生成是以对该序列的连续画面进行运动补偿而形成的同一个固定层的几个视区的迭加为基础的。
可以采用几项技术。例如,近似法就包括按照运动的幅度对连续的画面进行分割,以便获得一幕画面的不同层次。这样,就可以分离出背景层而舍弃其它层。
在进行如上所述的整体运动估算时,由于允许对其运动与整体运动很不相同的区域(前景区)加权,分割处理就不必要了。该整体运动与背景层的运动相对应。当然,背景层的运动在画面中央起主要作用这一点是假定的。确定背景运动是否起主要作用的一个方法是以对经过估算的偏差进行分析为基础的。如果偏差很大,“运动估算-扩展视区生成”这一处理过程被停止,格式转换由传统的技术来完成。
下面推荐两项生成扩展视区的技术。但是该处理方式可以同另一项技术一起使用。在步骤6,一旦由于整体运动补偿而使当前的扩展视区与当前的画面已相适应,则出现两种类型的象素-当前画面的修正象素,这种象素在当前层画面中没有任何对应的象素;-当前画面的重复象素,这种象素在当前层画面中存在一个对应的象素。
下一个步骤7根据经过运动补偿的扩展视区和当前的4/3画面对扩展视区进行修正。为便于标志,先前的经过运动补偿的扩展画面用ExtFrn-1来表示,当前的经过运动补偿的扩展画面(正在建立)用ExtFrn来表示,而当前画面用Frn来表示。
对扩展画面进行修正的第一方法使用的是一阶滤波。
通常是背景层的扩展画面以“在线”方式进行修正。在该近似法中,修正象素仅被看成是该层或扩展画面的初始化
ExtFrn(x,y)=Frn·(x,y)通过下面的一阶滤波,使重复象素与先前的扩展画面的象素混合ExtFrn(x,y)=αFrn·(x,y)+(1-α)ExtFrn-1(x,y)其中,α是一个系数,允许对修正加权进行控制。
图5所示的是先前的扩展画面与当前画面的混合。深灰色部分表示的是既是先前的扩展画面9的一部分又是当前画面10的一部分的重复象素,而浅灰色部分表示的是仅是当前画面的一部分的修正象素。该近似算法仅要求一个扩展画面存储器和当前画面存储器。该方法对当前画面的所有象素进行分析计算,但是连续的滤除可以降低对不与背景层相对应的象素的加权。
对扩展视区进行修正的第二个方法使用的是中间滤除。
该方法包括在整体运动补偿之后对几幅4/3源画面进行迭加,以及对属于该层的每个象素进行中值滤波。
该方法要求一个扩展视区存储器,而所要求的画面存储器的数量与在中值滤波过程中将被分析计算的画面的数量相同。
图6示出了当前层画面11与连续画面12、13、14、15的混合。在该例中,对当前层画面进行计算的分析窗口包括5个画面。画面12至15以当前层的画面11为基础进行定位。进行中值滤波时,用奇数个画面对当前层画面进行计算。当置入相应位置的象素数量为偶数时,如上所述,可以用加权系数α来进行滤除。
一经在步骤7中建立了扩展视区,就可以在步骤8中对16/9的最终画面进行填充。混合法是以滤除为目的而进行的,例如,所述的为了对16/9的初始画面进行修正而进行的一阶滤波。当然,另一个混合法也可以使用。
在任何情况下,16/9画面中仍为空白的部分必须用前面提到过的其它技术中的一种技术来填充。
图7与图8示出了离线配置情况下的处理过程及将在下面描述的算法的步骤。这里只对与在线配置的差别进行描述。
在“离线”状态下,处理过程分两路进行。首先,扩展的视区在以对整个视频图象(或其一大部分)进行的分析为基础的情况下得以建立。然后,在新的一路中实施填充过程,在完整的重建之后,用同一个仅有的扩展视区对连续的16/9画面进行填充。
图7与第一路相对应,完成扩展视区的生成。
该过程的第一个步骤16在视频图象的连续的4/3画面之间进行运动估算。连续的整体运动矢量利用4/3画面计算出来,并被送往第二个步骤17,步骤17对连续的4/3画面进行运动补偿。经过运动补偿的连续的4/3画面和连续的整体运动矢量在步骤18中进行处理,该步骤生成一个完善的扩展视区。
图8与第二路相对应,该路实现4/3向16/9的转换。
第一个步骤19接收当前画面和在第一路中计算出来的完整的扩展视区,以便利用也是在第一路中计算出来的整体运动矢量对该完整的扩展视区进行运动补偿。第二个步骤20接收当前的画面和来自上一个步骤的经过运动补偿的扩展视区,以便对当前的4/3画面进行填充。
在第一路期间,步骤17对视频序列的每个画面联系其前一个画面而进行运动补偿,有了这个进行了位置调整的画面系列,就可以在步骤18生成完整的扩展视区。扩展视区的这一修正过程也可以用与在线配置状态下相同的方式来进行-以一阶滤波的方式进行修正-以中值滤波的方式进行修正这一滤除过程包括在对属于该层的每个象素进行了整体运动补偿和中值滤波之后对几个4/3源画面进行累加。
第二路允许与当前的4/3画面相对应地对扩展视区进行定位。这一运动补偿使用整体运动参数,而该参数是在第一路中计算出来并储存起来的。然后,利用来自已被定位的扩展视区的数据以当前的4/3画面为基础的16/9画面进行填充。
图9示出了由视频图象的9个画面21至29组成的系统,该画面组被作为一个整体进行处理,而且是在第一路期间,在最后一个扩展视区之后生成的。这样,所需要的画面存储器的数量就等于序列中所包含的画面的数量,因而,所需要的存储器要多于“在线”近似计算法。
重建最终的扩展视区所需的时间取决于所要处理的画面的数量。
权利要求
1.一种对由一系列的具有给定格式的画面构成的视频序列进行格式转换的方法,可将这些画面转换成具有更大格式的画面,其特征在于相对于前一个经过扩展的视区对当前的画面进行运动估算(5),对相对于当前的画面的前一个经过扩展的视区在运动上进行补偿(6),通过对当前画面的数据进行的分析计算来修正前一个经过扩展的视区(7),以便给出一个经过修正的扩展视区,该修正的扩展视区在对下一个当前画面进行运动估算时将成为其前一个扩展视区,用经过修正的扩展视区的数据来完善当前的画面(18),以便给出具有更大格式的画面。
2.一种对由一系列的具有给定格式的画面构成的视频序列进行格式转换方法,其可将这些画面转换成具有更大格式的画面,其特征在于,这种转换是分两路进行的,其中的一路(16、17、18)对连续画面之间的运动进行估算(16),并形成一个由经过运动补偿的(17)画面组成的序列的一个扩展视区(18);而另一路(19、20)则对与扩展视区对应的序列中的每一幅画面进行定位(19),而扩展视区是在对预估的运动进行分析计算后形成的,这一路还要利用与更大的格式相对应的扩展视区的数据来对定位的画面进行完善。
3.根据权利要求1或2所述的方法,其特征在于,运动估算是在二维视觉运动的仿射模型基础上的一个整体运动的增强性估算。
4.根据权利要求1或2所述的方法,其特征为,运动估算是以画面亮度的时-空梯度为基础的。
5.根据权利要求3或4所述的方法,其特征为,它的运动估算包括把坐标x,y,即一个运动矢量,赋予每个象素,这样,该运动矢量dx,dy就是角素坐标的仿射函数,dx=a+αx+γydy=b+βx+δy用重新加权的最小二乘法对参数a,α,γ,b,β,δ进行计算,表示出误差εε(x,y,θ)=dx·ΔIx+dy·ΔIy+ΔIt其中,ΔIx,ΔIy,ΔIt分别是估算出的水平方向的、垂直方向的以及时间上的亮度梯度。
6.根据权利要求3、4或5所述的方法,其特征在于,运动估算是用多次估算的金字塔形的画面结构的方式进行的分层估算。
7.根据权利要求1所述的方法,其特征在于,对扩展视区的修正包括以下步骤通过进行密度的运动矢量场估算和运动分割来确定一个扩展视区的固定层(背景层),以将各层分离开,通过加入与该扩展视区层相对应的当前画面的新象素到该扩展视区层中去的方式来完善该扩展视区层。
8.根据权利要求2所述的方法,其特征在于,扩展视区的建立包括以下步骤通过进行对密度的运动矢量场估算和运动分割的方式来确定一个扩展视区的固定层(背景层),以将各层分离开,对源于经过运动补偿的画面的扩展视区固定层的视区进行累加,对累加视区中的同位象素进行事后的中间滤除。
9.根据权利要求1所述的方法,其特征在于,对先前的扩展视区的修正包括以下步骤确定在先前的扩展视区中具有同位象素的当前画面的重复象素,通过滤除先前的扩展视区中的以及当前画面中的同位象素值的方式来计算这些重复象素的数值。
10.根据权利要求2所述的方法,其特征在于,扩展视区的建立包括以下步骤确定在扩展视区中具有同位象素的当前画面的重复象素,通过滤除扩展视区中的以及当前画面中的同位象素值的方式来计算这些重复象素的数值。
11.根据权利要求1所述的方法,其特征在于,扩展视区的修正包括以下步骤在经过运动补偿之后,把几个画面累加到先前的扩展视区上面,滤除被累加的画面的以及扩展画面的同位象素,以得到下一个扩展视区。
12.根据权利要求2所述的方法,其特征在于,扩展视区的建立包括以几个方面把经过运动补偿的几个画面累加起来,滤除被累加的画面的同位象素以给出扩展视区。
13.根据权利要求10、11、12中任一个所述的方法,其特征在于滤除是一个一阶滤波。
14.根据权利要求10、11、12中任一个所述的方法,其特征在于滤除是一个中值滤波。
15.根据前面所述的权利要求中的任一个所述的方法,其特征在于,该修正方法用一种方法或几种方法的混用来填补仍然存在的空白,这些方法诸如画面边缘的镜象效应、填充及复制等。
16.根据前面所述的权利要求中的任一个所述的方法,其特征在于,该给定的格式是4/3的电视节目格式,而该更大的格式是16/9的格式。
17.根据前面所述的权利要求中的任一个所述的方法,其特征在于该给定的格式是16/9的电视节目格式,而该更大的格式是4/3的格式。
18.一种16/9格式的电视机,其特征在于,该电视机具有用于实现权利要求1所对应的格式转换处理过程的一个转换器。
全文摘要
将画面转换成更大格式画面的图像格式转换方法,它相对于前一个扩展视区对当前画面运动估算(5),相对于当前画面对前一扩展视区进行运动补偿(6),通过对当前画面的数据进行分析计算以对前一扩展视区进行修正并给出经过修正的扩展视区(7),在对下一个当前画面进行运动估算时经修正的扩展视区成为前一扩展视区,用修正的扩展视区的数据对当前画面进行完善(8),以给出更大格式的画面。用于4/3向16/9的电视格式转换。
文档编号H04N5/44GK1239377SQ9910606
公开日1999年12月22日 申请日期1999年4月29日 优先权日1998年5月6日
发明者爱德华·弗朗索瓦, 菲利普·吉约泰尔, 让·弗朗索瓦·维亚尔 申请人:汤姆森多媒体公司