专利名称:产生含有二进制图像/音频数据的比特流的方法和装置的制作方法
技术领域:
本发明涉及用于在如光盘或磁带记录介质上记录移动图像信号和在显示装置上显示重放该信号的编码和解码装置与方法。本发明可以如下的方式用于电视会议系统、可视电话系统、广播设备、多媒体数据库检索系统以及类似系统,即移动图像信号通过传输线路从发射端传输到接收端并在接收端接收和显示。本发明还可以用于编辑和记录移动图像信号。
在把移动图像信号传输到远处的电视会议或可视电话系统中,为了有效地利用传输线,利用视频信号的行相关和帧相关把图像信号压缩/编码。近年来,随着计算机处理技术的发展,使用计算机的移动图像信息终端已经普及。在这样的系统中,通过例如网络的传输线把信息传输到远处。在这样的情况下,为了有效的利用传输线,将要传输的信号例如图像、声音或计算机数据在压缩/编码以后再传输。在终端(接收端)采用与编码方法相应的预定解码方法把传输来的压缩/编码信号解码为原始信号图像、声音或计算机数据,然后由显示装置、扬声器或类似的终端输出。以前,被传输的图像信号或类似信号仅仅在显示装置上以它实际的形式输出。但是在使用计算机的信息终端上,多个图像、声音或计算机数据在经过给定的转换过程以后可以在二维或三维空间处理或显示。可以如下方式进行这样的处理,即在发射端采用给定的方法描述二维或三维空间的信息,而终端(接收端)根据该描述方法对图像信号或类似信号进行转换处理。
VRML(Virtual Reality Modeling Language-虚拟实现模型化语言)是描述空间信息的典型例子,已由ISO-IEC/JTC1/SC24将它标准化。最新的版本VRML2.0在IS14772中有所介绍。VRML是描述三维空间的语言,它规定描述三维空间的属性、形状等的规定数据。这样的数据称为节点。为了描述三维空间,必须首先描述怎样组合这种节点。每个节点包括表示颜色、纹理等的数据、表示多边形形状的数据和其他信息。
在使用计算机的信息终端,利用CG(计算机绘图)根据上述使用多边形等的VRML生成给定的目标。利用VRML可以把一种纹理附加于以这样的方式生成的由多边形构成的三维目标上。称为“纹理(Texture)”的节点是为静止图像定义的,称为“影片纹理(Movie Texture)”的节点是为移动图像定义的。要附在纹理上的信息(文件名、显示开始时间或结束时间等等)在这些节点处描述。将参考图23描述纹理附加过程(以下称为纹理绘制过程,是近似说法)。
图23示出了纹理映象绘制装置的结构的例子。如图23所示,存储器组200包括纹理存储器200a、灰度级存储器200b和三维目标存储器200c。纹理存储器200a存储外部输入的纹理信息。灰度级存储器200b和三维目标存储器200c存储也是外部输入的表示纹理的穿透/透明程度的主要数据和三维目标的信息。三维目标信息对产生多边形是必须的而且与照度有关。绘制电路201根据存储在存储器组200的三维目标存储器200c中的三维目标信息通过生成多边形产生三维目标。再者,根据三维目标数据,绘制电路201分别从存储器200a和200b中读出纹理信息和表示纹理的穿透/透明程度的主要数据,并且通过参考这些主要数据叠加到纹理和相应的背景图像上。主要数据表示相应位置的纹理的穿透程度,即在相应位置的目标的透明度。
二维转换电路202根据外部输入的观察点的信息把二维图像信号输出到二维平面,所述二维图像信号通过变换由绘制电路201产生的三维目标获得。在纹理是移动图像的情况下,上述过程是在一帧一帧的基础上进行的。
通过VRML,能够处理根据主要用于静止图像高效编码的JPEG(JointPhotographic Expert Group-联合照相专家组)、用于移动图像高效编码的MPEG(Moving Picture Expert Group-移动图像专家组)等压缩的数据,作为纹理信息。当这样压缩的图像用作纹理时,通过与编码方案相应的解码处理解码该纹理(图像)。解码的图像存储在存储器组200的纹理存储器200a中并且经历与上面类似的处理。
绘制电路201把存储在纹理存储器200a中的纹理信息附加于给定位置的目标上,不管图像的格式和图像是否为移动的图片亦或是静止的图片。因此,可被附于某一多边形上的纹理存储在一个存储器中。在传输三维目标信息的过程中,必须传输每个顶点的三维坐标。每个坐标需要32位实数数据。反映每个三维目标的属性也需要32位或更多位的实数数据。因此,传输的信息量很大而且在传输复杂的三维目标或移动图像时进一步增加。因此,在传输线传输上述的三维信息或纹理信息过程中,必须传输压缩的信息以便提高传输效率。
高效编码(压缩)移动图像的方案的典型例子是MPEG(Moving PictureExpert Group,存储的编码移动图像)方案,这在ISO-IEC/JTC1/SC2/WG11中有所讨论而且提出作为标准。MPEG采用把移动补偿预测编码与DCT(离散余弦变换)编码结合的混合方案。为了适用不同的应用和功能,MPEG定义了几个分布(功能分类)和等级(例如图像大小的量)。最基本的形式是主分布(profile)的主等级(MP@ML)。
MPEG方案的MP@ML编码器(图像信号的编码装置)结构的例子将参考附图24描述。首先向帧存储器1输入一个输入图像信号,然后按预定的顺序编码。将要编码的图像数据根据宏模块输入到移动矢量检测电路(ME)2。移动矢量电路2根据预定的次序把每帧的图像数据作为I-图像、P-图像或B-图像处理。也就是说,预先确定顺次输入的各帧图像是否作为I、P或B-图像处理(例如,按I、B、P、B、P、…、B、P的顺序处理)。
移动矢量检测电路2通过参考预定的参考帧进行移动补偿,并检测它的移动矢量。移动补偿(中间帧预测)有三种预测模式,即前向预测、后向预测和双向预测。只有前向预测适用于P-图像预测模式,而三种模式预测,即前向预测、后向预测和双向预测适用于B-图像预测模式。移动矢量检测电路2选择使得预测误差最小的预测模式并生成相应的预测矢量。
使产生的预测误差与例如将要编码的宏模块的变化量进行比较。如果宏模块的变化量小于预测误差,不对宏模块进行预测而进行帧内编码。在这种情况下,预测模式是图像内预测(内部预测)。将移动矢量检测电路2测得的移动矢量和上述的预测模式输入到可变长度编码电路6和移动补偿电路(MC)12中。移动补偿电路12根据给定的移动矢量生成预测图像数据并输入到工作电路3和10中。工作电路3计算表示所要编码的宏模块值和预测图像数据值之差的差值数据,并把计算结果输出给DCT电路4。在宏模块内模式情况下,工作电路3把将要编码的宏模块数据按原样输出给DCT电路4。
DCT电路4使输入数据经DCT(离散的余弦变换)处理变换为DCT系数。将该DCT系数输入到量化电路(Q)5,在此经过量化级量化为与传输缓存器7的数据存储量(缓存器存储器)相应。量化的系数(数据)被输入到可变长度编码电路6。
可变长度编码电路6把量化电路5输入的量化数据变换为例如Huffmam码(霍夫曼码)的可变长度码。可变长度电路6也接收来自量化电路5和预测模式(表明设置了前向、后向和双向中的那种图像内预测)的量化阶(标度)以及来自移动矢量检测电路2的移动矢量,然后在此进行可变长度编码。传输缓存器7暂时存储接收的编码数据并把与存储量相应的量化控制信号输出到量化电路5。当剩余的数据量增加到允许的上限时,传输缓存器7利用量化控制信号通过提高量化电路5的量化级控制降低量化数据的数据量。相反,当剩余的数据量减少到允许的下限时,传输缓存器7利用量化控制信号通过减低量化电路5的量化级控制增大量化数据的数据量。就以此方式防止了传输缓存器7上溢和下溢。存储在传输缓存器7中的编码数据按预定的读出并作为比特流输出到传输线。另一方面,将从量化电路5输出的量化数据输入到逆-量化电路(IQ)8,在此根据来自量化电路5的量化阶使之逆量化。逆量化电路8输出的数据(DCT系数)输入到IDCT(反DCT)电路9,然后经过反DCT处理,并经过工作电路10存储在帧存储器(FM)11中。
下面,将参考附图25描述MPEG的MP@ML解码器(图像信号解码装置)的例子。经过传输线传输的编码图像数据(比特流)被接收电路(未示出)接收或者被再现电路再现,暂时存储在接收缓存器21中,然后提供给可变长度解码电路(IVLC)22。对来自接收缓存器21的数据进行可变长度解码,可变长度解码电路22向移动补偿电路27输出移动矢量和预测模式,并向逆量化电路23输出量化阶。而且,可变长度解码电路22向逆-量化电路23输出解码量化数据。逆量化电路23根据仍由可为长度解码电路22提供的量化阶对可变长度解码电路22提供的量化数据进行逆量化,并把所得数据(DCT系数)输出给IDCT电路24。逆量化电路23输出的数据(DCT系数)在IDCT电路24经过反DCT变换并作为输出数据提供给工作电路25。如果IDCT电路24提供的输出数据(输入比特流)是I-图像数据,则它作为图像数据从工作电路25输出然后提供给帧存储器26并存储在那里,用于产生图像数据(P或B-图像)的预测图像数据,所述图像数据将输入到工作电路25。该图像数据也以原样作为再现图像输出到外部系统。
如果自IDCT电路24提供的输出数据(输入比特流)是P或B-图像,那么移动补偿电路27在存储在帧存储器26中的图像数据的基础上,根据可变长度解码电路22提供的移动矢量和预测模式生成预测图像,并输出给工作电路25。工作电路25把自IDCT电路24提供的输出数据和自移动补偿电路27提供的预测图像数据相加,得到输出图像数据。在P-图像的情况下,工作电路25的输出数据输入给帧存储器26并作为预测图像数据(参考图像)存储在那里,用于随后将要被解码的图像信号。
在MPEG中,定义了MP@ML以外的不同分布和等级并准备了不同的工具。可量测性是这些工具之一。在MPEG中,引入了实现可量测性的可量测编码方案,以便适用于不同的图像大小和帧速率。例如,在空间可量测性的情况下,可以通过只解码低层比特流使图像尺寸小的图像信号被解码,而图像尺寸大的图像信号可以通过解码高层和低层比特流被解码。参考附图26描述空间可量测性的解码器。在空间可量测性情况下,所述低层对应于具有小的图像尺寸的图像信号,而所述高层对应于具有大的图像尺寸的图像信号。低层图像信号先被输入到帧存储器1中,再以与MP@ML的情况相同的方式被解码。然而,工作电路10的输出不仅被提供给帧存储器11,被用作低层预测图像数据,而且在由图像放大电路31(采样)放大为与高层图像尺寸一样大小以后用作高层预测图像数据。根据附图26,高层图像信号输入给帧存储器51。移动矢量检测电路52以MP@ML的情况相同的方式确定移动矢量和预测模式。移动补偿电路62根据移动矢量检测电路52确定的移动矢量和预测模式生成预测图像数据并输出给加权电路(W)34。加权电路34用加权因子W乘以预测图像数据并把加权的预测图像数据输出到工作电路33。
如上所述,将工作电路10的输出数据(图像数据)输入到图像放大电路31。图像放大电路31放大工作电路10生成的图像数据,使其大小等于高层图像尺寸,同时,图像放大电路31还把放大的图像数据输出给加权电路(1-W)32。加权电路32用加权因子(1-W)乘以图像放大电路31放大的图像数据,并把结果输出给工作电路33。工作电路33把加权电路32和34的输出数据相加,并把结果输出给工作电路53作为预测图像数据。工作电路33的输出数据还被输入到工作电路60,并在那里与反DCT电路59的输出数据相加,然后输入到帧存储器61,以后用作要编码的图像数据的预测图像数据。工作电路53计算将要编码的图像数据的输出数据和工作电路33的输出数据之间的差值,并把作为差值数据的该结果输出。然而,在帧内编码宏模块的情况下,工作电路53以原样把将要编码的图像数据输出给DCT电路54。DCT电路54对工作电路53的输出结果进行DCT变换(离散余弦变换),生成DCT系数,并输出给量化电路55。与MP@ML的情况一样,量化电路55根据量化阶量化DCT系数并把结果(量化数据)输出给可变长度电路56,所述量化阶是以传输缓存器57的数据存储量及其他因素为基础。可变长度编码电路56对量化数据(量化的DCT系数)进行可变长度编码并把结果作为高层比特流经过传输缓存器57输出。量化电路55的输出数据被逆量化电路58用量化电路55中所用的量化阶逆量化,在反DCT电路59中经过反DCT变换,然后被输入到工作电路60。工作电路60把工作电路33的输出和反DCT电路59的输出相加,并把结果输入到帧存储器61。可变长度编码电路56还接收移动矢量检测电路52测得的移动矢量和预测模式、量化电路55中所用的量化阶和加权电路32和34中所用的加权因子W,这些值在可变长度编码电路56中编码,然后被传输。
下面,参考附图27描述空间可量测性解码器的例子。将低层比特流输入到接收缓存器21,然后以与MP@ML的情况相同的方式解码。然而,工作电路25的输出不仅被输出给外部系统并被存储在帧存储器26中用作以后要解码的图像信号的预测图像数据,而且在由图像信号放大电路81放大到与高层图像尺寸相同大小以后被用作高层预测图像数据。高层比特流通过接收缓存器71被提供给可变长度解码电路72,并在此进行可变长度码解码。也就是说,量化阶、移动矢量、预测模式和加权因子(W)与DCT系数一起被解码。经可变长度解码电路72解码的DCT系数(量化数据)由逆量化电路73利用解码的量化阶被逆量化,在反DCT电路74中经过反DCT变换,然后提供给工作电路75。
移动补偿电路77根据解码的移动矢量和预测模式产生预测图像数据并输入给加权电路84。加权电路84用解码的加权因子W乘以移动补偿电路77的输出,并把结果输出给工作电路83。工作电路25的输出不仅作为低层再现图像信号输出给帧存储器26,而且在由图像信号放大电路81放大以便与高层图像信号尺寸一样大小以后被输出给加权电路82。加权电路82利用解码的加权因子W把图像信号放大电路81的输出乘以(1-W),并把结果输出给工作电路83。工作电路83把加权电路82和84的输出相加,并把结果输出给工作电路75。工作电路75把反DCT电路74的输出和工作电路83的输出相加,并把结果作为高层再现图像数据输出,同时还将结果提供给帧存储器76用作以后要解码的图像数据的预测图像数据。
上面的描述可被用于照度信号的处理。以相似的方式可处理颜色差值信号。沿垂直方向和水平方向平分照度信号的移动矢量,获得颜色差值信号处理过程中所用的移动矢量。
虽然上面描述MPEG方案,但是用于移动图像的其他各种高效编码方案也已经标准化。例如,ITU-T(International Telecommunication Unin-国际电信联盟)已经把H.261和H.263方案标准化为通讯编码系统。基本上与MPEG方案一样,H.261和H.263是移动补偿预测编码和DCT编码的结合。H.261和H.263的编码装置和解码装置的结构与MPEG方案的一样,虽然标题信息等的细节不同。另外,在上述MPEG方案中,被称为MPEG4的新高效编码方案的标准化正在进行。MPEG4的主要特点是,图像是在目标-目标的基础上编码的(一幅图像是按多幅图像为单元被编码的),而且可以在目标-目标的基础上使图像得到调整。也就是说,在解码端,可将各个目标的图像或者多个图像合成,重组为一幅图像。
如前所述,在ISO-IEC/JTC1/SC29/WG11中,MPEG4的标准化工作正在进行。在这一工作中,正在研究通常体制中处理自然图像和计算机绘制图像的方案。在这一方案中,利用VRML描述三维目标,根据MPEG标准压缩移动的图像和声音或音频信号。根据VRML描述由多个三维目标、移动的图像等构成的场景。对场景的描述(后面简称为场景描述)、三维目标的描述和由根据MPEG方案压缩之移动图像、声音或音频信号构成的AV数据(以上述方式获得的)给以时间标记,并由多路传输电路将其多路复用为比特流,作为多路传输比特流传输。在接收多路传输比特流的接收端,多路传输电路取出场景描述、三维目标描述和AV流(与AV数据相应的流),多个解码器解码各个比特流,并将由场景重组电路重组的场景显示在显示装置上。
在上面的方法中,必须搞清楚根据VRML描述的各节点(三维目标描述和场景描述)与移动图像、声音、音频信号等的AV数据之间的关系。例如,必须表明应使怎样的AV流用某一三维目标进行纹理绘制。在VRML中,由URL(Uniform Resource Locator,这是表示网络上的服务器的字符串)指定拟被附于(被绘以)三维目标的纹理。这种指定方法与网络上的AV数据文件的绝对地址的指定相应。另一方面,在根据MPEG方案的系统中,通过指定每种AV流的ID来识别它。这与当建立起对话(通讯线路)时一种流在对话中的相对路径的指定相应。也就是说,在VRML中,除了使用URL以外没有其他方法用于识别流。但是,例如使用MPEG实时通讯需要基于ID的识别。在两个方案之间存在不匹配的问题。
从另一点看,可以说VRML设定了一种客户需要信息的模式。另一方面,MPEG设定了一种广播信息或类似信息在服务器控制下传输的模式。这些模式之间的差别导致了如下问题,即虽然与VRML2.0兼容,但是难以将计算机绘制的图像与自然图像融合在一起。
本发明是在上述情况下提出的,因此本发明的目的是使根据VRML描述的计算机绘制图像和根据MPEG方案压缩的图像或类似信息能够按如下状态传输,即它们被多路复用于同一比特(数据)流中。
在产生由多个节点定义的三维空间模型数据和由包括所述节点位置描述的图像/音频数据的方法中,进行如下步骤从三维空间模型数据的节点中取出相应的位置;把取出的位置转换为对应于与该位置相连系的图像/音频数据的流ID;用流ID替换所述位置;以及多路传输所述图像/音频数据和包括所述流ID的三维空间模型数据,产生比特流。
根据本发明的一个方面,用Virtual Reality Modeling Language(VRML-虚拟现实模型化语言)描述三维空间模型数据,位置采用ASCⅡ格式的Uniform Resource Locator(URL-统一资源定位符)表示,流ID用二进制格式表示。
根据本发明的另一方面,将流ID转换为字符串,而且根据图像/音频数据是由一个服务器提供还是由多个服务器提供确定是用流ID还是用字符串替换图像/音频数据的位置。
通过下面详细描述目前的最佳实施例,本发明的其他目的和优点将更加明了,下面的描述是结合附图进行的,其中
图1是表示本发明编码装置第一实施例结构实例的方块图;图2表示场景描述SD与节点之间的关系;图3表示移动图像作为纹理附加于节点用的场景描述的ASCⅡ格式的实例;图4表示静止图像作为纹理附加于节点用的场景描述的ASCⅡ格式的实例;图5表示移动图像作为纹理附加于节点用的场景描述的二进制格式的实例;
图6表示静止图像作为纹理附加于节点用的场景描述的二进制格式的实例;图7表示图1所示多路传输装置详细结构的实例;图8是表示本发明解码装置第一实施例结构实例的方块图;图9表示图8所示的多路分解电路404详细结构的实例;图10表示图8所示重组电路411结构的实例;图11是表示图9所示合成电路详细结构实例的方块图;图12示出目标描述器OD的实例;图13示出“ES-Descriptor”的实例;图14示出“ES-ConfigParams”的实例;图15是表示本发明编码装置第二实施例结构实例的方块图;图16表示移动图像作为纹理附加于节点用的场景描述的二进制格式实例;图17表示静止图像作为纹理附加于节点用的场景描述的二进制格式实例;图18是表示本发明解码装置第二实施例结构实例的方块图;图19是表示本发明编码装置第三实施例结构实例的方块图;图20表示移动图像作为纹理附加用的场景描述SD的二进制格式实例;图21表示静止图像作为纹理附加用的场景描述SD的二进制格式实例;图22是表示本发明解码装置第三实施例结构实例的方块图;图23是纹理绘制的方块图;图24是表示MPEG方案的一个MP@ML编码器实例的方块图;图25是表示MPEG方案的一个MP@ML解码器实例的方块图;图26是表示空间可量测性的编码器实例的方块图;图27是表示空间可量测性的解码器实例的方块图;下面参考附图详细描述本发明的最佳实施例。
图1是本发明编码装置第一实施例结构实例的方块图。
参见图1,系统控制电路301接收请求信号(请求(QER)),通过参考存储在存储装置302中的场景描述SD(下面将详细描述)确定应该传输什么样的AV目标(三维目标、自然图像、声音等),并向存储装置302输出场景请求信号(场景请求(SQER))。存储装置302存储描述二维或三维场景的场景描述SD。根据遵守VRML2.0的ASCⅡ格式描述场景描述SD。存储装置306存储音频和视频(AV)数据比特流(基元流(ES)),例如移动图像、静止图像和声音。存储装置305存储为了解码存储装置306中所存的AV目标所必需的信息(目标流信息(OI))。例如,目标流信息OI是解码AV目标所必需的缓存器大小或者每个访问单元的时间标记。目标流信息OI包括与各个AV目标对应的所有AV比特流信息。
下面将参考图2描述场景描述、AV数据(流)和三维目标之间的关系。在图2的例子中,计算机绘图生成的长方形图像序列和三角锥体显示于场景352中。虽然在这一例子中没有纹理附加于三角锥体上,但是正象其他三维目标的情况一样可将纹理附加于其上。所加的纹理可以是静止图像或移动图像。
场景描述SD350包括称为节点的描述。存在一个本源(根)节点SD0,描述在整幅图像中怎样排列目标。节点SD1是本源节点SD0的子节点,描述与三角锥体相关的信息。节点SD2也是本源节点SD0的子节点,描述与要附加上图像的长方形平面相关的信息。
在图2中,图像信号包括三个视频目标VO(背景、太阳和人)。节点SD2描述与背景相关的信息。节点SD3描述与附加有太阳的长方形平面相关的信息。节点SD4描述与附加人的平面相关的信息。每个节点描述表示相应的AV数据(比特流)文件的地址的URL。节点SD3和SD4是节点SD2的子节点。
一个的场景描述SD是所有节点SD0-SD4的集合。下面将所有节点描述的集合称为场景描述,而将各个节点称为目标(二维或三维目标)。因此,每个节点对应于单独一个二维物或三维目标。每个目标一一对应于一个目标描述符OD,它描述与该目标相关的AV数据(比特流)。
参见图1,对分析电路307读出在节点处描述的由存储装置302输出的URL(表示AV文件的地址),并向存储装置306输出用于请求输出与URL相应的AV数据(比特流)的请求信号(SE请求(ESREQ))。再有,分析电路307向存储装置305输出用于请求输出目标流信息OI的请求信号(OI请求(OIREQ)),所述目标流信息OI描述与所述URL相应的AV数据(比特流)的相关信息。
OD(目标描述符)生成电路304接收与存储装置305输出的AV目标相关的目标流信息OI,并仅取出由请求信号OIREQ请求的AV数据(比特流)信息,作为目标描述符OD,输出给多路复用电路303。而且,OD生成电路304为每个取出的目标描述符OD生成一个ID编号OD-ID,记录在目标描述符OD中,并把所得的目标描述符OD输出给多路复用电路303,而且还把生成的ID编号ID-OD输出给BIFS编码器308。
BIFS编码器308把从存储装置302输出的ASCⅡ格式的场景描述转换为二进制格式,并用OD生成电路304输出的ID编号OD-ID代替包括在场景描述SD中的URL。然后,BIFS编码器308把已经转换为二进制格式并用ID编号OD-ID代替的的场景描述B-SD输出给多路复用电路303。
多路复用电路303按规定的顺序多路复用存储装置306中所存的AV数据(比特流)、已经由BIFS编码器308转换为二进制的场景描述B-SD、以及由OD生成电路304生成的目标描述符OD,并把多路传输结果作为多路传输比特流FS输出。后面将参考图7描述多路复用电路303的详细例子。
下面描述上述实施例的工作情况。当用户从外部终端(未示出)输入产生所要显示的某一AV目标的请求信号时,请求信号(REQ)提供给系统控制电路301。系统控制电路301一旦收到请求信号REQ,就根据请求信号REQ参考存储装置302中所存的场景描述SD确定应该传输什么样的AV目标,并向存储装置302输出场景请求信号SREQ。存储装置302一旦收到场景请求信号SREQ就读出相应的场景描述SD(以ASCSⅡ格式描述),并提供给分析电路307和BIFS编码器308。
图3表示移动图像作为纹理附加用的场景描述(以ASCⅡ格式描述)的实例。在这个例子中,第六行描述表示将要附加的移动图像文件的地址的URL。图4表示静止图像作为纹理附加用的场景描述(以ASCⅡ格式描述)的实例。在这个例子中,第二行描述表示将要附加的静止图像文件的地址的URL。图3和图4的格式遵守VRML的节点描述。
分析电路307读出构成所提供的场景描述SD的节点中包括的URL(表示AV数据(比特流)文件的地址),并向存储装置306输出请求信号ESREQ。结果,从存储装置306中输出相应的AV数据(比物流),并将之提供给多路复用电路303。
另外,分析电路307向存储装置305输出用于请求输出目标流信息OI的请求信号OIREQ,所述目标流信息OI与由所述节点中所包括的URL表示的AV数据(比特流)ES相关。结果,与URL相应的目标流信息IO从存储装置305输出给OD生成电路304。
OD生成电路304仅取出由来自与存储装置305提供的AV目标相关的目标流信息OI的请求信号OIREQ请求的信息,作为目标描述符OD。而且,OD生成电路304生成一个ID编号ID_OD,将其记录在目标描述符OD中,并把所得的目标描述符OD输出给多路复用电路303。此外,OD生成电路304还把为每个目标描述符OD生成的ID编号OD_ID输出给BIFS编码器308。
BIFS编码器308把从存储电路302输出的ASCⅡ格式的场景描述SD采用预定的方法转换为二进制格式数据(场景描述B-SD),并替换场景描述SD中所包括的URL。然后,BIFS编码器308把已经转换为二进制格式的场景描述B-SD输出给多路复用电路303。在已经由ISO标准化被称为MPEG4WD的文件(文件号N1825)中详细描述了二进制格式。下面将描述二进制格式的例子。
图5表示把附加移动图像作为纹理所用的场景描述(ASCⅡ格式,见图3)变换为二进制格式所得的数据。在图5中,出现在29行上的“目标描述符ID”是表示拟被附加于该节点之移动图像的ID编号的OD_ID标记。BIFS编码器308把由OD生成电路304提供的ID编号OD_ID写在已经转换为二进制格式之场景描述B-SD中的这一部分。结果,以ASCⅡ格式描述为URL的AV数据(比特流)的地址转换为ID编号OD_ID(二进制格式)。
图6表示把附加静止图像作为纹理所用的场景描述(ASCⅡ格式,见图4)变换为二进制格式所得的数据。在这一例子中,出现在17行上的“目标描述符ID”和ID编号的OD_ID被写在已经转换为二进制格式之场景描述B-SD中的这一部分。将这样生成的二进制格式场景描述B-SD提供给多路复用电路303。多路复用电路303按照规定的顺序多路传输存储装置306中所存的AV数据(比特流)、已由BIFS编码器308转换为二进制的场景描述B-SD、以及由OD生成电路304生成的目标描述OD,并输出多路复用比特流FS。
图7表示多路复用电路303之详细结构的实例。在图7中,开始代码生成电路303a生成并输出表示比特流开始位置的开始代码。
存储装置306输出的AV数据(比特流)ES-ESN提供给相应的终端。BIFS编码器308输出的二进制格式场景描述B-SD和OD生成电路304输出的目标描述符OD提供给相应的终端。另外,开始代码生成电路303a输出的开始代码提供给相应的终端。
多路复用电路303操纵一个开关,以便连接与开始代码生成电路303a相连的终端,从而输出开始代码。然后,转换到使场景描述SD被输入的终端,从而输出场景描述SD。再后,转换到使目标描述符OD被输入的终端,从而输出目标描述符OD。最后,根据数据顺次转换到使AV数据(比特流)被输入的终端,从而输出AV数据(比特流)ES1-ESN。
多路复用电路303通过开关选择开始代码、场景描述SD、目标描述符OD、和AV数据(比特流),从而作为多路复用的比特流FS向外部系统输出这些信息。例如,通过传输线把多路复用比特流FS提供给接收终端。
下面参考图8描述与图1中编码装置相应的解码装置的一个实施例结构的实例。图8是表示根据本发明的解码装置的一个实施例结构实例的方块图。在图8,多路分解电路404接收多路复用比特流FS,然后分离并取出构成多路复用比特流FS的各个比特流。
图9表示多路分解电路404结构的实例。如图9所示,多路分解电路404检测多路复用比特流FS中的开始代码并识别各个比特流的存在。然后,通过开关把输入的多路复用比特流FS分离为场景描述SD和目标描述符OD,并从相应的终端输出。类似地,AV数据的比特流ES1-ESN被分离并从相应的终端输出。
再参见图8,分析电路406接收由多路分解电路404分离的目标描述符OD,确定解码AV数据(比特流)所必需的解码器类型和数目,并生成提供给相应解码器的各个AV数据(比特流)的比特流。而且,分析电路406从目标描述符OD中读出解码各比特流所需的缓存器容量,并把它们(Init)提供给各解码器407-409。更且,为了能够确定各个比特流ES1-ESN属于哪个节点,分析电路406向解码各目标描述OD中所描述的比特流的解码器输出各目标描述的ID编号OD_ID。
解码器407-409根据预定的解码方法并与编码方法对应地解码比特流,并向重组电路411输出生成的视频数据或音频/声音数据。另外,解码器407-409向重组电路411输出表示各个解码数据(视频数据或音频(声音)数据)属于哪个节点的ID编号OD_ID。更且,如果接收到的比特流是表示图像大小和显示位置的数据(SZ,POS)以及包括在比特流中表示图像穿透程度的数据(主要数据),解码器407-409从比特流中解码表示图像大小和显示位置的数据(SZ,POS)(图像的大小和显示位置数据)以及表示图像穿透程度的数据(主要数据),并把这些数据输出给重组电路411。
虽然在上面的实施例中对于N等于1至3的情况提供了三个解码器407-409,应该明白,可以根据拟处理的数据改变解码器的数目。
分析电路410分析二进制格式的场景描述B-SD并把产生的数据提供给重组电路411。另外,分析电路410读取与目标描述中的ID编号OD-ID相对应的场景描述B-SD中的ID编号OD_ID,并提供给重组电路411。
图10示出了再现整个图像的所有比特流之间的关系和一个重组电路411实例。如图10所示,重组电路411包括合成电路351;合成电路351产生的图像信号提供给显示装置352,从而使图像在此显示。在图10中,合成电路351和显示装置352被表示为重组电路411。这是为了表示在合成电路351中产生的图像是怎样在显示装置352显示的。实际上显示装置352不包括在重组电路411中。合成电路351接收分析电路410提供的节点数据和ID编号OD_ID,以及解码器407-409提供的图像数据、主要数据、图像大小和显示位置信息(SZ,POS)和ID编号OD_ID,并搜索与OD_ID相应的图像数据,并根据主要数据及大小和显示位置信息把图像数据附加于节点,并把与生成的图像数据相应的图像信号输出给显示装置352。
图11是表示重组电路411实例的方块图。如图11所示,重组电路411包括匹配电路360、目标合成电路500-502和二维转换电路503。目标合成电路500包括存储器组500-1和再现电路500-2。存储器组500-1包括纹理存储器500-1a、灰度级存储器500-1b和三维目标存储器500-1c。
例如,纹理存储器500-1a存储解码器407提供的AV数据(比特流),作为纹理数据。灰度级存储器500-1b存储解码器407提供的表示穿透程度的主要数据。三维目标存储器500-1c存储分析电路410输出的三维目标的信息(节点)。三维目标信息(节点)包括形成多边形的信息、照明多边形的照度信息及其他信息。图像的大小和显示位置数据(SZ,POS)也存储在例如灰度级存储器500-1b的某一位置。
再现电路500-2根据三维物存储器500-1c中所存的节点信息利用多边形产生三维目标。另外,再现电路500-2接收分别从纹理存储器500-1a和灰度级存储器500-1b接收纹理数据和表示穿透程度的主要数据,并且把纹理附加于相应的节点,执行与主要数据相应的处理,使纹理具有预选的透明度。将这样获得的数据输出给二维转换电路503。另外,将图像大小和显示位置数据(SZ,POS)输出给二维转换电路503。因为目标合成电路501和502按与目标合成电路500相同的方式设计,所以这里不再描述它们。如果把纹理(图像数据)附加于目标(绘制),需要清楚纹理与目标之间的关系。为了搞清楚这种关系,使用在目标描述符OD中描述的ID编号OD_ID和在场景描述B-SD中描述的ID编号OD_ID。这样,输出给分析电路411的数据在提供给相应的目标合成电路500-502之前,首先提供给匹配电路360。匹配电路360把在目标描述符OD中描述的ID编号OD_ID与在场景描述B-SD中描述的ID编号OD_ID匹配,如图8所示,从而找出相互关系。
二维转换电路503根据外部输入的观察点信息及目标合成电路提供的图像大小和显示位置数据,通过绘制成二维平面,把从各目标合成电路500-502输出附加纹理的目标转换为二维图像信号。将所得的二维图像信号提供给显示装置352,以在上面显示。
下面参考图8描述上述实施例的工作情况。将通过传输线传输的多路复用比特流FS提供给多路分解电路404。多路分解电路404检测多路复用比特流FS中的开始代码并识别各比特流。然后,多路分解电路404通过适当地转换图9所示的开关从多路复用比特流FS中分离出场景描述B-SD、目标描述符OD、与AV数据(比特流)相应的比特流ES1-ESN,并输出这些数据。将目标描述符OD提供给分析电路406,将比特流ES1-ESN提供给各个的解码器407-409,而将二进制格式的场景描述B-SD提供给分析电路410。
分析电路410分析多路分解电路404输出的二进制格式场景描述B-SD,并把结果(三维物信息(NODE))提供给重组电路411。另外,分析电路410解码拟附加于节点的AV数据(比特流)的目标描述OD的ID编号OD_ID,并将它们提供给重组电路411。
分析电路406接收目标描述符OD,确定解码比特流所需的解码器类型和数目,并生成拟提供给各解码器的比特流。而且,分析电路406从目标描述符OD中读出解码各比特流所需的缓存器的容量或者每个访问单元的时间标记,并把它们作为初始化信息(Init)提供给各解码器407-409。于是,解码器407-409参考所提供的值(初始化信息(Init))完成初始化。另外,为了表示各解码器407-409处理的比特流属于什么目标,分析电路406输出各个目标描述符OD的ID编号OD_ID。
解码器407-409根据分析电路406提供的初始化信息完成初始化,例如确定缓存器。当接收到与多路分解电路404输出的AV数据(比特流)相应的比特流时,解码器407-409采用与编码操作相应的预定解码方法解码各个比特流,并向再现电路41路输出生成的视频数据或音频(声音)数据。
进一步,解码器407-409向重组电路411输出表示已由各个解码器解码的比特流对应什么目标的ID编号OD_ID。更且,如果解码的比特流是图像,解码器407-409输出表示图像的大小和显示位置的数据(SZ,POS)以及表示图像的穿透程度的数据(主要数据)。
如图11所示,将输出给重组电路411的数据提供给相应的目标合成电路500-502。一个目标合成电路对应每个节点。如上所述,当把不同类型的数据提供给相应的目标合成电路500-502时,必须知道各个解码器407-409处理的比特流属于什么目标。因此,在把数据提供给相应的目标合成电路之前,由匹配电路360使在目标描述OD中描述的ID编号OD_ID与在场景描述B-SD中描述的ID编号OD_ID进行核对。从而,能够找出所确定的信号(比特流)与三维目标信息(NODE)之间的关系。目标合成电路500-502接收包含分别由解码器407-409的节点所表示的ID编号OD_ID的解码信号。如果接收的解码信号是图像数据,目标合成电路500-502就把该图像附加到所要生成的二维或三维目标上。
下面将对作为例子用的目标合成电路500描述上述工作情况。把要附加于目标上的纹理数据存储在纹理存储器500-1a中。将主要数据和ID编号OD_ID提供给灰度级存储器500-1b并存储在这里。将节点(三维物信息)存储在三维目标存储器500-1c中。另外,将图像的大小和显示位置数据(SZ,POS)也存储在例如灰度级存储器500-1b的某一位置。ID编号OD_ID用于识别节点。
再现电路500-2读取三维目标存储器500-1c中所存的节点(三维目标信息)并利用多边形生成相应的目标。另外,再现电路500-2参照从灰度级存储器500-1b接收的表示穿透程度的主要数据,把从纹理存储器500-1a接收的图像数据附加于上述生成的多边形上。并且,从灰度级存储器500-1b读取图像大小和显示位置数据(SZ,POS)并提供给二维转换电路503。目标合成电路501和502进行类似的工作过程。
将来自各个景物合成电路500-502的附加纹理的二维或三维目标提供给二维转换转换电路503。根据外部输入的观察点的信息及图像大小和显示位置数据(SZ,POS),二维转换电路503通过绘制二维平面把三维目标转换为二维图像信号。已经转换为二维图像信号的三维目标在显示装置352上面输出(显示)。
如果所有的目标都是二维的,各个再现电路500-2至502-2的输出被按它们的穿透程度(主要数据)原样合成然后输出。在这种情况下,不进行转换。
图12-14示出目标描述OD的结构。图12示出目标描述OD的的整体结构。在图12中,第三行的“NodeId”是表示这一目标描述的ID编号的10位标记位,而且与上述ID编号OD_ID相对应。第四行的术语“streamCount”是表示包括在目标描述符OD中的AV数据单元(比特流ES)数目的8位标记位。因此,按照“streamCount”表示的数字传输解码各个比特流ES所必须的术语“ES_Descriptor”。第五行的术语“extensionFlag”是表示是否传输其他信息的标记位。如果这一标记位的值为“1”,则传输其他描述。
第八行的“ES_Descriptor”是表示与每个比特流相关的信息的描述。图13示出“ES_Descriptor”的细节。在图13中,第三行的“ES_number”是表示用于比特流识别的ID编号的5位标记位。第六行的术语“StreamType”表示比特流的格式,例如是表示如MPEG2视频数据的8位标记位。术语“Qos_Dscriptor”是表示在传输过程中向网络请求的8位标记位。第八行的术语“ESConfigParams”是描述解码比特流所必须的信息的描述,图14中示出其细节。“ESConfigParams”的细节在MPEG4系统中有所描述。
在上述实施例中,在解码装置中,包括在构成三维空间模型数据(VRML数)据的节点中的URL被与由URL指定的AV数据(比特流)相对应的目标描述符OD的ID编号OD_ID代替。在解码端,搜索(排序)与节点中包括的ID编号OD_ID相对应的目标描述符OD,从而检测(识别)出相应的AV数据(比特流)。因此,能够传输多路复用在同一比特流中的CG图像和自然图像,同时描述场景和三维目标的方法保持与例如VRML方案兼容。
在上述实施例中编码的音频和视频数据(AV数据(比特流))被存储在存储装置306中。然而,例如可以直接从音频或视频编码装置输入这些数据而不通过这样的存储装置。
虽然在上面的实施例中AV数据(比特流)、目标描述符OD和场景描述SD存储在分开的存储装置中,但它们可以存储在同一存储装置或记录介质中。
而且,虽然场景描述SD预先以文件方式存储,但是AV数据(比特流)和目标流信息OI可在传输时实时生成。
下面参考附图15,描述根据本发明的第二实施例的编码装置。在图15中,与图1中相对应的部分在后面采用相同的参考标记并不再描述。
本实施例中,在图1的实施例中加入一个URL变化电路309。将分析电路307的输出数据和OD生成电路304的输出提供给URL变化电路309,再将URL变化电路309的输出数据提供给BIFS编码器308。其余的结构与图1中的实施例相同。
URL变化电路309把OD生成电路304输出的ID编号OD_ID变换为相应的ASCⅡ码格式的字符串,然后输出。例如,给出一个描述的例子,其中拟被附加于存储装置302中所存的某一节点的解码AV数据(比特流)所需的目标流信息OI具有如下地址http:∥serverA/AV_sceneL/object_file.1......(1)在这种情况下,从存储装置305中读出目标流信息OI,从OD生成电路304提供与目标流信息OI相应的目标描述符OD的ID编号OD_ID。URL变化电路309接收ID编号OD_ID并把URL改写(变化)为适当的ASCⅡ格式的字符串。例如,如果OD_ID是“4”,表达式1改写(变化)为如下形式mpeg4:∥4 ......(2)其中字符串“mpeg”位于表示URL的字符串的头部,而且紧跟在位于“mpeg”之后的字符串“∥”后面的表示数字的字符串(本例中的字符“4”)表示ID编号OD_ID。
可能存在如下情况,即以存储装置302中所存节点描述的URL指定一个存在于与图15所示编码装置不同的编码装置(在网络上)上的文件。在这种情况下,URL变化电路309停止变化操作,而且把表达式(1)的URL例如以原样提供给BIFS编码器308。
下面简要描述本实施例的工作情况。当接收到请求信号REQ时,场景控制电路301参考存储在存储装置302中的场景描述SD根据请求信号REQ确定应该传输什么AV物,并且向存储装置302输出场景请求信号SREQ。
在接收场景请求信号SREQ的时候,存储装置302读取相应的场景描述SD(按ASCⅡ格式描述的)并提供给分析电路307和BIFS编码器308。
分析电路307读出包括在构成所提供之场景描述SD的节点中的URL(表示AV数据(比特流)文件的地址),并向存储装置306输出请求信号ESREQ,用于输出与URL相应的AV数据(比特流)。结果,相应的AV数据(比特流)ES从存储装置306输出并提供给多路复用电路303。
另外,分析电路307向存储装置305输出用于请求输出目标流信息OI的请求信号OIREQ,所述目标流信息OI与由包括在所述节点中的URL表示的AV数据(比特流)ES相关。结果,与URL相应的目标流信息OI从存储装置305输出,并提供给OD生成电路304。再有,分析电路307把包括在节点的URL输出给URL变化电路309。
OD生成电路304从与存储装置305提供的AV目标相关的目标流信息OI中仅取出由请求信号OIREQ请求的目标流信息,作为目标描述符OD。而且,OD生成电路304生成一个ID编号OD-ID,记录在目标描述符OD中,并把所得的目标描述符OD输出给多路传输电路303。再有,OD生成电路304还把为每个目标描述OD生成的ID编号ID-OD输出给URL变化电路309。
如果从分析电路307提供的URL指定一个存在于网络中的另一个服务器上的文件,URL变化电路309按照原样把URL输出给BIFS编码器308。如果所提供的URL指定一个存储在存储装置306中的AV数据(比特流)文件,URL变化电路309参照OD生成电路304输出的ID编号OD-ID生成一个如同表达式(2)的字符串,并将其输出给BIFS编码器308。
BIFS编码器308把从存储装置302提供的ASCⅡ格式的场景描述SD用预定的方法转换为二进制格式的场景描述B-SD,并用OD生成电路304提供的URL或字符串替换包括在场景描述SD中的URL。然后,二进制格式的场景描述B-SD被输出给多路复用电路303。
图16表示按照作为纹理附加移动图像的二进制格式的场景描述SD的实例。在第29行上的URL是从URL变化电路309输出的ASCⅡ格式的字符串。也就是说,在本实施例中,URL被描述为按二进制形式的字符串。
图17表示按照作为纹理附加静止图像的二进制格式的场景描述的实例。如同图16的情况一样,在图17的第17行上的URL是ASCⅡ格式的字符串。
已经由BIFS编码器308转换为二进制的场景描述符SD提供给多路复用电路303,而且与目标描述OD和AV数据(比特流)ES多路复用。所得的多路复用比特流FS从多路复用电路303输出。多路复用比特流FS通过例如传输线提供给解码装置。
下面参考附图18描述与图15的编码装置相应的解码装置的一个实施例。图18是表示根据本发明的解码装置第二实施例结构实例的方块图。在图18中,与图18中相对应的部分在后面采用相同的参考标记并不再描述。
图18的实施例中,是在图8的实施例中加入一个URL变化电路412。另外,分析电路410提供作为ASCⅡ格式的字符串所表示的信息。其余的结构与图8中的实施例相同。URL变化电路412把以ASCⅡ格式的字符串所表示的信息转换为ID编号OD-ID,并提供给重组电路411,ID编号OD-ID为相应的目标描述符OD的ID。
下面简要描述本实施例的工作情况。把由分析电路410从节点提取出的URL提供给URL变化电路412。如果所述URL是具有例如表达式(2)的格式的字符串,则URL变化电路412把字符串变换为ID编号OD-ID,并提供给重组电路411。于是,重组电路411根据节点中包含的ID编号OD-ID把相应AV数据作为纹理附加于所述节点。
然而,如果取出的URL指定网络中的另一个服务器存储的文件(URL是具有例如表达式(1)格式的字符串),则URL变化电路412把该信息提供给多路分解电路404,然后多路分解电路404向该服务器发送文件传输请求。于是,多路复用比特流FS′通过类似的方法被传输,并进行显示。
根据上实施例,即使拟附加于节点的AV数据(比特流)ES存在于网络的另一服务器中,也可以获得并显示期望的AV数据(比特流)。
下面参考附图19,描述根据本发明第三实施例的编码装置。图19是表示根据本发明第三实施例编码装置的方块图。在图19中,与图1中相对应的部分在后面采用相同的参考标记并不再描述。
图19的实施例中,在图1的实施例中加入URL变化电路309、开关310和控制电路311。而且,分析电路307输出的数据和OD生成电路304输出的ID编号OD_ID被提供给URL变化电路309。URL变化电路309输出的数据和OD生成电路304输出的ID编号OD_ID被提供给开关310,而控制电路311控制开关310。其余的结构与图1中的实施例相同。
URL变化电路309把OD生成电路304输出的ID编号OD_ID变换为相应的ASCⅡ码格式的字符串,并输出之。因为在图15的第二实施例中描述了URL变化电路309的工作情况,这里不再描述。
由控制电路311控制,开关310从OD生成电路304输出的ID编号OD_ID和URL变化电路309输出的URL中选择一个,并把所选的OD_ID或URL输出给BIFS编码器308。控制电路311根据例如应用的类型控制开关310的转换。下面简要描述本实施例的工作情况。
其格式已经被URL变化电路309转换的URL(细节在第二实施例中已经描述,在此不再描述)被提供给开关310。类似地,由OD生成电路304输出的ID编号OD_ID被提供给开关310。
在控制电路311的控制下来改变开关310的连接。例如对于实时通讯或硬件设计而言其优点在于,ID编号OD_ID被直接描述为例如10位标记位形式的数字而不是字符串。因此,在这样的应用中,开关310由开关控制电路311控制以便从OD生成电路304选择输出数据,在这种情况下,由BIFS编码器308把ID编号OD_ID记录在二进制格式的场景描述B-SD中。如果将由URL指定的AV数据(比特流)存储在网络的另一服务器中,则控制电路311控制开关310,改变它的连接,以便URL变化电路309的输出数据得以被选择,从而URL输出到BIFS编码器308并被记录。
另一方面,在计算机应用的情况下,其优点在于,流由URL字符串指定,这是因为高度的灵活性。因此,在这样的应用中,控制开关310,使之连接到URL变化电路309上,从而由BIFS编码器308把URL记录在二进制格式的场景描述B-SD中。
图20表示作为纹理附加用的移动图像的场景描述B-SD二进制格式的实例。在图20中,第29行和第30行的“isString”是表示描述的是ID编号OD_ID还是URL的1位标记位。如果该值为“0”,则10位的ID编号OD_ID被记录在节点中。如果“isString”的值为“1”,记录的是URL。该URL是已经被URL变化电路309改写的字符串,以便表示拟附加于节点的移动图像的ID编号OD_ID。
图21表示作为纹理附加用的静止图像的场景描述B-SD二进制格式的实例。在该图中,如同上面的情况一样,在第17行和第18行上的“isString”是表示所描述的是ID编号OD_ID还是URL的1位标记位。
已经被上述编码装置编码的多路传输流FS经过传输线传输到解码装置。
图22是表示与根据本发明的图19的编码装置相应的解码装置的第三实施例的方块图。在图22中,与图8中相应的部分在后面采用相同的参考标记并不再描述。
图22的实施例中,在图8实施例中加入URL变化电路412。其余的结构与图8中的实施例相同。
在本实施例中,分析电路410解码“isString”。如果该值为“1”,则分析电路410向URL变化电路412提供一个URL。如果该值为“0”,则分析电路410解码ID编号OD-ID并向重组电路411提供一个结果。
如果所述URL是以例如表达式(2)的形式描述的,则URL变化电路412解码ID编号OD_ID,并向重组电路411输出一个结果。如果所述URL表示存在于另一服务器中的文件,则所述信息提供给多路分解电路404,而且该多路分解电路404访问该服务器并读出需要的文件。
下面简要描述本实施例的工作情况。读出的场景描述SD(节点)被提供给分析电路410并在此进行分析。将被分析的场景描述提供给重组电路411。另外,分析电路410解码“isString”并判断它的值是否为“1”。如果判断该值为“1”,其分析电路410把将要作为纹理被附加于节点的AV数据(比特流)的URL提供给URL变化电路412。如果所述URL是以例如表达式(2)的形式描述的(例如字符串的头部为“mpeg4”),则URL变化电路412解码ID编号OD-ID,并输出给重组电路411,所述ID编号OD-ID是来自字符串的目标描述OD的ID。如果所述URL指定存在于另一服务器中的文件,则所述信息被提供给多路分解电路404,并且该多路分解电路404访问该服务器,要求该服务器传输需要的文件,并接收该文件。即使当使用多个服务器通讯时,每个服务器都按照上述方式工作。
另一方面,如果“isString”为“0”,则分析电路410解码ID编号OD-ID并向重组电路411输出一个结果。其余的工作情况与第一实施例相同,后面不再描述。
根据上述实施例,可以根据应用的类型选择最适当的编码方法。
根据本发明,例如磁盘、DVD-R、CD-R、CD-ROM等记录介质含有用上述编码方法产生的编码图像信号;当从记录介质上再现图像时解码这些编码图像信号。
虽然已经参考方块图示出了本发明的编码和解码装置及方法,而且对每一个方块图提供了不同的物理元件,因此可以在为多用途而编程的多用途(通用)计算机上实现这种方法和装置。在这方面,所述记录介质或其他存储装置都能包含完成上述编码和解码操作方法中提出的每个步骤的操作指令(源程序码或软件)。还应该指出的是,与通讯网或类似线路(例如互联网、数字卫星等等)相连的传输通道可以用于接收和传输来自编码器的数据,并解码这种编码的数据。
举例来说,根据本发明的编码和解码装置方法可被用于编码和解码来自数字视盘、图像数据库、图像压缩和展开单元、从互联网卸载的图像或者实现这些系统的软件模块的信息。
在编码装置中,输入编码方法和记录介质、三维空间的模型数据(VRML数据),是输入数据(AV数据流)。提取输入的三维空间模型数据(VRML数据)的节点中所包括的位置标识数据(URL)。将提取的位置标识数据(URL)转换为与位置标识数据(URL)指定的数据(AV数据流)相应的流ID。用通过转换获得的流ID替代节点的位置标识数据(URL)。由替代所得的三维空间模型数据(VRML数据)和AV数据被多路复用到同一流中。因此,能够传输作为三维空间模型数据(VRML数据)而被描述的目标和根据例如MPEG方案压缩的自然图像;以将它们多路复用到同一流中的状态进行这种传输。
在解码装置中,从多路复用数据中取出解码方法和记录介质以及节点,并从多路复用数据中取出数据(AV数据流)。从各节点取出表示节点与数据(AV数据流)之间相关特性的信息。根据取出的表示相关特性的信息,排序(匹配)各节点与数据(AV数据流)。根据相关特性结果合成所述节点和数据(AV数据流)。因此,能够解码以如下状态传输的数据,即使得描述为三维空间模型数据(VRML数据)的目标和根据例如MPEG方案压缩的自然图像被多路复用到同一流中。
因此应该看到,上面提到的目的通过前面的描述变得更清楚,并可以充分地实现,而且因为在实现上述方法以及提出的结构中可以进行某些变化,而不致离开本发明的实质和范围,所以上面描述中包含的和附图中示出的所有情况都是解释性说明,实际并不限于这些。
还应该理解后面各权利要求涵盖这里描述的本发明的所有一般和具体特征;用术语来说,可以说本发明范围的所有叙述,均可落入权利要求书中。
权利要求
1.一种产生由多个节点定义的三维空间模型数据和由各节点中所包含的位置描述的图像/音频数据的方法,所述方法包括如下步骤从所述三维空间模型数据的节点中取出相应的位置;把取出的位置转换为对应于与所述位置相连系的图像/音频数据的流ID;用所述流ID替换所述位置;以及多路复用所述图像/音频数据和包括所述流ID的所述三维空间模型数据,以便产生比特流。
2.根据权利要求1的方法,其中所述比特流包括含有所述流ID和定义所述图像/音频数据的附加信息,所述附加信息已经与所述图像/音频数据和三维空间模型数据在所述比特流中多路复用。
3.根据权利要求1的方法,其中所述三维空间模型数据采用虚拟现实模型化语言(Virtual Reality Modeling Language(VRML))描述,所述位置采用ASCⅡ格式的统一资源定位符(Uniform Resource Locator(URL))表示,所述流ID用二进制格式表示。
4.根据权利要求3的方法,进一步包括把所述流ID转换为字符串,并根据所述图像/音频数据是由同一个服务器提供还是由不同的服务器提供确定是用所述流ID还是用所述字符串替换所述图像/音频数据的位置。
5.根据权利要求4的方法,其中所述比特流包括含有所述流ID和定义所述图像/音频数据的附加信息,所述附加信息已经与所述图像/音频数据和三维空间模型数据在所述比特流中多路复用。
6.一种产生由多个节点定义的三维空间模型数据和由各节点中的所包含的位置描述的图像/音频数据的方法,所述方法包括如下步骤从所述三维空间模型数据的节点中取出相应的位置;把取出的位置转换为对应于与所述位置相连系的图像/音频数据的流ID;把所述流ID转换为字符串;用所述字符串替换所述位置;以及多路复用所述图像/音频数据和包括在所述字符串中的所述三维空间模型数据,以便产生比特流。
7.根据权利要求6的方法,其中根据所述图像/音频数据是由同一个服务器提供还是由不同的服务器提供使所述位置用所述字符串替换。
8.根据权利要求6的方法,其中所述三维空间模型数据采用虚拟现实模型化语言(Virtual Reality Modeling Language(VRML))描述,所述位置采用ASCII格式的统一资源定位符(Uniform Resource Locator(URL))表示,所述流ID用二进制格式表示。
9.根据权利要求6的方法,其中所述比特流包括含有所述流ID和定义所述图像/音频数据的附加信息,所述附加信息已经与所述图像/音频数据和三维空间模型数据在所述比特流中多路复用。
10.一种用于产生由多个节点定义的三维空间模型数据和各节点中所包含的位置描述的图像/音频数据的设备,它包括用于从所述三维空间模型数据的节点中取出相应的位置的装置;用于把取出的位置转换为对应于与所述位置相连系的图像/音频数据的流ID的装置;用所述流ID替换所述位置的装置;以及用于多路复用所述图像/音频数据和包括所述流ID的所述三维空间模型数据,以便产生比特流的装置。
11.根据权利要求10的设备,其中所述比特流包括含有所述流ID和定义所述图像/音频数据的附加信息,所述附加信息已经与所述图像/音频数据和三维空间模型数据在所述比特流中多路复用。
12.根据权利要求10的装置,其中所述三维空间模型数据采用虚拟现实模型化语言(Virtual Reality Modeling Language(VRML))描述,所述位置采用ASCII格式的统一资源定位符(Uniform Resource Locator(URL))表示,所述流ID用二进制格式表示。
13.根据权利要求12的装置,进一步包括把所述流ID转换为字符串的装置,和如下装置,即根据所述图像/音频数据是由同一个服务器提供还是由不同的服务器提供而确定是用所述流ID还是用所述字符串替换所述图像/音频数据的位置的装置。
14.根据权利要求13的装置,其中所述比特流包括含有所述流ID和定义所述图像/音频数据的附加信息,所述附加信息已经与所述图像/音频数据和三维空间模型数据在所述比特流中多路复用。
15.一种用于产生由多个节点定义的三维空间模型数据和由各节点中所包含的位置描述的图像/音频数据的设备,它包括用于从所述三维空间模型数据的节点中取出相应的位置的装置;用于把取出的位置转换为对应于与所述位置相连系的图像/音频数据的流ID的装置;把所述流ID替换为字符串的装置;用所述字符串替换所述位置的装置;以及用于多路复用所述图像/音频数据和包括所述字符串的所述三维空间模型数据,以便产生比特流的装置。
16.根据权利要求15的设备,其中根据所述图像/音频数据是由同一个服务器提供还是由不同的服务器提供使所述位置用所述字符串替换。
17.根据权利要求15的装置,其中所述三维空间模型数据采用虚拟现实模型化语言(Virtual Reality Modeling Language(VRML))描述,所述位置采用ASCⅡ格式的统一资源定位符(Uniform Resource Locator(URL))表示,所述流ID用二进制格式表示。
18.根据权利要求15的装置,其中所述比特流包括含有所述流ID和定义所述图像/音频数据的附加信息,所述附加信息已经与所述图像/音频数据和三维空间模型数据在所述比特流中多路复用。
19.一种处理包括图像/音频数据和由多个节点构成的三维空间模型数据的比特流以便产生显示图像的方法,该方法包括接收所述比特流;把接收的比特流多路分解成流ID、所述三维空间模型数据和图像/音频数据;以及根据所述流ID找出所述图像/音频数据与各个节点之间的相应之处,以便产生所述显示图像。
20.根据权利要求19的方法,其中所述三维空间模型数据采用虚拟现实模型化语言(Virtual Reality Modeling Language(VRML))描述,所述流ID信息用二进制格式表示。
21.根据权利要求19的方法,其中所述图像/音频数据与节点信息之间的相应之处是与由第一表达式表示的所述流ID或者与由第二表达式表示所述流ID对应的的字符串一致的;而且其中所述节点包括标记位,该标记位表示根据所述图像/音频数据是由同一个服务器提供还是由不同的服务器提供而使用第一或第二表达式。
22.根据权利要求19的方法,其中所述比特流包括含有所述流ID和定义所述图像/音频数据的附加信息,所述附加信息已经与所述图像/音频数据和三维空间模型数据在所述比特流中多路复用,并使其中所述节点中包含所述流ID与在所述附加信息中包含的所述流ID核对。
23.一种处理包括图像/音频数据和由多个节点构成的三维空间模型数据的比特流以便产生显示图像的方法,该方法包括接收所述包括图像/音频数据和由节点构成的三维空间模型数据的比特流,并输出所述三维空间模型数据和图像/音频数据;把字符串信息转换为流ID信息,所述字符串信息是表示节点与所述图像/音频数据之间的关系的信息;以及根据转换的流ID信息连接所述图像/音频数据与所述节点。
24.根据权利要求23的方法,其中表示所述关系的信息是与所述流ID信息对应的所述字符串信息和位置指定信息之一;其中,如果表示所述关系的信息是所述字符串信息,则所述图像/音频数据根据转换的流ID信息与所述节点连接;表示所述关系的信息所述位置指定信息的情况下,所述图像/音频数据从由所述位置指定信息指定的提供部分与所述节点连接。
25.根据权利要求23的方法,其中所述三维空间模型数据采用虚拟现实模型化语言(Virtual Reality Modeling Language(VRML))描述,所述字符串信息采用ASCII格式表示,所述转换的流ID信息用二进制格式表示。
26.根据权利要求23的方法,其中所述比特流包括定义所述图像/音频数据和包含所述流ID的信息;而且其中转换的流ID信息与定义所述图像/音频数据的信息中所包含的流ID核对,所述图像/音频数据根据核对的结果与所述节点连接。
27.一种处理包括图像/音频数据和由多个节点构成的三维空间模型数据的比特流以便于生成显示图像的设备,包括接收所述比特流的装置;把接收的比特流多路分解成流ID、所述三维空间模型数据和图像/音频数据的装置;以及根据所述流ID找出所述图像/音频数据与各个节点之间的相应之处以产生所述显示图像的装置。
28.根据权利要求27的设备,其中所述三维空间模型数据采用虚拟现实模型化语言(Virtual Reality Modeling Language(VRML))描述,所述流ID用二进制格式表示。
29.根据权利要求27的设备,其中所述图像/音频数据与节点信息之间的相应之处是与由第一表达式表示的所述流ID或者与由第二表达式表示的所述流ID对应的字符串;而且其中所述节点包括标记位,该标记位表示根据所述图像/音频数据是由同一个服务器提供还是由不同的服务器提供而使用第一或第二表达式。
30.根据权利要求27的设备,其中所述比特流包括含有所述流ID和定义所述图像/音频数据的附加信息,所述附加信息已经与所述图像/音频数据和三维空间模所数据在所述比特流中多路复用;并使其中所述节点中包含的所述流ID与所述附加信息中包含的所述流ID核对。
31.一种处理包括图像/音频数据和由多个节点构成的三维空间模型数据的比特流以便产生显示图像的设备,它包括接收所述包括图像/音频数据和由节点构成的三维空间模型数据的比特流的装置;输出所述三维空间模型数据和图像/音频数据的装置;把字符串信息转换为流ID信息的装置,所述字符串信息是表示节点与所述图像/音频数据之间的关系的信息;以及根据转换的流ID信息连接所述图像/音频数据与所述节点的装置。
32.根据权利要求31的设备,其中表示所述关系的信息是与所述流ID信息对应的所述字符串信息和位置指定信息之一;其中,如果表示所述关系的信息是所述字符串信息,则所述图像/音频数据根据转换的流ID信息与所述节点连接;在表示所述关系的信息是所述位置指定信息的情况下,所述图像/音频数据从由所述位置指定信息指定的提供部分与所述节点连接。
33.根据权利要求31的设备,其中所述三维空间模型数据采用虚拟现实模型化语言(Virtual Reality Modeling Language(VRML))描述,所述字符串信息采用ASCII格式表示,所述流ID信息用二进制格式表示。
34.根据权利要求31的设备,其中所述比特流包括定义所述图像/音频数据和包含所述流ID的信息;而且其中转换的流ID信息与定义所述图像/音频数据的信息中所包含的流ID核对,所述图像/音频数据根据核对的结果与所述节点连接。
35.一种上面记录有数据生成程序的记录介质,该数据生成程序用于产生由多个节点构成的三维空间模型数据和由所述三维空间模型数据的节点中包含的位置指定信息指定的图像/音频数据,被执行的所述数据生成程序完成如下步骤取出所述三维空间模型数据的节点中包含的位置指定信息;把取出的位置指定信息转换为对应于由所取出的位置指定信息指定的所述图像/音频数据的流ID信息;用所述流ID信息替换所述节点中包含的位置指定信息;以及多路复用所述图像/音频数据和所述流ID信息中包含的三维空间模型数据,以便产生比特流。
36.一种根据权利要求35的记录介质,其中进一步执行的所述数据生成程序完成如下步骤把所述流ID信息转换为由第一表达式表示的字符串信息;以及确定是否用以第二表达式表示的所述流ID信息或以第一表达式表示的所述字符串信息替换所述节点中包含的所述位置指定信息,其中根据确定的结果替换所述节点中包含的所述位置指定信息。
37.一种上面记录有数据生成程序的记录介质,该数据生成程序用于产生由多个节点构成的三维空间模型数据和由所述三维空间模型数据的节点中包含的位置指定信息指定的图像/音频数据,被执行的所述数据生成程序完成如下步骤取出所述三维空间模型数据的节点中包含的位置指定信息;把取出的位置指定信息转换为对应于由所取出的位置指定信息指定的图像/音频数据的流ID信息;把所述流ID信息转换为字符串信息;用所述字符串信息替换所述节点中包含的所述位置指定信息;以及多路传输所述图像/音频数据和包含所述字符串信息的三维空间模型数据,以便产生比特流。
38.一种上面记录有数据处理程序的记录介质,该数据处理程序用于由包括图像/音频数据和由多个节点构成的三维空间模型数据的比特流产生显示图像,执行所述数据处理程序以完成如下步骤接收包括所述图像/音频数据和由多个节点构成的所述三维空间模型数据的所述比特流;输出所述三维空间模型数据和图像/音频数据;根据表示所述节点与所述图像/音频数据之间的关系的信息,连接所述图像/音频数据与节点,所述表示关系的信息是流ID信息。
39.一种根据权利要求38的记录介质,其中表示所述关系的信息是由第一表达式表示的所述流ID信息和与所述流ID信息对应的字符串信息之一;所述字符串信息由第二表达式表示;而且其中所述节点包括标记位信息,该标记位标致表示所述关系的之信息的第一或第二表达式,进一步执行所述数据处理程序以完成如下步骤根据所述标记位信息确定表示所述关系的信息之表达式;以及把由所述第二表达式表示的所述字符串信息转换为由第一表达式表示的所述流ID信息,其中如果表示所述关系的信息是所述流ID信息,则所述图像/音频数按照所述的流ID信息与所述节点连接;如果表示所述关系的信息是所述字符串信息,则所述图像/音频数据按照转换的流ID信息与所述节点连接。
40.一种上面记录有数据处理程序的记录介质,该数据处理程序用于从包括由多个节点构成的三维空间模型数据和图像/音频数据的比特流产生显示图像,执行所述数据处理程序以完成如下步骤接收包括由多个节点构成的所述三维空间模型数据和图像/音频数据的所述比特流,并输出所述三维空间模型数据和图像/音频数据;把字符串信息转换为流ID信息,所述字符串信息是表示节点与图像/音频数据之间的关系的信息;以及按照转换的流ID信息连接所述图像/音频数据与所述节点。
41.一种上面记录有包括由多个节点构成的三维空间模型数据和由所述三维空间模型数据的节点中包含的位置指定信息指定的图像/音频数据的比特流的记录介质,所述比特流按如下步骤形成取出所述三维空间模型数据的节点中包含的位置指定信息;把取出的位置指定信息转换为对应于由所取出的位置指定信息指定的图像/音频数据的流ID信息;用所述流ID信息替换所述节点中包含的位置指定信息;以及多路复用所述图像/音频数据和包含所述流ID数据的三维空间模型数据,以便产生所述比特流。
42.根据权利要求41的记录介质,其中所述比特流进一步通过如下步骤形成把所述流ID信息转换为由第一表达式表示的字符串信息;以及确定是否用以第二表达式表示的所述流ID信息或以第一表达式表示的所述字符串信息替换所述节点中包含的所述位置指定信息,其中根据确定的结果替换所述节点中包含的所述位置指定信息,并将所确定的表达式的代表信息引入所述节点中代替被替换的信息。
43.一种上面记录有包括由多个节点构成的三维空间模型数据和由在所述三维空间模型数据的节点中包含的位置指定信息指定的图像/音频数据的比特流的记录介质,所述比特流按如下步骤形成取出所述三维空间模型数据的节点中包含的位置指定信息;把取出的位置指定信息转换为对应于由所取出的位置指定信息指定的图像/音频数据的流ID信息;把所述流ID信息转换为字符串信息;用所述字符串信息替换所述节点中包含的所述位置指定信息;以及多路复用所述图像/音频数据和包括所述字符串信息的三维空间模型数据,以便产生所述比特流。
44.一种由制造装置生产的记录介质,所述记录介质上面记录具有数据流的信号,所述数据流包括由多个节点构成的三维空间模型数据和图像/音频数据,所述有记录信号的记录介质经过如下步骤处理接收包括由节点构成的所述三维空间模型数据和所述图像/音频数据的所述数据流;输出所述三维空间模型数据和图像/音频数据;以及根据表示所述节点与所述图像/音频数据之间关系的信息连接所述图像/音频数据与节点,表示所述关系的信息是流ID信息。
45.根据权利要求44的记录介质,其中表示所述关系的信息是由第一表达式表示的所述流ID信息和与所述流ID信息对应的字符串信息之一;所述字符串信息由第二表达式表示;而且其中所述节点包括标记位信息,该标记位信息标致表示所述关系之信息的表达式,所述有记录信号的记录介质进一步经如下步骤处理按照所述标记位信息确定表示所述关系的信息之表达式;以及把由第二表达式表示的所述字符串信息转换为由第一表达式表示的所述流ID信息,其中如果表示所述关系的信息是所述流ID信息,则所述图像/音频数按照所述的流ID信息与所述节点连接;如果表示所述关系的信息是所述字符串信息,则所述图像/音频数据按照所转换的流ID信息与所述节点连接。
46.一种由制造装置生产的记录介质,所述记录介质上面记录具有流的信号,所述流包括由多个节点构成的三维空间模型数据和图像/音频数据,所述有记录信号的记录介质经过如下步骤处理接收包括由节点构成的所述三维空间模型数据和所述图像/音频数据的所述流;输出所述三维空间模型数据和图像/音频数据;把字符串信息转换为流ID信息,所述字符串信息是表示节点与图像/音频数据之间的关系的信息;以及根据被转换的流ID信息连接所述图像/音频数据与所述节点。
47.一种用于提供由多个节点定义的三维空间模型数据和由各节点中包含的位置确定的图像/音频数据的设备,它包括用于从所述三维空间模型数据的节点中取出相应位置的分析电路;把取出的位置转换为对应于与所述位置相连系之图像/音频数据的流ID的转换器;用所述流ID替换所述位置的编码器;以及用于多路复用所述图像/音频数据和包含所述流ID的所述三维空间模型数据的复用器,以便产生比特流。
48.一种用于提供由多个节点定义的三维空间模型数据和由各节点中包含的位置确定的图像/音频数据的设备,它包括用于从所述三维空间模型数据的节点中取出相应位置的分析电路;把取出的位置转换为对应于与所述位置相连系之图像/音频数据的流ID的转换器;用于把所述流ID转换为字符串信息的变化电路;用所述字符串替换所述位置的编码器;以及多路复用所述图像/音频数据和包含所述字符串的所述三维空间模型数据的多路复用器,以便产生比特流。
49.一种用于处理包括图像/音频数据和包含多个节点之三维空间模型数据的比特流,以便产生显示图像的设备,它包括用于接收所述比特流和把所接收的比特流多路分解为流ID、所述三维空间模型数据和图像/音频数据的多路分解器;以及用于根据所述流ID提供所述图像/音频数据与各个节点之间的关系以便产生显示图像的重组电路。
50.一种用于处理包括图像/音频数据和包含多个节点之三维空间模型数据的比特流,以便产生显示图像的设备,它包括用于接收包括图像/音频数据和由多个节点组成的所述三维空间模型数据的所述比特流并输出所述三维空间模型数据和图像/音频数据的多路分解器;用于把字符串信息转换为流ID信息的转换器,所述字符串信息是表示节点与所述图像/音频数据之间关系的信息;以及用于根据所述转换的流ID信息连接所述图像/音频数据与所述节点的重组电路。
全文摘要
一种系统控制器控制一存储装置,输出与用户请求信号相应的场景描述。分析电路取出场景描述数据包含的URL(统一资源定位符),并使存储装置输出基元流和对应URL的目标流。从目标流中取出目标描述符后,生成器生成该目标描述符的ID并将其提供给编码器。生成器把ID加给目标描述符并向复用器输出加入ID目标的描述符。复用器把已转换为二进制格式的包括ID的场景描述数据、目标描述符和基元流多路传输到多路传输流中以便输出。
文档编号H04N13/00GK1224982SQ98124528
公开日1999年8月4日 申请日期1998年9月22日 优先权日1997年9月22日
发明者铃木辉彦 申请人:索尼公司