用于媒体内容的按区包装,内容覆盖度,以及发信帧包装的制作方法

文档序号:20067033发布日期:2020-03-06 08:36阅读:623来源:国知局
用于媒体内容的按区包装,内容覆盖度,以及发信帧包装的制作方法

本申请案要求2017年7月14日申请的美国临时申请案第62/532,862号及2018年7月5日申请的美国申请案第16/028,255号的权益,所述申请案的全部内容特此以引用的方式并入。

本公开涉及经编码视频数据的存储及传送。



背景技术:

数字视频能力可并入到广泛范围的装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(pda)、膝上型或台式计算机、数字摄影机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、视频电话会议装置等等。数字视频装置实施视频压缩技术,例如描述于由mpeg-2、mpeg-4、itu-th.263或itu-th.264/mpeg-4、第10部分、高级视频译码(avc)、itu-th.265(还参考高效率视频译码(hevc))及此类标准的扩展所定义的标准中的那些技术,从而更为有效地发射且接收数字视频信息。

在视频数据已编码之后,可将视频数据包化以用于发射或存储。可以将视频数据组译成符合多种标准中的任一个的视频文件,所述标准例如国际标准化组织(iso)基本媒体文件格式及其扩展,例如avc。



技术实现要素:

一般来说,本公开描述与处理媒体数据相关的技术。具体来说,所述技术包含使得能够防止发送与另一区域相同的图片区域以节省位的按区包装。位节省可在单像虚拟实境(vr)视频内容的图片内或在立体vr视频内容的图景内达成。此些技术适用于在容器文件中及在视频位流中发信按区包装。所述技术还包含内容覆盖度发信,其使得能够在多个调适集合中携带视频内容的媒体呈现的经由http的动态自适应流式传输(dash)媒体呈现描述(mpd)中发信全部内容覆盖度。所述技术还包含在dashmpd中发信帧包装信息,从而使得能够发信每一组成性帧的每一颜色分量平面是否针对帧经包装视频内容而经梅花(棋盘格)采样。除帧包装类型之外,此信息还可用于确定接收器是否具有适当地解帧包装及再现视频内容的能力。

在一个实例中,一种处理媒体内容的方法包含:处理媒体内容的第一经包装区,其中处理所述第一经包装区包括:对所述第一经包装区解包装以产生第一经解包装区及从所述第一经解包装区形成第一经投影区;及处理所述媒体内容的第二经包装区,所述第二经包装区与所述第一经包装区至少部分地重叠,其中处理所述第二经包装区包括:对所述第二经包装区解包装以产生第二经解包装区及从所述第二经解包装区形成第二经投影区,所述第二经投影区不同于所述第一经投影区。

在另一实例中,一种用于处理媒体内容的装置包含:存储器,其经配置以存储媒体内容;及一或多个处理器,其实施于电路中且经配置以:处理所述媒体内容的第一经包装区,其中为处理所述第一经包装区,所述一或多个处理器经配置以对所述第一经包装区解包装以产生第一经解包装区及从所述第一经解包装区形成第一经投影区;及处理所述媒体内容的第二经包装区,所述第二经包装区与所述第一经包装区至少部分地重叠,其中为处理所述第二经包装区,所述一或多个处理器经配置以对所述第二经包装区解包装以产生第二经解包装区及从所述第二经解包装区形成第二经投影区。

在另一实例中,一种用于处理媒体内容的装置包含:用于处理媒体内容的第一经包装区的装置,其中所述用于处理所述第一经包装区的装置包括:用于对所述第一经包装区解包装以产生第一经解包装区的装置及用于从所述第一经解包装区形成第一经投影区的装置;及用于处理所述媒体内容的第二经包装区的装置,所述第二经包装区与所述第一经包装区至少部分地重叠,其中所述用于处理所述第二经包装区的装置包括:用于对所述第二经包装区解包装以产生第二经解包装区的装置及用于从所述第二经解包装区形成第二经投影区的装置,所述第二经投影区不同于所述第一经投影区。

在另一实例中,一种计算机可读存储媒体上存储有使得处理器进行以下操作的指令:处理媒体内容的第一经包装区,其中使得所述处理器处理所述第一经包装区的所述指令包括使得所述处理器对所述第一经包装区解包装以产生第一经解包装区及从所述第一经解包装区形成第一经投影区的指令;及处理所述媒体内容的第二经包装区,所述第二经包装区与所述第一经包装区至少部分地重叠,其中使得所述处理器处理所述第二经包装区的所述指令包括使得所述处理器对所述第二经包装区解包装以产生第二经解包装区及从所述第二经解包装区形成第二经投影区的指令,所述第二经投影区不同于所述第一经投影区。

在以下随附图式及描述中阐述一或多个实例的细节。其它特征、目标及优点将从所述描述及图式以及权利要求书而显而易见。

附图说明

图1为说明实施用于经由网络来流式传输媒体数据的技术的实例系统的框图。

图2为说明检索单元的一组实例组件的框图。

图3为说明全向媒体格式(omaf)的按区包装(rwp)的两个实例的概念图。

图4为说明具有防护频带的实例经投影区及对应的经包装区的概念图。

图5为说明实例多媒体内容的元素的概念图。

图6为说明实例视频文件的元素的框图。

图7为说明根据本公开的技术的产生视频数据的实例方法的流程图。

图8为说明根据本公开的技术的接收及处理视频数据的实例方法的流程图。

具体实施方式

本公开的技术可应用于符合根据iso基本媒体文件格式(isobmff)、对isobmff的扩展、可调式视频译码(svc)文件格式、高级视频译码(avc)文件格式、高效视频译码(hevc)文件格式、第三代合作伙伴计划(3gpp)文件格式,及/或多图景视频译码(mvc)文件格式或其它视频文件格式中的任一个囊封的视频数据的视频文件。isobmff的草案指定于iso/iec14496-12中,可从phenix.int-evry.fr/mpeg/doc_end_user/documents/111_geneva/wg11/w15177-v6-w15177.zip获得。另一实例文件格式mpeg-4文件格式的草案指定于iso/iec14496-15中,可从wg11.sc29.org/doc_end_user/documents/115_geneva/wg11/w16169-v2-w16169.zip获得。

isobmff用作许多编码解码器囊封格式(例如avc文件格式)以及用于许多多媒体容器格式(例如mpeg-4文件格式、3gpp文件格式(3gp)及数字视频广播(dvb)文件格式)的基础。

除例如音频及视频的连续媒体之外,例如图像的静态媒体以及元数据可存储于符合isobmff的文件中。根据isobmff结构化的文件可用于许多用途,包含本地媒体文件播放、远程文件的逐渐下载、用于经由http的动态自适应流式传输(dash)的区段、用于待流式传输的内容及其包化指令的容器及接收的实时媒体串流的记录。

逻辑框为isobmff中的基本语法结构,包含四字符译码逻辑框类型、逻辑框的位组计数及有效负载。isobmff文件包含一序列的逻辑框,且逻辑框可含有其它逻辑框。根据isobmff,电影逻辑框(“moov”)含有存在于文件中的连续媒体串流的元数据,每一连续媒体串流在文件中表示为轨(track)。根据isobmff,将用于轨的元数据围封于轨逻辑框(“trak”)中,而将轨的媒体内容围封于媒体数据逻辑框(“mdat”)中或直接提供于单独文件中。用于轨的媒体内容包含一序列样本,例如音频或视频存取单元。

isobmff指定以下类型的轨:媒体轨,其含有基本媒体串流;提示轨,其包含媒体发射指令或表示接收的包串流;及计时元数据轨,其包括时间同步的元数据。

尽管原先针对存储而设计,但isobmff已证明对于流式传输(例如,用于渐进下载或dash)极有价值。为了流式传输目的,可使用在isobmff中定义的电影片段。

每一轨的元数据包含样本描述项的列表,每一项提供在轨中使用的译码或囊封格式及对于处理所述格式需要的初始化数据。每一样本与轨的样本描述项中的一个相关联。

isobmff实现通过各种机制指定样本特定元数据。样本表逻辑框(“stbl”)内的特定逻辑框已经标准化以响应普通需求。举例来说,同步样本逻辑框(“stss”)用以列举轨的随机存取样本。样本分群机制实现根据四字符分群类型将样本映射成共享指定为文件中的样本群组描述项的同一性质的样本的群组。已在isobmff中指定若干分群类型。

虚拟实境(vr)为虚拟地存在于通过再现自然及/或合成图像及与沉浸用户的移动相关的声音而建立的非物理世界中的能力,从而允许与所述虚拟世界交互。在再现装置中的最新进展(例如头戴式显示器(hmd))及vr视频(常常还称作360度视频)创建情况下,可提供显著体验质量。vr应用包含游戏、训练、教育、运动视频、线上购物、夹带等。

典型vr系统包含如下组件及步骤:

1)摄影机套件,其通常包含在不同方向上指向的多个个别摄影机,理想地共同地涵盖围绕所述摄影机套件的所有视点。

2)图像拼接,其中通过多个个别摄影机拍摄的视频图片在时域中经同步并在空间域中拼接,以形成球体视频,但映射到矩形格式,例如等矩形(如世界地图)或立方体图。

3)映射矩形格式中的视频使用视频编码解码器,例如,h.265/hevc或h.264/avc,来编码/压缩。

4)经压缩视频位流可以媒体格式存储及/或囊封,且通过网络发射(有可能仅为覆盖由用户看到的区域(有时被称作检视区)的子集)到接收装置(例如客户端装置)。

5)接收装置接收有可能以文件格式囊封的视频位流或其部分,且将经解码视频信号或其部分发送到再现装置(其可包含在与接收装置相同的客户端装置中)。

6)再现装置可为例如头戴式显示器(hmd),其可跟踪头部移动,且可甚至跟踪眼部移动,且可再现视频的对应部分,以使得浸入式体验经递送到用户。

全向媒体应用程序格式(omaf)通过移动动画专家组(mpeg)开发以定义实现全向媒体应用的媒体格式,其集中于具有360度视频及相关联音频的vr应用上。omaf指定可用于将球体或360度视频转换成二维矩形视频的投影方法,继而如何使用iso基本媒体文件格式(isobmff)存储全向媒体及相关联元数据,及如何使用经由http的动态自适应流式传输(dash)囊封、发信及流式传输全向媒体,及最终哪些视频及音频编码解码器以及媒体译码配置可用于压缩及播放全向媒体信号的列表。omaf将成为iso/iec23090-2,且草案规范可从wg11.sc29.org/doc_end_user/documents/119_torino/wg11/m40849-v1-m40849_omaf_text_berlin_output.zip获得。

在例如dash的http流式传输协议中,频繁使用的操作包含head、get及部分get。head操作检索与给定的统一资源定位符(url)或统一资源名称(urn)相关联的文件的标头,但不检索与url或urn相关联的有效负载。get操作检索与给定url或urn相关的整个文件。部分get操作接收位组范围作为输入参数且检索文件的连续数目个位组,其中位组的数目对应于所接收位组范围。因此,可提供电影片段以用于http流式传输,这是因为部分get操作可得到一或多个个别电影片段。在电影片段中,可存在不同轨的若干轨片段。在http传输传输中,媒体呈现可为客户端可存取的数据的结构化集合。客户端可请求且下载媒体数据信息以向用户呈现流式传输服务。

dash指定于iso/iec23009-1中,且为用于http(自适应性)流式传输应用的标准。iso/iec23009-1主要指定媒体呈现描述(mpd)的格式(还称为信息列表或信息列表文件)及媒体区段格式。mpd描述可在服务器装置上得到的媒体且在适当媒体时间处使dash客户端从主地下载适当媒体版本。

在使用http流式传输来流式传输3gpp数据的实例中,可能存在针对多媒体内容的视频及/或音频数据的多个表示。如下文所解释,不同表示可对应于不同译码特性(例如,视频译码标准的不同配置文件或层级)、不同译码标准或译码标准的扩展(例如多图景及/或可缩放扩展)或不同位速率。此些表示的信息列表可在媒体呈现描述(mpd)数据结构中定义。媒体呈现可对应于http流式传输客户端装置可存取的数据的结构化集合。http流式传输客户端装置可请求且下载媒体数据信息以向客户端装置的用户呈现流式传输服务。媒体呈现可在mpd数据结构中描述,mpd数据结构可包含mpd的更新。

媒体呈现可含有一或多个周期的序列。每一周期可延伸直到下一周期开始为止,或在最末周期的情况下,直到媒体呈现结束为止。每一周期可含有针对同一媒体内容的一或多个表示。表示可为音频、视频、计时文本或其它此类数据的数个替代性经编码版本中的一个。表示可因编码类型而异(例如,对于视频数据,因位速率、分辨率及/或编码解码器而异,及对于音频数据,因位速率、语言及/或编码解码器而异)。术语表示可用以指代经编码音频或视频数据的对应于多媒体内容的特定周期且以特定方式编码的部分。

特定周期的表示可指派给由mpd中的属性指示的群组,其指示表示所属的调适集合。同一调适集合中的表示通常被视为彼此的替代,这是因为客户端装置可在此些表示之间动态地且顺畅地切换,例如执行带宽适应。举例来说,特定周期的视频数据的每一表示可指派到同一调适集合,以使得可选择所述表示中的任一个进行解码以呈现对应周期的多媒体内容的媒体数据(例如视频数据或音频数据)。在一些实例中,一个周期内的媒体内容可由来自群组0(如果存在)的一个表示来表示,或由来自每一非零群组的至多一个表示的组合来表示。周期的每一表示的计时数据可相对于所述周期的开始时间来表达。

表示可包含一或多个区段。每一表示可包含初始化区段,或表示的每一区段可自初始化。当存在时,初始化区段可含有用于存取表示的初始化信息。一般来说,初始化区段不含有媒体数据。区段可由识别符唯一地参考,例如统一资源定位符(url)、统一资源名称(urn)或统一资源识别符(uri)。mpd可为每一区段提供识别符。在一些实例中,mpd还可提供呈范围属性的形式的位组范围,所述位组范围可对应于可由url、urn或uri存取的文件内的区段的数据。

可选择不同表示以用于大体上同时检索不同类型的媒体数据。举例来说,客户端装置可选择音频表示、视频表示及计时文本表示,从所述表示检索区段。在一些实例中,客户端装置可选择特定调适集合以用于执行带宽调适。即,客户端装置可选择包含视频表示的调适集合、包含音频表示的调适集合及/或包含计时文本的调适集合。替代地,客户端装置可选择用于某些类型的媒体(例如视频)的调适集合,且直接选择用于其它类型的媒体(例如音频及/或计时文本)的表示。

用于基于dash的http流式传输的典型程序包含以下步骤:

1)dash客户端获得流式传输内容的mpd,例如,电影。mpd包含关于流式传输内容的不同替代表示的信息(例如,位速率、视频分辨率、帧速率、音频语言),以及http资源的url(初始化区段及媒体区段)。

2)基于mpd中的信息及可供dash客户端使用的本地信息,例如网络带宽、解码/显示能力及用户偏好,dash客户端请求期望的表示,每次一个区段(或其一部分)。

3)当所述dash客户端检测到网络带宽变化时,其请求具有较好匹配位速率的不同表示的区段,理想地从以随机存取点开始的区段开始。

http流式传输“会话”期间,为对用户请求作出响应以反向搜索过去定位或正向搜索未来定位,所述dash客户端请求始于接近所要位置且理想地开始于随机存取点的区段的过去或未来区段。用户还可请求快速转递内容,其可通过请求仅足够用于解码经帧内译码视频图片或仅足够用于解码视频流的暂态子集的数据实现。

dash规范的章节5.3.3.1如下描述预选:

预选的概念主要地出于下一代音频(nga)编码解码器的目的加以推动,以便发信在不同调适集合中提供的音频元素的合适组合。然而,预选概念以一般方式引入,使得其可扩展且还用于其它媒体类型及编码解码器。

每一预选与集束相关联。集束为可由单个解码器例项联合地消耗的元素的集合。元素为集束的可定址且可分开分量,且可直接地或间接地通过使用预选而由应用动态地选定或取消选择。元素通过一对一映射或通过在单个调适集合中包含多个元素而经映射到调适集合。此外,一个调适集合中的表示可含有在基本串流层级或文件容器层级上经多路复用的多个元素。在多路复用状况下,每一元素经映射到如在dash章节5.3.4中所定义的媒体内容分量。集束中的每一元素因此由媒体内容分量的@id识别及引用,或如果调适集合中仅含有单个元素,那么由调适集合的@id识别及引用。

每一集束包含主要元素,所述主要元素含有解码器特定信息且引导解码器。含有主要元素的调适集合被称作主要调适集合。主要元素应一直包含于与集束相关联的任何预选中。另外,每一集束可包含一个或多个部分调适集合。部分调适集合可仅结合主要调适集合加以处理

预选定义集束中的预期经联合地消耗的元素的子集。预先由朝向解码器的唯一标签来识别。多个预选例项可指集束中的串流的相同集合。仅相同集束的元素可有助于预选的解码及再现。

在下一代音频的状况下,预选为个人化选项,其与来自多于一个的额外参数(如增益、空间位置)相关联以产生完整的音频体验。预选可被视为使用传统音频编码解码器的含有完整混音的替代音频轨的nga等效物。

集束、预选、主要元素、主要调适集合及部分调适集合可由两个方式中的一个定义:

·预选描述符经定义于dash章节5.3.11.2中。此描述符实现简单设定及回溯相容性,但可能不适于高级使用状况。

·预选元素经定义在dash章节5.3.11.3及5.3.11.4中。预选元素的语义将提供于dash章节5.3.11.3中的表17c中,xml语法将提供于dash章节5.3.11.4中。

以下将提供使用两种方法的经引入概念的实例化。

在两种状况下,如果调适集合不包含主要调适集合,那么基本描述符应连同在dash章节5.3.11.2中定义的@schemeiduri一同使用。

dash规范还如下描述预选描述符:

方案经定义为与基本描述符一起用作“urn:mpeg:dash:preselection:2016”。描述符的值提供由逗点分隔开的两个字段:

·预选的标签

·作为呈处理次序的白色空间分隔开列表的此预选列表的所含有元素/内容分量的id。第一id定义主要元素。

如果调适集合包含主要元素,那么经补充描述符可用于描述调适集合中的所含有预选。

如果调适集合不含有主要元素,那么应使用基本描述符。

所述集束本质上由包含于所有预选中的所有元素定义,所述预选包含相同主要元素。预选由经指派到包含于预选中的预选中的每一个的元数据定义。应注意,此发信对于基本使用状况可能为简单的,但预期不为所有使用状况提供充分的覆盖度。因此,预选元素在dash章节5.3.11.3中引入以覆盖较多高级使用状况。

dash规范还如下描述预选元素的语义:

作为预选描述符的扩展,预选还可通过在表17d中提供的预选元素来定义。预选的选择是基于预选元素中的所含有属性及元素。

dash的表17d-预选元素的语义

关于帧包装,dash的章节5.8.4.6如下指定预选:

对于元素framepacking,@schemeiduri属性用于识别所使用的帧包装配置方案。

可存在多个framepacking元素。如果如此,每一元素应含有足够信息以选择或拒绝经描述表示。

应注意,如果未辨识用于所有framepacking元素的方案或值,那么预期dash客户端忽略经描述表示。客户端可基于观测到framepacking元素拒绝调适集合。

描述符可使用urn标签及针对iso/iec23001-8中的videoframepackingtype定义的值携带帧包装方案。

应注意:iso/iec23009的此部分还定义dash章节5.8.5.6中的帧包装方案。维持此些方案用于向后相容性,但其建议使用在iso/iec23001-8中定义的发信。

视频数据可根据各种视频译码标准编码。此类视频译码标准包含itu-th.261、iso/iecmpeg-1visual、itu-th.262或iso/iecmpeg-2visual、itu-th.263、iso/iecmpeg-4visual、itu-th.264或iso/iecmpeg-4avc,包含其可调式视频译码(svc)及多图景视频译码(mvc)扩展,及高效视频译码(hevc),还被称作itu-th.265及iso/iec23008-2,包含其可调式译码扩展(即,可调式高效视频译码,shvc)及多图景扩展(即,多图景高效视频译码,mv-hevc)。

图1为说明实施用于经由网络来流式传输媒体数据的技术的实例系统10的框图。在此实例中,系统10包含内容准备装置20、服务器装置60及客户端装置40。客户端装置40与服务器装置60通过网络74以通信方式耦合,所述网络74可包含因特网。在一些实例中,内容准备装置20与服务器装置60还可通过网络74或另一网络耦合,或可直接以通信方式耦合。在一些实例中,内容准备装置20及服务器装置60可包含相同装置。

在图1的实例中,内容准备装置20包括音频源22及视频源24。音频源22可包括例如麦克风,其产生表示待通过音频编码器26编码的所检索音频数据的电信号。替代地,音频源22可包括存储先前记录的音频数据的存储媒体、例如计算机化的合成器的音频数据产生器或任何其它音频数据源。视频源24可包括:摄像机,其产生待通过视频编码器28编码的视频数据;存储媒体,其编码有先前记录的视频数据;视频数据产生单元,例如计算机图形源;或任何其它视频数据源。内容准备装置20未必在所有实例中均以通信方式耦合到服务器装置60,但可将多媒体内容存储到由服务器装置60读取的单独媒体。

原始音频及视频数据可包括模拟或数字数据。模拟数据在通过音频编码器26及/或视频编码器28编码之前可被数字化。音频源22可在说话参与者正在说话时从说话参与者获得音频数据,且视频源24可同时获得说话参与者的视频数据。在其它实例中,音频源22可包括含有所存储的音频数据的计算机可读存储媒体,且视频源24可包括含有所存储的视频数据的计算机可读存储媒体。以此方式,本公开中所描述的技术可应用于实况、流式传输、实时音频及视频数据或所存档的、预先记录的音频及视频数据。

对应于视频帧的音频帧通常为含有通过音频源22检索(或产生)的音频数据的音频帧,音频数据同时伴随含于视频帧内的通过视频源24检索(或产生)的视频数据。举例来说,当说话参与者通常通过说话而产生音频数据时,音频源22检索音频数据,且视频源24同时(即,在音频源22正检索音频数据的同时)检索说话参与者的视频数据。因此,音频帧在时间上可对应于一或多个特定视频帧。因此,对应于视频帧的音频帧大体上对应于同时检索到音频数据及视频数据且音频帧及视频帧分别包括同时检索到的音频数据及视频数据的情形。

在一些实例中,音频编码器26可对每一经编码音频帧中表示记录经编码音频帧的音频数据的时间的时戳进行编码,且类似地,视频编码器28可对每一经编码视频帧中表示记录经编码视频帧的视频数据的时间的时戳进行编码。在此些实例中,对应于视频帧的音频帧可包括:包括时戳的音频帧及包括相同时戳的视频帧。内容准备装置20可包含内部时脉,音频编码器26及/或视频编码器28可根据所述内部时脉产生时戳,或音频源22及视频源24可使用所述内部时脉以分别使音频数据及视频数据与时戳相关联。

在一些实例中,音频源22可向音频编码器26发送对应于记录音频数据的时间的数据,且视频源24可向视频编码器28发送对应于记录视频数据的时间的数据。在一些实例中,音频编码器26可对经编码音频数据中的序列识别符进行编码以指示经编码音频数据的相对时间排序,但未必指示记录音频数据的绝对时间,且类似地,视频编码器28还可使用序列识别符来指示经编码视频数据的相对时间排序。类似地,在一些实例中,序列识别符可映射或以其它方式与时戳相关。

音频编码器26通常产生经编码音频数据的串流,而视频编码器28产生经编码视频数据的串流。每一个别数据串流(不论音频或视频)可被称作基本串流。基本串流为表示的单个的经数字译码(可能经压缩)的分量。举例来说,表示的经译码视频或音频部分可为基本串流。基本串流可在被囊封于视频文件内之前被转换成包化基本串流(pes)。在相同表示内,可使用串流id来区分属于一个基本串流的pes包与其它pes包。基本串流的数据的基本单元为包化基本串流(pes)包。因此,经译码视频数据大体对应于基本视频串流。类似地,音频数据对应于一或多个相应基本串流。

内容准备装置20可使用视频源24例如通过检索及/或产生(例如再现)球体视频数据而获得球体视频数据。球体视频数据还可被称作经投影视频数据。为易于编码、处理及传送,内容准备装置20可从经投影视频数据(或球体视频数据)形成经包装视频数据。以下在图3中展示实例。根据本公开的技术,视频数据的两个或多于两个经包装区可重叠,如由按区包装信息所指示。内容准备装置20可产生按区包装框(rwpb),其界定各个经包装区的位置及大小,所述位置及大小因此可指示两个或多于两个经包装区之间的重叠。当一个经包装区与另一经包装区重叠时,内容准备装置20可避免多于一次编码及存储/传送用于经重叠区的数据,以缩减带宽消耗、处理循环、存储器消耗等等。客户端装置40可从提供且译码重叠部分所针对的一个经包装区检索用于另一经包装区的重叠部分的数据。

许多视频译码标准(例如,itu-th.264/avc及即将来临的高效视频译码(hevc)标准)定义无误差位串流的语法、语义及解码程序,所述无误差位串流中的任一个符合特定配置文件或层级。视频译码标准通常并不指定编码器,但编码器具有保证所产生的位串流对于解码器而言是标准相容的任务。在视频译码标准的内容背景中,“配置文件”对应于算法、特征或工具及施加到算法、特征或工具的限制的子集。如(例如)h.264标准所定义,“配置文件”为由h.264标准指定的完整位串流语法的子集。“层级”对应于解码器资源消耗(例如,解码器存储器及计算)的限制,所述限制涉及图片分辨率、位速率及块处理速率。配置文件可用profile_idc(配置文件指示符)值发信,而层级可用level_idc(层级指示符)值发信。

举例来说,h.264标准认为,在由给定配置文件的语法所强加的界限内,仍然可能要求编码器及解码器的性能有较大变化,此取决于位串流中的语法元素(例如,经解码图片的指定大小)所取的值。h.264标准进一步认为,在许多应用中,实施能够处理特定配置文件内的语法的所有假设使用的解码器既不实际又不经济。因此,h.264标准将“层级”定义为强加于位串流中的语法元素的值的约束的指定集合。此些约束可为对值的简单限制。替代地,此些约束可呈对值的算术组合(例如,图片宽度乘以图片高度乘以每秒解码的图片数目)的约束的形式。h.264标准进一步规定,个别实施方案对于每一所支持配置文件可支持不同层级。

符合配置文件的解码器一般支持配置文件中所定义的所有特征。举例来说,作为译码特征,b图片译码在h.264/avc的基线配置文件中不被支持,但在h.264/avc的其它配置文件中被支持。符合层级的解码器应能够对不需要超出所述层级中所定义的限制的资源的任何位串流进行解码。配置文件及层级的定义可对可解释性有帮助。举例来说,在视频发射期间,可针对整个发射工作阶段协商及同意一对配置文件定义及层级定义。更具体地说,在h.264/avc中,层级可定义对于需要处理的宏块的数目、经解码图片缓冲器(dpb)大小、经译码图片缓冲器(cpb)大小、竖直运动向量范围、每两个连续mb的运动向量的最大数目及b块是否可具有小于8×8像素的子宏块分区的限制。以此方式,解码器可确定解码器是否能够适当地对位串流进行解码。

在图1的实例中,内容准备装置20的囊封单元30从视频编码器28接收包含经译码视频数据的基本串流且从音频编码器26接收包含经译码音频数据的基本串流。在一些实例中,视频编码器28及音频编码器26可各自包含用于从经编码数据形成pes包的包化器。在其它实例中,视频编码器28及音频编码器26可各自与用于从经编码数据形成pes包的相应包化器介接。在另外其它实例中,囊封单元30可包含用于从经编码音频及视频数据形成pes包的包化器。

视频编码器28可以多种方式对多媒体内容的视频数据进行编码,从而以各种位速率且以各种特性产生多媒体内容的不同表示,所述特性例如像素分辨率、帧速率、对各种译码标准的符合性、对各种译码标准的各种配置文件及/或配置文件层级的符合性、具有一或多个图景的表示(例如,对于二维或三维播放)或其它此类特性。如本公开中所使用,表示可包括音频数据、视频数据、文本数据(例如,用于封闭字幕)或其它此数据中的一个。表示可包含例如音频基本串流或视频基本串流的基本串流。每一pes包可包含stream_id,其识别pes包所属的基本串流。囊封单元30负责将基本串流组译成各种表示的视频文件(例如,区段)。

囊封单元30从音频编码器26及视频编码器28接收表示的基本串流的pes包且从所述pes包形成对应的网络抽象层(nal)单元。经译码视频区段可经组织成nal单元,其提供“网络友好”视频表示定址应用程序,例如视频电话、存储器、广播或流式传输。nal单元可分类为视频译码层(vcl)nal单元及非vclnal单元。vcl单元可含有核心压缩引擎,且可包含块、宏块及/或图块层级数据。其它nal单元可为非vclnal单元。在一些实例中,一个时间执行个体中的经译码图片(通常呈现为初级经译码图片)可含于存取单元中,所述存取单元可包含一或多个nal单元。

非vclnal单元可尤其包含参数集nal单元及seinal单元。参数集可含有序列层级标头信息(在序列参数集(sps)中)及不频繁改变的图片层级标头信息(在图片参数集(pps)中)。在参数集(例如,pps及sps)的情况下,不频繁改变的信息不需要针对每一序列或图片重复,因此可改进译码效率。此外,使用参数集可实现重要标头信息的带外发射,从而避免对于用于抗误码的冗余发射的需要。在带外发射实例中,参数集nal单元可在与其它nal单元(例如,seinal单元)不同的信道上发射。

补充增强信息(sei)可含有对于对来自vclnal单元的经译码图片样本进行解码并非必需的信息,但可辅助与解码、显示、抗误码及其它目的相关的程序。sei消息可含于非vclnal单元中。sei消息为一些标准规范的标准化部分,且因此对于标准相容的解码器实施方案并非始终是必选的。sei消息可为序列层级sei消息或图片层级sei消息。某一序列层级信息可含于sei消息中,例如svc的实例中的可缩放性信息sei消息,及mvc中的图景可缩放性信息sei消息。此些实例sei消息可传达关于例如操作点的提取及操作点的特性的信息。另外,囊封单元30可形成信息列表文件,例如描述表示的特征的媒体呈现描述符(mpd)。囊封单元30可根据可延伸性标示语言(xml)来格式化mpd。

囊封单元30可向输出接口32提供多媒体内容的一或多个表示的数据以及信息列表文件(例如,mpd)。输出接口32可包括网络接口或用于对存储媒体进行写入的接口,例如通用串行总线(usb)接口、cd或dvd写入器或烧录器、到磁性或快闪存储媒体的接口,或用于存储或发射媒体数据的其它接口。囊封单元30可向输出接口32提供多媒体内容的表示中的每一个的数据,所述输出接口可经由网络发射或存储媒体向服务器装置60发送所述数据。在图1的实例中,服务器装置60包含存储各种多媒体内容64的存储媒体62,每一多媒体内容64包含各别信息列表文件66及一或多个表示68a到68n(表示68)。在一些实例中,输出接口32还可将数据直接发送到网络74。

在一些实例中,表示68可分成若干调适集合。即,表示68的各种子集可包含各别共同特性集合,例如编码解码器、配置文件及层级、分辨率、图景数目、区段的文件格式、可识别待与待解码及呈现的表示及/或音频数据(例如,由扬声器发出)一起显示的文本的语言或其它特性的文本类型信息、可描述调适集合中的表示的场景的摄影机角度或真实世界摄影机视角的摄影机角度信息、描述对于特定观众的内容适合性的分级信息等等。

信息列表文件66可包含指示对应于特定调适集合的表示68的子集以及所述调适集合的共同特性的数据。信息列表文件66还可包含表示调适集合的个别表示的个别特性(例如位速率)的数据。以此方式,调适集合可提供简化的网络带宽调适。调适集合中的表示可使用信息列表文件66的调适集合元素的子代元素来指示。

服务器装置60包含请求处理单元70及网络接口72。在一些实例中,服务器装置60可包含多个网络接口。此外,服务器装置60的特征中的任一个或全部可在内容递送网络的其它装置,例如,路由器、桥接器、代理装置、交换器或其它装置上实施。在一些实例中,内容递送网络的中间装置可缓存多媒体内容64的数据,且包含大体上符合服务器装置60的那些组件的组件。一般来说,网络接口72经配置以经由网络74来发送及接收数据。

请求处理单元70经配置以从客户端装置,例如,客户端装置40,接收对存储媒体62的数据的网络请求。举例来说,请求处理单元70可实施超文本传送协议(http)版本1.1,如rfc2616中r.菲尔丁(r.fielding)等人于1999年6月在网络工作群组(networkworkinggroup),ietf的“超文本传送协议(hypertexttransferprotocol)-http/1.1,”中所描述。即,请求处理单元70可经配置以接收httpget或部分get请求,且响应于所述请求而提供多媒体内容64的数据。请求可指定表示68中的一个的区段,例如使用区段的url。在一些实例中,所述请求还可指定区段的一或多个位组范围,因此包括部分get请求。请求处理单元70可经进一步配置以服务于httphead请求以提供表示68中的一个的区段的标头数据。在任何状况下,请求处理单元70可经配置以处理所述请求以向请求装置(例如客户端装置40)提供所请求的数据。

另外或替代地,请求处理单元70可经配置以经由例如embms的广播或多播协议而递送媒体数据。内容准备装置20可用与所描述大体上相同的方式产生dash区段及/或子区段,但服务器装置60可使用embms或另一广播或多播网络传送协议来递送此些区段或子区段。举例来说,请求处理单元70可经配置以从客户端装置40接收多播群组加入请求。即,服务器装置60可向与特定媒体内容(例如,实况事件的广播)相关联的客户端装置(包含客户端装置40)通告与多播群组相关联的因特网协议(ip)地址。客户端装置40又可提交加入多播群组的请求。此请求可遍及网络74,例如,构成网络74的路由器传播,以使得致使所述路由器将去往与多播群组相关联的ip地址的业务导向到订用的客户端装置,例如客户端装置40。

如图1的实例中所说明,多媒体内容64包含信息列表文件66,所述信息列表文件66可对应于媒体呈现描述(mpd)。信息列表文件66可含有不同替代表示68(例如,具有不同质量的视频服务)的描述,且所述描述可包含例如编码解码器信息、配置文件值、层级值、位速率及表示68的其它描述性特性。客户端装置40可检索媒体呈现的mpd以确定如何存取表示68的区段。

具体来说,检索单元52可检索客户端装置40的配置数据(未展示)以确定视频解码器48的解码能力及视频输出44的再现能力。配置数据还可包含由客户端装置40的用户选择的语言偏好中的任一个或全部、对应于由客户端装置40的用户设定的深度偏好的一或多个摄影机视角及/或由客户端装置40的用户选择的分级偏好。举例来说,检索单元52可包括网页浏览器或媒体客户端,其经配置以提交httpget及部分get请求。检索单元52可对应于由客户端装置40的一或多个处理器或处理单元(未展示)执行的软件指令。在一些实例中,关于检索单元52所描述的功能性的全部或部分可在硬件或硬件、软件及/或固件的组合中实施,其中可提供必需的硬件以执行软件或固件的指令。

检索单元52可将客户端装置40的解码及再现能力与由信息列表文件66的信息所指示的表示68的特性进行比较。检索单元52可最初检索信息列表文件66的至少一部分以确定表示68的特性。举例来说,检索单元52可请求描述一或多个调适集合的特性的信息列表文件66的一部分。检索单元52可选择具有可由客户端装置40的译码及再现能力满足的特性的表示68的子集(例如调适集合)。检索单元52可接着确定用于调适集合中的表示的位速率,确定网络带宽的当前可用量,且从具有网络带宽可满足的位速率的表示中的一个检索区段。

一般来说,较高位速率表示可产生较高质量的视频播放,而较低位速率表示可在可用网络带宽减少时提供足够质量的视频播放。因此,当可用网络带宽相对高时,检索单元52可从相对高位速率的表示检索数据,而当可用网络带宽较低时,检索单元52可从相对低位速率的表示检索数据。以此方式,客户端装置40可经由网络74流式传输多媒体数据,同时还适应网络74的改变的网络带宽可用性。

另外或替代地,检索单元52可经配置以根据例如embms或ip多播的广播或多播网络协议来接收数据。在此些实例中,检索单元52可提交加入与特定媒体内容相关联的多播网络群组的请求。在加入多播群组之后,检索单元52可在另外请求未发出到服务器装置60或内容准备装置20的情况下接收多播群组的数据。检索单元52可提交当不再需要多播群组的数据时离开多播群组的请求,例如停止播放或将信道改变到不同多播群组。

网络接口54可接收经选定表示的区段的数据且将所述数据提供到检索单元52,所述检索单元又可将所述区段提供到解囊封单元50。解囊封单元50可将视频文件的元素解囊封成组成性pes串流,解包化所述pes串流以检索经编码数据,且取决于经编码数据为音频串流抑或视频串流的部分(例如,如由串流的pes包标头所指示)而将经编码数据发送到音频解码器46或视频解码器48。音频解码器46对经编码音频数据进行解码,且向音频输出42发送经解码音频数据,而视频解码器48对经编码视频数据进行解码,且向视频输出44发送经解码视频数据,所述经解码视频数据可包含串流的多个图景。

视频编码器28、视频解码器48、音频编码器26、音频解码器46、囊封单元30、检索单元52及解囊封单元50各自可实施为适用的多种合适处理电路中的任一个,合适处理电路例如一或多个微处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)、离散逻辑电路、软件、硬件、固件或其任何组合。视频编码器28及视频解码器48中的每一个可包含于一或多个编码器或解码器中,编码器或解码器中的任一个可经集成为组合式视频编码器/解码器(编码解码器(codec))的部分。同样地,音频编码器26及音频解码器46中的每一个可包含于一或多个编码器或解码器中,编码器或解码器中的任一个可经集成为组合式codec的部分。包含视频编码器28、视频解码器48、音频编码器26、音频解码器46、囊封单元30、检索单元52及/或解囊封单元50的设备可包含集成电路、微处理器及/或无线通信装置,例如蜂窝式电话。

客户端装置40、服务器装置60及/或内容准备装置20可经配置以根据本公开的技术操作。出于实例的目的,本公开关于客户端装置40及服务器装置60描述此些技术。然而,应理解,替代服务器装置60(或除此之外),内容准备装置20可经配置以执行此些技术。

囊封单元30可形成nal单元,所述nal单元包括识别nal所属的程序的标头,以及有效负载,例如音频数据、视频数据或描述nal单元对应于的传送或程序串流的数据。举例来说,在h.264/avc中,nal单元包含1位组标头及不同大小的有效负载。在有效负载中包含视频数据的nal单元可包括各种粒度水平的视频数据。举例来说,nal单元可包括视频数据块、多个块、视频数据的图块或视频数据的整个图片。囊封单元30可从视频编码器28接收呈基本串流的pes包的形式的经编码视频数据。囊封单元30可使每一基本串流与对应程序相关联。

囊封单元30还可组译来自多个nal单元的存取单元。一般来说,存取单元可包括用于表示视频数据的帧以及对应于所述帧的音频数据(当此音频数据可用时)的一或多个nal单元。存取单元通常包含用于一个输出时间执行个体的所有nal单元,例如,用于一个时间执行个体的所有音频及视频数据。举例来说,如果每一图景具有20帧每秒(fps)的帧速率,那么每一时间执行个体可对应于0.05秒的时间间隔。在此时间间隔期间,可同时再现相同存取单元(相同时间执行个体)的所有图景的特定帧。在一个实例中,存取单元可包括一个时间执行个体中的经译码图片,其可呈现为初级经译码图片。

因此,存取单元可包括共同时间执行个体的所有音频帧及视频帧,例如对应于时间x的所有图景。本公开还将特定图景的经编码图片称为“图景分量”。即,图景分量可包括在特定时间针对特定图景的经编码图片(或帧)。因此,存取单元可定义为包括共同时间执行个体的所有图景分量。存取单元的解码次序未必与输出或显示次序相同。

媒体呈现可包含媒体呈现描述(mpd),所述媒体呈现描述可含有不同替代表示(例如,具有不同质量的视频服务)的描述,且所述描述可包含例如编码解码器信息、配置文件值及层级值。mpd为信息列表文件(例如信息列表文件66)的一个实例。客户端装置40可检索媒体呈现的mpd以确定如何存取各种呈现的电影片段。电影片段可位于视频文件的电影片段逻辑框(moof逻辑框)中。

信息列表文件66(其可包括例如mpd)可通告表示68的区段的可用性。即,mpd可包含指示表示68中的一个的第一区段变得可用时的挂钟时间的信息,以及指示表示68内的区段的持续时间的信息。以此方式,客户端装置40的检索单元52可基于开始时间以及在特定区段之前的区段的持续时间而确定何时每一区段可用。

在囊封单元30已基于所接收的数据将nal单元及/或存取单元组译成视频文件之后,囊封单元30将视频文件传递到输出接口32以用于输出。在一些实例中,囊封单元30可将视频文件存储在本地,或经由输出接口32而将视频文件发送到远程服务器,而非将视频文件直接发送到客户端装置40。输出接口32可包括例如发射器、收发器、用于将数据写入到计算机可读媒体的装置,例如光学驱动器、磁性媒体驱动器(例如软盘驱动器)、通用串行总线(usb)端口、网络接口,或其它输出接口。输出接口32将视频文件输出到计算机可读媒体,例如发射信号、磁性媒体、光学媒体、存储器、闪存驱动器或其它计算机可读媒体。

网络接口54可经由网络74接收nal单元或存取单元,且经由检索单元52将nal单元或存取单元提供到解囊封单元50。解囊封单元50可将视频文件的元素解囊封成组成性pes串流,解包化所述pes串流以检索经编码数据,且取决于经编码数据为音频串流抑或视频串流的部分(例如,如由串流的pes包标头所指示)而将经编码数据发送到音频解码器46或视频解码器48。音频解码器46对经编码音频数据进行解码,且向音频输出42发送经解码音频数据,而视频解码器48对经编码视频数据进行解码,且向视频输出44发送经解码视频数据,所述经解码视频数据可包含串流的多个图景。

在omaf草案文本中,不允许重叠的经包装区。此不允许将一个经包装区映射到多个经投影区。mpeg输入文件m41558提议允许重叠的经包装区,只要其映射到立体视频内容的不同组成性图片(即,不同图景)即可,使得有可能当可从一个图景复制一些区时避免发送另一图景的一些区。然而,此不允许避免发送立体视频内容的图片的一个图景内的一些区及避免发送单像内容的一个图片内的一些区。

根据本公开的技术,内容准备装置20、服务器装置60及客户端装置40可经配置成使得允许重叠的经包装区,而不论内容为立体抑或单像的。当内容为立体时,内容准备装置20、服务器装置60及客户端装置40可经配置成使得允许重叠的经包装区,而不论重叠区是否映射到不同组成性图片。

对于容器文件格式及视频位串流两者,此通过从omaf草案文本中的按区包装(rwp)逻辑框的语义及从jct-vc文件jctvc-aa0026中的全向按区包装sei消息的语义去除以下约束来达成:

对于0到i-1(包含0及i-1)的范围内的j的任何值,由packed_reg_width[i]、packed_reg_height[i]、packed_reg_top[i]及packed_reg_left[i]指定的矩形不应与由packed_reg_width[j]、packed_reg_height[j]、packed_reg_top[j]及packed_reg_left[j]指定的矩形重叠。

因此,内容准备装置20、服务器装置60及客户端装置40可经配置以使用未如上文所指示加以约束的rwp逻辑框。实情为,内容准备装置20、服务器装置60及客户端装置40可经配置成使得在此些情形中允许重叠的经包装区。因此,内容准备装置20、服务器装置60及客户端装置40可经配置以处理此些情形中的重叠的经包装区中的数据。

此外,内容准备装置20及/或服务器装置60可经配置以确定经包装区的边界,且相应地设定用于packed_reg_width[i]、packed_reg_height[i]、packed_reg_top[i]及packed_reg_left[i]的值。同样地,客户端装置40可根据packed_reg_width[i]、packed_reg_height[i]、packed_reg_top[i]及packed_reg_left[i]的值确定经包装区的边界(且因此,确定大小及位置)。通过使用此些值确定经包装区的边界及位置,客户端装置40可确定两个或多于两个经包装区至少部分地重叠,且此外确定两个或多于两个经包装区之间的重叠部分的位置。此外,客户端装置40可使用两个经包装区的packed_reg_width[i]、packed_reg_height[i]、packed_reg_top[i]及packed_reg_left[i]的值确定从其检索视频数据以用于填充一个经包装区的重叠部分的另一经包装区。

本公开还认识到,当在多个调适集合中携带全部媒体内容时,用于发信mpd中的全部内容的内容覆盖度的机制是遗漏的。因此,根据本公开的技术,内容准备装置20、服务器装置60及客户端装置40可经配置成使得omaf中的内容覆盖度(cc)描述符可存在于调适集合层级及预选层级下。即,内容准备装置20、服务器装置60及客户端装置40可经配置以在调适集合层级及/或预选层级中的任一个或两者下处理omaf的cc描述符。cc描述符的位置可确定覆盖度为局部的(当在调适集合中时)抑或全局的(当在预选中时)。

dashframepacking元素不携带iso/iec23001-8的quincunxsamplingflag。然而,本公开认识到,需要此标志,因为其发信每一组成性帧的每一颜色分量平面是否经梅花采样。除了帧包装类型之外,可能需要此信息以用于确定接收器是否具有适当地解帧封装及再现视频内容的能力。梅花采样通常可视为“棋盘格”采样,其中一行的每隔一个样本及一列的每隔一个样本属于不同图片。因此,对于属于左眼图片的帧的位置(x,y)处的样本,位置(x-1,y)、(x+1,y)、(x,y+1)及(x,y-1)处的样本属于右眼图片(假设此些样本是在帧的界限内)。

客户端装置,例如客户端装置40,可使用梅花采样标志以确定客户端装置40是否能够再现对应的媒体内容。举例来说,如果视频输出44能够再现经梅花包装帧,那么检索单元52可确定客户端装置40能够再现梅花采样标志指示为经梅花包装的媒体数据的帧。另一方面,如果视频输出44不能够再现经梅花包装帧,那么检索单元52可确定客户端装置40不能够再现梅花采样标志指示为经梅花包装的媒体数据的框架,且因此,选择梅花采样标志指示为未经梅花包装的替代媒体数据(例如表示68的不同媒体数据)。

因此,准备装置20、服务器装置60及客户端装置40可经配置成使得framepacking元素的@value可以逗点分隔格式携带videoframepackingtype及quincunxsamplingflag值两者。即,准备装置20、服务器装置60及客户端装置40可处理framepacking元素的@value,其可包含处理videoframepackingtype值及quincunxsamplingflag值两者,所述值由逗点分隔开。对dash标准的所提议的改变如下(斜体文本表示相对于dash的当前版本的添加):

对于元素framepacking,@schemeiduri属性用于识别所使用的帧包装配置方案。

可存在多个framepacking元素。如果如此,每一元素应含有足够信息以选择或拒绝经描述表示。

应注意,如果未辨识用于所有framepacking元素的方案或值,那么预期dash客户端忽略经描述表示。客户端可基于观测到framepacking元素拒绝调适集合。

描述符可使用urn标签及针对iso/iec23001-8中的逗点分隔的videoframepackingtype及quincunxsamplingflag定义的值携带帧包装方案。

应注意:iso/iec23009的此部分还定义5.8.5.6中的帧包装方案。维持此些方案是用于向后相容性,但其建议使用在iso/iec23001-8中定义的发信。

根据本公开的技术,信息列表文件66可包含发信在调适集合层级下或在预选层级下的内容覆盖度描述符的数据。信息列表文件66可另外或替代地包含根据本公开的技术定义重叠区的按区包装逻辑框。信息列表文件66可另外或替代地包含具有由逗点分隔开的视频帧包装类型(videoframepackingtype)值及梅花采样值(quincunxsamplingflag)的framepacking元素,其中梅花采样值可指示一或多个对应的帧是否经梅花(棋盘格)包装。

图2为更详细地说明图1的检索单元52的组件的实例集合的框图。在此实例中,检索单元52包含embms中间件(middleware)单元100、dash客户端110及媒体应用程序112。

在此实例中,embms中间件单元100进一步包含embms接收单元106、高速缓存104及代理服务器单元102。在此实例中,embms接收单元106经配置以经由embms接收数据,例如,根据t.派拉(t.paila)等人在“flute-经由单向传送的文件递送(flute-filedeliveryoverunidirectionaltransport)”(网络工作群组,rfc6726,2012年11月)(可于tools.ietf.org/html/rfc6726获得)中所描述的经由单向传送的文件递送(flute)。即,embms接收单元106可经由广播而从例如服务器装置60接收文件,所述服务器装置可充当bm-sc。

当embms中间件单元100接收文件的数据时,embms中间件单元可将所接收的数据存储于高速缓存104中。高速缓存104可包括计算机可读存储媒体,例如闪存器、硬盘、ram或任何其它合适的存储媒体。

代理服务器单元102可充当dash客户端110的服务器。举例来说,代理服务器单元102可将mpd文件或其它信息列表文件提供到dash客户端110。代理服务器单元102可通告mpd文件中的区段的可用性时间,以及可检索所述区段的超链接。此些超链接可包含对应于客户端装置40的本地主机地址首码(例如,ipv4的127.0.0.1)。以此方式,dash客户端110可使用httpget或部分get请求而从代理服务器单位102请求区段。举例来说,对于可从链接127.0.0.1/rep1/seg3获得的区段,dash客户端110可构建包含针对127.0.0.1/rep1/seg3的请求的httpget请求,且将所述请求提交到代理服务器单位102。代理服务器单元102可从高速缓存104检索所请求的数据且响应于此些请求而将数据提供到dash客户端110。

图3为说明用于omaf的按区包装(rwp)的两个实例的概念图。omaf指定被称作按区包装(rwp)的机制。rwp使得能够操控(调整大小、改变位置、旋转,及镜像处理)经投影图片的任何矩形区。rwp可用于强调特定的检视区定向或规避投影的弱点,例如对erp中的极点的过采样。后者在图3的顶部处的实例中描绘,其中接近球体视频的极点的区域的分辨率缩减。图3的底部处的实例描绘经强调检视区定向。关于rwp的信息在rwp逻辑框中发信,所述rwp逻辑框在omaf草案文本的条项7.2.5中指定,如下:

2.5.1按区包装逻辑框

2.5.1.1定义

regionwisepackingbox指示经投影图片经按区包装且在再现之前需要解包装。经投影图片的大小在此逻辑框中经明确发信。经包装图片的大小是由visualsampleentry的分别标示为packedpicwidth及packedpicheight的宽度及高度语法元素指示。

应注意1:当图片为场图片而非帧图片时,经包装图片的实际高度将仅为packedpicheight的一半。

2.5.1.2语法

2.5.1.3语义

num_regions指定经包装区的数目。保留值0。

proj_picture_width及proj_picture_height以明度样本的单位分别指定经投影图片的宽度及高度。proj_picture_width及proj_picture_height应均大于0。

guard_band_flag[i]等于0指定第i经包装区不具有防护频带。guard_band_flag[i]等于1指定第i经包装区具有防护频带。

packing_type[i]指定按区包装的类型。packing_type[i]等于0指示矩形按区包装。保留其它值。

left_gb_width[i]以两个明度样本的单位指定第i经包装区的左侧的防护频带的宽度。

right_gb_width[i]以两个明度样本的单位指定第i经包装区的右侧的防护频带的宽度。

top_gb_height[i]以两个明度样本的单位指定在第i经包装区上方的防护频带的高度。

bottom_gb_height[i]以两个明度样本的单位指定在第i经包装区下方的防护频带的高度。

当guard_band_flag[i]等于1时,left_gb_width[i]、right_gb_width[i]、top_gb_height[i]或bottom_gb_height[i]应大于0。

由此regionwisepackingstruct指定的第i经包装区不应与由相同regionwisepackingstruct指定的任何其它经包装区或由相同regionwisepackingstruct指定的任何防护频带重叠。

与第i经包装区相关联的由此regionwisepackingstruct指定的防护频带(如果存在)不应与由相同regionwisepackingstruct指定的任何经包装区或由相同regionwisepackingstruct指定的任何其它防护频带重叠。

gb_not_used_for_pred_flag[i]等于0指定防护频带可或可不用于帧间预测程序中。gb_not_used_for_pred_flag[i]等于1指定防护频带的样本值不在帧间预测程序中。

应注意1:当gb_not_used_for_pred_flag[i]等于1时,经解码图片中的防护频带内的样本值可重写,即使经解码图片用作后续待解码图片的帧间预测的参考也如此。举例来说,经包装区的内容及另一经包装区的经解码及经重新投影采样可顺畅地扩展到其防护频带。

gb_type[i]指定用于第i经包装区的防护频带的类型,如下:

gb_type[i]等于0指定关于经包装区的内容的防护频带的内容未经指定。当gb_not_used_for_pred_flag等于0时,gb_type不应等于0。

gb_type[i]等于1指定防护频带的内容足以内插经包装区内的子像素值及经包装区的边界外部的小于一个像素。

应注意2:当经包装区的边界样本已经水平地或竖直地复制到防护频带时,可使用gb_type等于1。

gb_type[i]等于2指定防护频带的内容表示质量从经包装区的图片质量逐渐改变到球形地邻近的经包装区的图片质量的实际图像内容。

gb_type[i]等于3指定防护频带的内容表示经包装区下的图片质量的实际图像内容。

保留大于3的gb_type[i]值。

在宽度及高度分别等于proj_picture_width及proj_picture_height的经投影图片中以明度样本的单位指示proj_reg_width[i]、proj_reg_height[i]、proj_reg_top[i]及proj_reg_left[i]。

proj_reg_width[i]指定第i经投影区的宽度。proj_reg_width[i]应大于0。

proj_reg_height[i]指定第i经投影区的高度。proj_reg_height[i]应大于0。

proj_reg_top[i]及proj_reg_left[i]分别指定经投影图片中的第i经投影区的顶部明度样本行及最左边明度样本列。值应在从0(包含0,其指示经投影图片的左上角)到分别proj_picture_height-1(包含proj_picture_height-1)及proj_picture_width-1(包含proj_picture_width-1)的范围内。

proj_reg_width[i]及proj_reg_left[i]的总和应小于proj_picture_width。

proj_reg_height[i]及proj_reg_top[i]的总和应小于proj_picture_height。

当经投影图片为立体时,proj_reg_width[i]、proj_reg_height[i]、proj_reg_top[i]及proj_reg_left[i]应使得由此些字段识别的经投影区是在经投影图片的单个组成性图片内。

transform_type[i]指定旋转及镜像处理已应用于第i经投影区以在编码之前将其映射到经包装图片。当transform_type[i]指定旋转及镜像处理两者时,已在编码之前的从经投影图片到经包装图片的按区包装中的镜像处理之后应用旋转。指定以下值:

0:无转变

1:水平地镜像处理

2:旋转180度(反时针)

3:在水平地镜像处理之后旋转180度(反时针)

4:在水平地镜像处理之后旋转90度(反时针)

5:旋转90度(反时针)

6:在水平地镜像处理之后旋转270度(反时针)

7:旋转270度(反时针)

应注意3:条项5.4指定用于将经包装图片中的经包装区的样本位置转换到经投影图片中的经投影区的样本位置的transform_type[i]的语义。

在宽度及高度分别等于packedpicwidth及packedpicheight的经包装图片中以明度样本的单位指示packed_reg_width[i]、packed_reg_height[i]、packed_reg_top[i]及packed_reg_left[i]。

packed_reg_width[i]、packed_reg_height[i]、packed_reg_top[i]及packed_reg_left[i]分别指定经包装图片中的经包装区的宽度、高度、顶部明度样本行及最左边明度样本列。

packed_reg_width[i]、packed_reg_height[i]、packed_reg_top[i]及packed_reg_left[i]的值如下加以约束:

·packed_reg_width[i]及packed_reg_height[i]应均大于0。

·packed_reg_top[i]及packed_reg_left[i]应在0(包含0,其指示经包装图片的左上角明度样本)到分别packedpicheight-1(包含packedpicheight-1)及packedpicwidth-1(包含packedpicwidth-1)的范围内。

·packed_reg_width[i]及packed_reg_left[i]的总和应小于packedpicwidth。

·packed_reg_height[i]及packed_reg_top[i]的总和应小于packedpicheight。

·对于0到i-1(包含0及i-1)的范围内的j的任何值,由packed_reg_width[i]、packed_reg_height[i]、packed_reg_top[i]及packed_reg_left[i]指定的矩形不应与由packed_reg_width[j]、packed_reg_height[j]、packed_reg_top[j]及packed_reg_left[j]指定的矩形重叠。

图4为说明具有防护频带的实例经投影区及对应的经包装区的概念图。jct-vc文件jctvc-aa0026(可从phenix.int-evry.fr/jct/doc_end_user/documents/28_torino/wg11/jctvc-ab0026-v3.zip获得)包含用于例如根据hevc发信视频位串流中的rwp信息的按区包装sei消息。全向按区包装sei消息的语法及语义如下。

全向按区包装sei消息提供信息以使得能够将输出的经解码图片的颜色样本再映射到经投影图片上。最新omaf草案文本中定义“经投影图片”及“经包装图片”的定义。jctvc-aa0026如下定义以上语法元素的语义:

omni_region_wise_packing_cancel_flag等于1指示sei消息按输出次序取消任何先前全向按区包装sei消息的暂留。omni_region_wise_packing_cancel_flag等于0指示随后为全向按区包装信息。

omni_region_wise_packing_persistence_flag指定用于当前层的全向按区包装sei消息的暂留。

omni_region_wise_packing_persistence_flag等于0指定全向按区包装sei消息仅适用于当前经解码图片。

使pica为当前图片。omni_region_wise_packing_persistence_flag等于1指定全向按区包装sei消息按输出次序对于当前层暂留,直到以下条件中的一或多个成立为止:

-当前层的新clvs开始。

-位串流结束。

-存取单元中的当前层中的含有适用于当前层的全向按区包装sei消息的图片picb经输出,对于所述图片,picordercnt(picb)大于picordercnt(pica),其中picordercnt(picb)及picordercnt(pica)分别为紧接在调用picb的图片次序计数的解码程序之后的picb及pica的picordercntval值。

当具有等于0的omni_projection_information_cancel_flag的全向投影指示sei消息不存在于适用于当前图片的clvs中且按解码次序在全向按区包装sei消息之前时,具有等于0的omni_region_wise_packing_persistence_flag的全向按区包装sei消息不应存在于适用于当前图片的clvs中。解码器应忽略具有等于0的omni_region_wise_packing_persistence_flag的全向按区包装sei消息,所述全向按区包装sei消息按解码次序在适用于当前图片的clvs中的具有等于0的omni_projection_information_cancel_flag的全向投影指示sei消息之后。

rwp_reserved_zero_6bits在遵守本说明书的此版本的位串流中应等于0。rwp_reserved_zero_6bits[i]的其它值经保留供itu-t|iso/iec未来使用。解码器应忽略rwp_reserved_zero_6bits[i]的值。

num_packed_regions指定经包装区的数目。num_packed_regions的值应大于0。

proj_picture_width及proj_picture_height分别指定经投影图片的宽度及高度。proj_picture_width及proj_picture_height的值应均大于0。

rwp_reserved_zero_4bits在遵守本说明书的此版本的位串流中应等于0。rwp_reserved_zero_4bits[i]的其它值经保留供itu-t|iso/iec未来使用。解码器应忽略rwp_reserved_zero_4bits[i]的值。

packing_type[i]指定按区包装的类型。packing_type[i]等于0指示矩形按区包装。保留其它值。packing_type[i]的值在本说明书的此版本中应等于0。解码器应允许packing_type[i]的值大于0,且对于i的任何值,应忽略具有大于0的packing_type[i]的所有全向按区包装sei消息。

在宽度及高度分别等于proj_picture_width及proj_picture_height的经投影图片中以明度样本的单位指示proj_reg_width[i]、proj_reg_height[i]、proj_reg_top[i]及proj_reg_left[i]。

proj_reg_width[i]指定第i经投影区的宽度。proj_reg_width[i]应大于0。

proj_reg_height[i]指定第i经投影区的高度。proj_reg_height[i]应大于0。

proj_reg_top[i]及proj_reg_left[i]分别指定经投影图片中的顶部明度样本行及最左边明度样本列。proj_reg_top[i]及proj_reg_left[i]的值应在0(包含0,其指示经投影图片的左上角)到分别proj_picture_height-1(包含proj_picture_height-1)及proj_picture_width-1(包含proj_picture_width-1)的范围内。

proj_reg_width[i]及proj_reg_left[i]的总和应小于proj_picture_width。proj_reg_height[i]及proj_reg_top[i]的总和应小于proj_picture_height。

当经投影图片为立体时,proj_reg_width[i]、proj_reg_height[i]、proj_reg_top[i]及proj_reg_left[i]应使得由此些字段识别的经投影区是在经投影图片的单个组成性图片内。

transform_type[i]指定旋转及镜像处理已应用于第i经投影区以在编码之前将其映射到经包装图片。当transform_type[i]指定旋转及镜像处理两者时,已在编码之前的从经投影图片到经包装图片的按区包装中的镜像处理之后应用旋转。transform_type[i]的值在以下表中指定:

transform_type[i]值的表

rwp_reserved_zero_5bits在遵守本说明书的此版本的位串流中应等于0。rwp_reserved_zero_5bits[i]的其它值经保留供itu-t|iso/iec未来使用。解码器应忽略rwp_reserved_zero_5bits[i]的值。

packed_reg_width[i]、packed_reg_height[i]、packed_reg_top[i]及packed_reg_left[i]分别指定经包装图片中的经包装区的宽度、高度、顶部明度样本行及最左边明度样本列。

使packedpicwidth及packedpicheight为经包装图片的宽度及高度,其与一致性裁剪窗口具有相同大小。packed_reg_width[i]、packed_reg_height[i]、packed_reg_top[i]及packed_reg_left[i]的值如下加以约束:

·packed_reg_width[i]及packed_reg_height[i]应均大于0。

·packed_reg_top[i]及packed_reg_left[i]的值应在0(包含0,其指示经包装图片的左上角明度样本)到分别packedpicheight-1(包含packedpicheight-1)及packedpicwidth-1(包含packedpicwidth-1)的范围内。

·packed_reg_width[i]及packed_reg_left[i]的总和应小于packedpicwidth。

·packed_reg_height[i]及packed_reg_top[i]的总和应小于packedpicheight。

·对于0到i-1(包含0及i-1)的范围内的j的任何值,由packed_reg_width[i]、packed_reg_height[i]、packed_reg_top[i]及packed_reg_left[i]指定的矩形不应与由packed_reg_width[j]、packed_reg_height[j]、packed_reg_top[j]及packed_reg_left[j]指定的矩形重叠。

omaf还描述内容覆盖度发信。omaf草案文本的条项7.2.7指定全局覆盖度信息逻辑框。此逻辑框提供关于由全部内容覆盖的球体上的区域的信息。如果此轨属于子图片组成轨群组,那么全部内容是指由属于相同子图片组成轨的所有轨表示的内容,且由此些轨构成的组成图片被称作全部内容的经包装图片。否则,全部内容是指由此轨自身表示的内容,且此轨中的样本的图片被称作全部内容的经包装图片。

omaf草案文本的条项7.2.7指定轨覆盖度信息逻辑框。此逻辑框提供关于由此轨表示的内容覆盖的球体上的区域的信息。

omaf草案文本的条项8.2.3如下指定内容覆盖度(cc)描述符:

具有等于“urn:mpeg:omaf:cc:2017”的@schemeiduri属性的内容覆盖度(cc)supplementalproperty元素可存在于调适集合层级(即,直接在adaptationset元素中),且不应存在于其它层级(即,不应存在于mpd层级或直接在任一表示元素中)。具有等于“urn:mpeg:omaf:cc:2017”的@schemeiduri的cc描述符的@value为如在下表中指定的值的逗点分隔的列表。cc描述符指示每一表示覆盖在条项7.4中由shape_type及包含于cc描述符中的sphereregionstruct中的语法元素center_yaw、center_pitch、center_roll、hor_range及ver_range所指定的球体区。

cc描述符的不存在指示当pf描述符存在于表示或含有的调适集合中时,每一表示覆盖整个球体。

图5为说明实例多媒体内容120的元素的概念图。多媒体内容120可对应于多媒体内容64(图1),或对应于存储于存储媒体62中的另一多媒体内容。在图5的实例中,多媒体内容120包含媒体呈现描述(mpd)122及多个表示124a到124n(表示124)。表示124a包含任选的标头数据126及区段128a到128n(区段128),而表示124n包含任选的标头数据130及区段132a到132n(区段132)。为了方便起见,使用字母n来指定表示124中的每一个中的最后一个电影片段。在一些实例中,表示124之间可存在不同数目的电影片段。

mpd122可包括与表示124分开的数据结构。mpd122可对应于图1的信息列表文件66。同样,表示124可对应于图2的表示68。一般来说,mpd122可包含大体上描述表示124的特性的数据,例如译码及再现特性、调适集合、mpd122所对应的配置文件、文本类型信息、摄影机角度信息、分级信息、特技模式信息(例如,指示包含暂态子序列的表示的信息)及/或用于检索远程周期(例如,用于在播放期间将针对性广告插入到媒体内容中)的信息。

标头数据126(当存在时)可描述区段128的特性,例如,随机存取点(rap,其还被称作串流存取点(sap))的时间位置、区段128中的哪一个包含随机存取点、与区段128内的随机存取点的位组偏移、区段128的统一资源定位符(url),或区段128的其它方面。标头数据130(当存在时)可描述区段132的相似特性。另外或替代地,此些特性可完全包含于mpd122内。

区段128、132包含一或多个经译码视频样本,其中的每一个可包含视频数据的帧或图块。区段128的经译码视频样本中的每一个可具有类似特性,例如,高度、宽度及带宽要求。此些特性可通过mpd122的数据来描述,但此数据在图5的实例中未说明。mpd122可包含如3gpp规范所描述的特性,同时添加了本公开中所描述的发信信息中的任一个或全部。

区段128、132中的每一个可与唯一的统一资源定位符(url)相关联。因此,区段128、132中的每一个可使用流式传输网络协议(例如dash)来独立地检索。以此方式,例如客户端装置40的目的地装置可使用httpget请求来检索区段128或132。在一些实例中,客户端装置40可使用http部分get请求来检索区段128或132的特定位组范围。

根据本公开的技术,mpd122可包含发信在调适集合层级下或在预选层级下的内容覆盖度描述符的数据。mpd122可另外或替代地包含根据本公开的技术定义重叠区的按区包装逻辑框。mpd122可另外或替代地包含具有由逗点分隔开的视频帧包装类型(videoframepackingtype)值及梅花采样值(quincunxsamplingflag)的framepacking元素,其中梅花采样值可指示一或多个对应的帧是否经梅花(棋盘格)包装。

图6为说明实例视频文件150的元素的框图,所述实例视频文件可对应于表示的区段,例如图5的区段128、132中的一个。区段128、132中的每一个可包含大体上符合图6的实例中所说明的数据的布置的数据。视频文件150可称为囊封区段。如上文所描述,根据iso基本媒体文件格式及其扩展的视频文件将数据存储于一系列对象(称为“逻辑框”)中。在图6的实例中,视频文件150包含文件类型(ftyp)逻辑框152、电影(moov)逻辑框154、区段索引(sidx)逻辑框162、电影片段(moof)逻辑框164及电影片段随机存取(mfra)逻辑框166。尽管图6表示视频文件的实例,但应理解,根据iso基本媒体文件格式及其扩展,其它媒体文件可包含其它类型的媒体数据(例如,音频数据、计时文本数据等等),其在结构上类似于视频文件150的数据。

文件类型(ftyp)逻辑框152通常描述视频文件150的文件类型。文件类型逻辑框152可包含识别描述视频文件150的最佳用途的规范的数据。文件类型逻辑框152可替代地放置在moov逻辑框154、电影片段逻辑框164及/或mfra逻辑框166之前。

在一些实例中,例如,视频文件150的区段可包含在ftyp逻辑框152之前的mpd更新逻辑框(未展示)。mpd更新逻辑框可包含指示对应于包含视频文件150的表示的mpd待更新的信息,以及用于更新mpd的信息。举例来说,mpd更新逻辑框可提供待用以更新mpd的资源的uri或url。作为另一实例,mpd更新逻辑框可包含用于更新mpd的数据。在一些实例中,mpd更新逻辑框可紧接在视频文件150的区段类型(styp)逻辑框(未展示)之后,其中styp逻辑框可定义视频文件150的区段类型。在下文更详细地论述的图7提供关于mpd更新逻辑框的额外信息。

在图6的实例中,moov逻辑框154包含电影标头(mvhd)逻辑框156、轨(trak)逻辑框158及一或多个电影延伸(mvex)逻辑框160。一般来说,mvhd逻辑框156可描述视频文件150的一般特性。举例来说,mvhd逻辑框156可包含描述视频文件150何时最初建立、视频文件150何时经最后修改、视频文件150的时间标度、视频文件150的播放持续时间的数据,或大体上描述视频文件150的其它数据。

trak逻辑框158可包含视频文件150的轨的数据。trak逻辑框158可包含轨标头(tkhd)逻辑框,其描述对应于trak逻辑框158的轨的特性。在一些实例中,trak逻辑框158可包含经译码视频图片,而在其它实例中,轨的经译码视频图片可包含于电影片段164中,其可由trak逻辑框158及/或sidx逻辑框162的数据参考。

在一些实例中,视频文件150可包含多于一个轨。因此,moov逻辑框154可包含数个trak逻辑框,其等于视频文件150中的轨的数目。trak逻辑框158可描述视频文件150的对应轨的特性。举例来说,trak逻辑框158可描述对应的轨的时间及/或空间信息。当囊封单元30(图5)包含视频文件(例如,视频文件150)中的参数集轨时,类似于moov逻辑框154的trak逻辑框158的trak逻辑框可描述参数集轨的特性。囊封单元30可在描述参数集轨的trak逻辑框内发信序列层级sei消息存在于参数集轨中。

mvex逻辑框160可描述对应的电影片段164的特性,例如,发信视频文件150除包含于moov逻辑框154(如果存在)内的视频数据之外还包含电影片段164。在流式传输视频数据的内容背景中,经译码视频图片可包含于电影片段164中,而非包含于moov逻辑框154中。因此,所有经译码视频样本可包含于电影片段164中,而非包含于moov逻辑框154中。

moov逻辑框154可包含数个mvex逻辑框160,其等于视频文件150中的电影片段164的数目。mvex逻辑框160中的每一个可描述电影片段164中的对应电影片段的特性。举例来说,每一mvex逻辑框可包含电影延伸标头逻辑框(mehd)逻辑框,其描述电影片段164中的对应电影片段的持续时间。

如上文所提及,囊封单元30可存储视频样本中的序列数据集,其并不包含实际经译码视频数据。视频样本可大体上对应于存取单元,其为特定时间执行个体下的经译码图片的表示。在avc的内容背景中,经译码图片包含一或多个vclnal单元及其它相关联非vclnal单元(例如,sei消息),所述vclnal单元含有用以构建存取单元的所有像素的信息。因此,囊封单元30可包含电影片段164中的一个中的序列数据集,其可包含序列层级sei消息。囊封单元30可进一步发信存在于电影片段164中的一个中的序列数据集及/或序列层级sei消息存在于对应于电影片段164中的一个的mvex逻辑框160中的一个内。

sidx逻辑框162为视频文件150的任选的元素。即,符合3gpp文件格式或其它此些文件格式的视频文件未必包含sidx逻辑框162。根据3gpp文件格式的实例,sidx逻辑框可用以识别区段(例如,含于视频文件150内的区段)的子区段。3gpp文件格式将子区段定义为“具有一或多个对应的媒体数据逻辑框及含有通过电影片段逻辑框引用的数据的媒体数据逻辑框的一或多个连续电影片段逻辑框的自含式集合,必须跟在电影片段逻辑框之后,并在含有关于相同轨的信息的下一个电影片段逻辑框之前”。3gpp文件格式还指示sidx逻辑框“含有对由逻辑框记录的(子)区段的子区段参考的序列。所参考的子区段在呈现时间上连续。相似地,由区段索引逻辑框参考的位组始终在区段内连续。所参考大小给出所参考材料中的位组的数目的计数”。

sidx逻辑框162通常提供表示包含于视频文件150中的区段的一或多个子区段的信息。举例来说,此信息可包含子区段开始及/或结束的播放时间、用于子区段的位组偏移、子区段是否包含串流存取点(sap)(例如始于串流存取点)、用于sap的类型(例如sap是否为瞬时解码器刷新(idr)图片、整洁随机存取(cra)图片、断链存取(bla)图片等等)、子区段中的sap的位置(依据播放时间及/或位组偏移)等等。

电影片段164可包含一或多个经译码视频图片。在一些实例中,电影片段164可包含一或多个图片群组(gop),其中的每一个可包含数个经译码视频图片,例如帧或图片。另外,如上文所描述,在一些实例中,电影片段164可包含序列数据集。电影片段164中的每一个可包含电影片段标头逻辑框(mfhd,图6中未展示)。mfhd逻辑框可描述对应的电影片段的特性,例如电影片段的序列号。电影片段164可按序列号次序包含于视频文件150中。

mfra逻辑框166可描述视频文件150的电影片段164内的随机存取点。此可辅助执行特技模式,例如执行对由视频文件150囊封的区段内的特定时间位置(即,播放时间)的寻找。在一些实例中,mfra逻辑框166通常为任选的且无需包含于视频文件中。同样地,客户端装置(例如客户端装置40)未必需要参考mfra逻辑框166来对视频文件150的视频数据进行正确解码及显示。mfra逻辑框166可包含数个轨片段随机存取(tfra)逻辑框(未展示),其等于视频文件150的轨的数目或在一些实例中等于视频文件150的媒体轨(例如,非暗示轨)的数目。

在一些实例中,电影片段164可包含一或多个串流存取点(sap),例如idr图片。同样地,mfra逻辑框166可提供对sap在视频文件150内的位置的指示。因此,视频文件150的时间子序列可由视频文件150的sap形成。时间子序列还可包含其它图片,例如取决于sap的p帧及/或b帧。时间子序列的帧及/或图块可布置于区段内,以使得时间子序列的取决于子序列的其它帧/图块的帧/图块可被恰当地解码。举例来说,在数据的阶层式布置中,用于其它数据的预测的数据还可包含于时间子序列中。

根据本公开的技术,视频文件150可进一步包含按区包装逻辑框(rwpb),其包含如上文所论述的例如在moov逻辑框154内的信息。rwpb可包含定义经包装区及对应的经投影区在球体视频投影中的位置的rwpb结构。根据本公开的技术,rwpb的数据可指示经包装区重叠。以此方式,客户端装置,例如客户端装置40,可使用rwpb信息以重新使用一个经包装区的数据从而填充另一经包装区的重叠部分。

图7为说明根据本公开的技术的产生视频数据的实例方法的流程图。一般来说,关于内容准备装置20(图1)论述图7的方法。然而,应理解,其它装置,例如服务器装置60,可经配置以执行此方法或类似方法。

起初,内容准备装置从视频源24接收媒体内容,包含视频数据。视频数据可表示球体视频数据,其例如用于vr、扩增实境等等中。因此,内容准备装置20可确定媒体内容的第一经投影区(200)。第一经投影区可对应于例如图3中所展示的球体数据的一部分。

内容准备装置20接着可从第一经投影区形成第一经包装区(204)。举例来说,内容准备装置20可沿着第一经投影区的水平及/或竖直维度执行抽取以形成第一经包装区。内容准备装置20接着可将第一经包装区提供到视频编码器28,以使得视频编码器28对第一经包装区进行编码(206)。

内容准备装置20接着可根据经接收的媒体内容确定第二经投影区(206)。内容准备装置20可从第二经投影区形成第二经包装区(208)。举例来说,内容准备装置20可沿着第二经投影区的水平及/或竖直维度执行抽取以形成第二经包装区。在此状况下,内容准备装置20另外确定重叠存在于第一经包装区与第二经包装区之间(210)。因此,内容准备装置20将第二经包装区的不重叠部分提供到视频编码器28,以使得视频编码器28对排除与第一经包装区的重叠的第二经包装区进行编码(212)。

另外,内容准备装置20可对如上文所论述的定义第一及第二经包装区的位置的按区包装逻辑框(rwpb)进行编码(214)。以此方式,客户端装置,例如客户端装置40,可使用rwpb信息以从第一经包装区的对应的重叠部分提取用于第二经包装区的重叠部分的数据。因此,内容准备装置20可避免对重叠部分重新编码,借此节省与处理、编码及传送重叠部分相关联的存储、处理及网络带宽。

图8为说明根据本公开的技术的接收及处理视频数据的实例方法的流程图。一般来说,关于客户端装置40(图1)论述图8的方法。然而,应理解,其它装置可经配置以执行此方法或类似方法。

起初,客户端装置40可对媒体内容的视频数据进行解码。客户端装置40接着可确定媒体内容的经解码视频数据的第一经包装区(250)。举例来说,客户端装置40可接收按区包装逻辑框(rwpb),所述按区包装逻辑框包含如上文所论述的表示媒体内容的经解码视频数据的第一经包装区及第二经包装区的位置的信息。

客户端装置40接着可对第一经包装区进行解包装(252)且从第一经解包装区形成第一经投影区(254)。举例来说,客户端装置40可内插第一经包装区的数据以形成第一经投影区,接着根据rwpb信息重新定位第一经投影区。

客户端装置40接着可确定媒体内容的经解码视频数据的第二经包装区(256)。举例来说,在使用rwpb信息的位置信息的情况下,客户端装置40可确定第二经包装区与第一经包装区重叠(258)。因此,客户端装置40可检索第一经包装区的对应的重叠部分的视频数据以用第一经包装区的数据填充第二经包装区的重叠部分(260)。

客户端装置40接着可对第二经包装区解包装(262)且从第二经解包装区形成第二经投影区(264)。举例来说,客户端装置40可内插第二经包装区的数据以形成第二经投影区,接着根据rwpb信息重新定位第二经投影区。

以此方式,图8的方法表示包含以下步骤的方法的实例:处理媒体内容的第一经包装区,其中处理第一经包装区包括:对第一经包装区解包装以产生第一经解包装区及从第一经解包装区形成第一经投影区;及处理媒体内容的第二经包装区,第二经包装区与第一经包装区至少部分地重叠,其中处理第二经包装区包括:对第二经包装区解包装以产生第二经解包装区及从第二经解包装区形成第二经投影区,第二经投影区不同于第一经投影区。

在一或多个实例中,所描述的功能可以硬件、软件、固件或其任何组合来实施。如果以软件实施,那么所述功能可作为一或多个指令或代码而存储于计算机可读媒体上或经由计算机可读媒体进行发射,且通过基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体(其对应于例如数据存储媒体的有形媒体)或通信媒体,所述通信媒体包含(例如)根据通信协议促进计算机程序从一处传送到另一处的任何媒体。以此方式,计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)例如信号或载波的通信媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本公开中所描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。

作为实例而非限制,此类计算机可读存储媒体可包括ram、rom、eeprom、cd-rom或其它光盘存储器、磁盘存储器或其它磁性存储装置、闪存器或可用以存储呈指令或数据结构形式的所要程序码且可由计算机存取的任何其它媒体。而且,任何连接被恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光缆、双绞线、数字用户线(dsl)或无线技术(例如红外线、无线电及微波)从网站、服务器或其它远程源发射指令,那么同轴电缆、光缆、双绞线、dsl或无线技术(例如红外线、无线电及微波)包含于媒体的定义中。然而,应理解,计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它暂时性媒体,而实情为涉及非暂时性有形存储媒体。如本文中所使用,磁盘及光盘包含紧密光盘(cd)、激光光盘、光学光盘、数字多功能光盘(dvd)、软盘及蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。以上各者的组合还应包含于计算机可读媒体的范围内。

指令可由一或多个处理器执行,例如一或多个数字信号处理器(dsp)、通用微处理器、专用集成电路(asic)、场可编程逻辑阵列(fpga)或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指前述结构或适于实施本文中所描述的技术的任何其它结构中的任一个。另外,在一些方面中,本文中所描述的功能性可在经配置用于编码及解码的专用硬件及/或软件模块内提供,或并入于组合式编码解码器中。而且,所述技术可充分实施于一或多个电路或逻辑元件中。

本公开的技术可实施于广泛多种装置或设备中,包含无线手持机、集成电路(ic)或ic集合(例如芯片组)。本公开中描述各种组件、模块或单元以强调经配置以执行所公开的技术的装置的功能方面,但未必要求由不同硬件单元来实现。实情为,如上文所描述,各种单元可与合适的软件及/或固件一起组合在编码解码器硬件单元中或由互操作硬件单元的集合提供,硬件单元包含如上文所描述的一或多个处理器。

各种实例已予以描述。此些及其它实例在以下权利要求书的范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1