用于制作和播放具有热点区域的交互式视频的方法

文档序号：7955873阅读：1307来源：国知局

专利名称：用于制作和播放具有热点区域的交互式视频的方法
技术领域：
本发明涉及计算机视频编辑，尤其涉及一种用于制作和播放具有热点区域的交互式视频的方法。
背景技术：
从1980年出现“Movie Map”[1]开始，HyperText向着在不同类型多媒体之间建立关联的HyperMedia发展，进而出现了不但在二维空间上而且在视频时序上支持多媒体超链接的HyperVideo。因为视频的时间属性，HyperVideo较其他静态媒质更为贴近实际而且灵活，成为HyperMedia的研究趋势。HyperVideo以其良好的交互性和生动性在教育、科研和辅助训练等领域取得了较为成功的实际应用[2][3]，它也十分适合于表达结构化视频并生成摘要[4][5]。HyperVideo的研究领域可以分为内容描述、显示方式和制作方法三个方面。在内容描述和显示方式方面，MPEG7[6]和SMIL[7]已经成为相应的通用标准，而且也出现了从MPEG7描述自动转变为SMIL的方法[8]。由于视频本身缺乏结构和文本语义，而且在二维屏幕上不能与其他静态媒质那样直接用空间位置显示全部内容，HyperVideo的制作比较困难，虽然出现了一些辅助制作的系统(如HyperCafe[9]和Hyper-Hitchcock[10])，但是人工制作HyperVideo的低效率依旧是限制其进一步推广的瓶颈。基于视频分析和结构化算法，从线性视频中自动生成多层的细分视频索引机制是研究者努力的目标。
附参考文献[1]A.Lippman.Movie-MapsAn Application of the Optical Videodisc to Computer Graphics.Proc.of ACM SIGGRAPH，ACM，pp.32-42，1980. T.Chambel，C.Zahn，and M.Finke.Hypervideo Design and Support for ContextualizedLearning.IEEE International Conference on Advanced Learning Technologies，pp.345-349，2004. O.Aubert and Y.Prie.AdveneActive Reading through Hypervideo.Proc.of the sixteenthACM conference on Hypertext and hypermedia，pp.235-244，2005. A.Girgensohn，F.Shipman，and L.Wilcox.Hypervideo Summaries，SPIE InformationTechnologies and Communications，2003. F.Shipman，A.Girgensohn，L.Wilcox.Generation of Interactive Multi-Level Video Summaries.Proc.of ACM Multimedia，pp.392-401，2003. P.Mallorca.MPEG-7 Overview(version 10).ISO/IEC JTC1/SC29/WG11 N6828，2004. D.Bulterman et al.Synchronized Multimedia Integration Language(SMIL 2.1).2005. T.Zhou，T.Gedeon and J.Jin.Automatic Generating Detail-on-demand Hypervideo UsingMPEG-7 and SMIL.Proc.of the 13th annual ACM international conference on Multimedia，pp.379-382，2005. D.B.Nitin Sawhney and I.Smith.HyperCafeNarrative and Aesthetic Properties ofHypervideo.Proc.of the Seventh ACM Conference on Hypertext，pp.1-10，1996. F.Shipman III，A.Girgensohn and L.Wilcox.Hypervideo ExpressionExperiences withHyper-Hitchcock.Proc.of ACM Hypertext Hypertext and HyperMedia，pp.217-226，2005.

发明内容
本发明的目的是提供了一种用于制作和播放具有热点区域的交互式视频的方法。
用于制作和播放具有热点区域的交互式视频的方法1)视频中的热点交互区域的添加用户指定若干帧中的热点交互区域的位置和大小，并确定每个区域的激活时间段和添加各区域相应的附加内容和响应目标信息，根据计算出的每帧中相机的运动参数，自动推算出激活时间段内其它帧中各区域的位置和大小；2)交互式视频的保存视频中的热点交互区域的标注信息以附加数据文件的形式加以保存，或将视频和交互数据相结合，导出为SMIL标准文件；3)交互式视频的播放视频播放时从相应的标注文件中读取热点区域信息，一旦当前时间处于热点区域的激活时间段内，视频中则显示出该区域的附加注释内容，用户在该区域内点击鼠标，则直接跳转到其相应的响应目标。
所述的帧中的热点交互区域热点交互区域的形状可以是视频单帧画面大小范围内的任意的封闭几何图形；视频中的热点交互区域由用户自由指定，或由系统辅助自动生成。
区域相应的附加内容和响应目标信息视频中交互区域的附加显示内容是文本或者图像；当用户点击热点交互区域时，响应的目标文件可以是音频、视频、网页。
区域的激活时间段只有在指定的时间段内，热点交互区域才处于激活状态，才能显示附加内容和响应目标信息。
自动推算出激活时间段内其它帧中各区域的位置和大小的方法，包括如下步骤(1)计算出每一帧中相机的运动参数；(2)根据前一帧中的区域位置大小和相应的相机运动参数计算出下一帧中该区域所改变的位置和大小。
计算出每一帧中相机的运动参数的方法，包括如下步骤(1)从视频压缩文件中读取该帧的运动向量。
(2)对运动向量进行归一化。将I帧、B帧、P帧和帧间编码、帧内编码、混合编码等这几种不同情形下的运动向量统一起来。
(3)去除运动向量中的部分噪音。主要依据是运动向量的邻域性和变化时光滑性。
(4)进一步优化运动向量。先对该帧中的运动向量进行聚类，根据聚类后每一类的分布特征来判断此类的运动向量属于相机运动还是对象运动，然后仅保留属于相机运动的聚类。
(5)建立相机参数模型求解运动参数。建立一个假设的相机参数方程组，将优化后的运动向量分别代入方程组中，再通过标准的数值线性代数方法来求解方程组中的未知参数。
标注的信息包括1)该区域激活状态的开始时间、结束时间；2)热点区域在激活状态中每一帧时的位置和大小；3)区域的附加内容信息，文本包括文字颜色、大小、超链接，图像包括所有象素点的信息，如果是直接从文件读取，则记录文件的路径地址；4)该区域所对应的响应目标信息是图像、音频、视频或网页，记录文件的路径地址。
本发明具有的有益的效果是在传统视频中加入了可交互因素，视频中的任意帧中的任意封闭区域都可添加热点交互信息，并且热点交互区域的位置和大小在视频播放中的改变可以通过相机的运动参数自动计算出来。视频播放期间，热点交互区域可实时接收用户的交互操作并做出相应的响应。视频中的交互信息以附加数据文件的形式加以保存，不依赖于源视频文件的具体编码方式，也不需要重新编码。可将源视频文件和交互数据文件相结合，导出生成SMIL标准文件，在所有支持SMIL标准的播放器中都可正常运行。

图1(a)是去除运动向量中的部分噪音时判断变化光滑性的示意图；图1(b)是去除运动向量中的部分噪音时判断邻域性的示意图；图2(a)是运动向量聚类后的属于相机运动类型的聚类示意图；图2(b)是运动向量聚类后的属于对象运动类型的聚类示意图；图2(c)是运动向量聚类后的属于异常运动类型的聚类示意图；图3是制作具有热点交互区域视频的工作流程图；图4是播放具有热点交互区域视频的系统流程图；
图5是制作景点类交互式视频的操作界面示例图；图6是交互式视频在情景式数字旅游项目中的应用示例图；图7是情景式数字旅游项目中热点交互区域点击后的响应示例图。
图8是制作人物类交互式视频的操作界面示例图。
图9是用户点击视频中热点人物后的响应示例图。
具体实施例方式
本发明的制作具有热点区域的交互式视频的步骤如下1.用户添加热点交互区域信息用户先将视频定位到某一帧，再通过鼠标勾勒出热点区域的位置和形状大小，并指定此区域激活状态的开始时间和结束时间。然后给该热点区域添加相应的附加内容，包括文本和图像，可以是直接从文件读取，也可以是在文本框中输入和通过鼠标绘制。最后添加区域所对应的响应目标信息，可以是图像、音频、视频、网页或其它文件，通常是记录文件的路径地址。
2.自动生成激活时间段内的其它帧中的热点区域的位置和大小如果让用户对激活时间段内每一帧都手工标注热点区域位置大小的话，是非常繁琐的，因此本系统通过计算每一帧的相机运动参数来辅助完成这一部分工作，具体步骤如下(1)计算出每一帧中相机的运动参数。
a.从视频压缩文件中读取该帧的运动向量。
b.对运动向量进行归一化。将I帧、B帧、P帧和帧间编码、帧内编码、混合编码等这几种不同情形下的运动向量统一起来。
c.去除运动向量中的部分噪音。主要依据是运动向量的邻域性和变化时光滑性。如图1所示，图中左边的部分表示中间宏块的运动向量和周围斜对角相邻的四个宏块分别取均值，如果四个均值中与中间宏块运动向量的差低于某一阀值的宏块数量少于某个值，则认为此宏块没有保持变化的光滑性，有噪音，应该去掉。图中右边的部分表示中间宏块的运动向量和周围八个宏块的分别差值在一定阀值范围内的数量少于一定值时，则认为此宏块没有保持邻域性，有噪音，应该去除。
d.进一步优化运动向量。先对该帧中的运动向量进行聚类，根据聚类后每一类的分布特征来判断此类的运动向量属于相机运动还是对象运动，然后仅保留属于相机运动的聚类。如图2所示，图中左边的部分表示属于相机运动的宏块聚类分布情况，中间的表示对象运动的宏块聚类分布情况，右边的表示异常的情形。
e.建立相机参数模型求解运动参数。建立一个假设的相机参数方程组，将优化后的运动向量分别代入方程组中，再通过标准的数值线性代数方法来求解方程组中的未知参数。参数越多，模型越精确，但求解速度越慢。通常采用6参数的仿射模型u=a0x+a1y+a2v=a3x+a4y+a5]]>上式中的a0…a5均为未知参数，x、y为宏块中心的坐标，u、v为宏块的运动向量的两个分量。
(2)根据前一帧中的区域位置大小和相应的相机运动参数计算出下一帧中该区域所改变的位置和大小。将区域边界上的每点坐标带入到相机模型方程组中即可计算出该点的运动速度，也就可以计算出下一帧中该点所在的位置。
3.保存视频中的交互信息将每个热点交互区域的相关信息保存到附加数据文件中，相关信息包括1)该区域激活状态的开始时间、结束时间。
2)热点区域在激活状态中每一帧时的位置和大小。
3)区域的附加内容信息，文本包括文字颜色、大小、超链接等，图像包括所有象素点的信息，如果是直接从文件读取，则记录文件的路径地址。
4)该区域所对应的响应目标信息，可以是图像、音频、视频、网页或其它文件，记录文件的路径地址。
4.导出SMIL标准文件SMIL语言可以将音频、视频等内容按一定的顺序和位置组织好，并且支持加入链接区域层，这样就可以用SMIL语言写出能展现相同交互效果的多媒体文件，在所有支持SMIL标准的播放器上都可以播放。SMIL中<region>标签可以用来指定热点区域相应附加内容的显示位置和大小，<text>标签用来显示文字内容，<img>标签用来显示图像内容。<anchor>标签用来定义热点区域，其中start属性用来指定区域激活状态的开始时间，end属性用来指定结束时间，href属性指定响应目标文件的路径地址。通过这些语法功能，系统根据自身的交互数据文件便可以生成相应的SMIL文件。
本发明的播放具有热点区域的交互式视频的步骤如下1.读取视频相应的交互数据文件在交互数据文件中读取视频中每个热点交互区域的激活状态开始时间、结束时间、每一帧中的位置大小、附加内容信息、响应目标文件的路径地址等。
2.显示热点交互区域在显示每一帧时，找出当前所有处于激活状态的热点区域，分别以特定形式显示该区域的附加内容。为了提高查找激活区域的效率，可以在读入交互数据文件时，以帧序号为索引建立一个链表，每个序号后记录该时刻处于激活状态的热点区域。
3.判断用户的交互操作当用户鼠标在播放画面上点击时，在当前所有激活的热点区域中遍历判断出点击位置所属的区域，并做出该区域的相应目标响应。判断点是否在区域内采用的是计算机图形学中的基本算法交点计数法，原理是以判断点P为起点作一条水平射线，计数该射线与有界面边界的交点个数，根据交点个数来判断点是否在区域内。
实施例1如图6所示，本方法和系统在情景式虚拟旅游系统中的应用，在虚拟旅游中如果用户对所看到的景点感兴趣，想进一步观赏，则可以通过在视频上与景区热点区域交互来实现，下面详细说明该实例实施的具体步骤，如下(1)如图5所示，在旅游导游视频中添加热点交互区域信息，到达景点“岳王庙”开始出现的位置时暂停，用鼠标勾勒出一个矩形热点交互区域，添加附加文本内容“岳王庙”，给出“岳王庙”景点的相关介绍；并添加该区域的目标响应文件，即“岳王庙”的进一步观赏视频的文件路径；最后指定该热点区域激活的开始时间和结束时间。
(2)自动生成激活时间段内的其它帧中的“岳王庙”热点区域的位置和大小。
(3)将步骤(1)中标注的热点交互区域的相关信息保存到附加数据文件中。包括该区域激活的开始时间、结束时间，热点区域在激活状态中每一帧时的位置和大小，附加文本内容“岳王庙”，所对应的响应目标文件路径。
(4)如图6所示，当用户浏览到“岳王庙”景点所在路段时，系统读取该路段相应的交互数据文件。
(5)在视频播放时实时检测当前处于激活状态的热点区域，用户走到“岳王庙”景点附近，该热点区域被激活，画面上在特定位置开始显示文本“岳王庙”等附加内容，简介画面所示的景点。
(6)在热点区域处于激活状态时，若用户点击该区域，右下方的播放窗口即做出响应，开始播放“岳王庙”景点的具体介绍视频。
实施例2如图9所示，在视频播放中如果用户对画面中的人物不熟悉但想进一步了解，则可以通过在视频上与人物热点区域交互来实现，下面详细说明该实例实施的具体步骤，如下(1)如图8所示，在视频中添加热点交互区域信息，到达人物“李纪珠”开始出现的位置时暂停，用鼠标勾勒出一个矩形热点交互区域，添加附加文本内容“台湾知名人士李纪珠”，在用户观赏视频时给以提示；并添加该区域的目标响应文件，即“李纪珠”的图片简介的文件路径；最后指定该热点区域激活的开始时间和结束时间。
(2)自动生成激活时间段内的其它帧中的“李纪珠”热点区域的位置和大小。
(3)将步骤(1)中标注的热点交互区域的相关信息保存到附加数据文件中。包括该区域激活的开始时间、结束时间，热点区域在激活状态中每一帧时的位置和大小，附加文本内容“李纪珠”，所对应的响应目标文件路径。
(4)如图9所示，在视频播放时实时检测当前处于激活状态的热点区域，人物“李纪珠”出现时，该热点区域被激活，画面上在特定位置开始显示文本“台湾知名人士李纪珠”等附加内容，用以提示该人物的信息。
(5)在热点区域处于激活状态时，若用户想进一步了解“李纪珠”的相关情况，点击该区域，播放画面中则显示出“李纪珠”的简介。
上述描述只是为了说明和描述制作、播放具有热点区域的交互式视频的方法和系统。它不是详尽的描述，也不将本发明限制为所说明和描述的形式，显然，许多修改和变化也是可以的。对所属技术领域的专业人员显而易见的修改和变化也包括在附带的权利要求所定义的本发明的范围内。
权利要求
1.一种用于制作和播放具有热点区域的交互式视频的方法，其特征在于1)视频中的热点交互区域的添加用户指定若干帧中的热点交互区域的位置和大小，并确定每个区域的激活时间段和添加各区域相应的附加内容和响应目标信息，根据计算出的每帧中相机的运动参数，自动推算出激活时间段内其它帧中各区域的位置和大小；2)交互式视频的保存视频中的热点交互区域的标注信息以附加数据文件的形式加以保存，或将视频和交互数据相结合，导出为SMIL标准文件；3)交互式视频的播放视频播放时从相应的标注文件中读取热点区域信息，一旦当前时间处于热点区域的激活时间段内，视频中则显示出该区域的附加注释内容，用户在该区域内点击鼠标，则直接跳转到其相应的响应目标。
2.根据权利要求1所述的一种用于制作和播放具有热点区域的交互式视频的方法，其特征在于，所述的帧中的热点交互区域热点交互区域的形状可以是视频单帧画面大小范围内的任意的封闭几何图形；视频中的热点交互区域由用户自由指定，或由系统辅助自动生成。
3.根据权利要求1所述的一种用于制作和播放具有热点区域的交互式视频的方法，其特征在于，所述的区域相应的附加内容和响应目标信息视频中交互区域的附加显示内容是文本或者图像；当用户点击热点交互区域时，响应的目标文件可以是音频、视频、网页。
4.根据权利要求1所述的一种用于制作和播放具有热点区域的交互式视频的方法，其特征在于，所述的区域的激活时间段只有在指定的时间段内，热点交互区域才处于激活状态，才能显示附加内容和响应目标信息。
5.根据权利要求1所述的一种用于制作和播放具有热点区域的交互式视频的方法，其特征在于，所述的自动推算出激活时间段内其它帧中各区域的位置和大小的方法，包括如下步骤(1)计算出每一帧中相机的运动参数；(2)根据前一帧中的区域位置大小和相应的相机运动参数计算出下一帧中该区域所改变的位置和大小。
6.根据权利要求5所述的一种用于制作和播放具有热点区域的交互式视频的方法，其特征在于，所述的计算出每一帧中相机的运动参数的方法，包括如下步骤(1)从视频压缩文件中读取该帧的运动向量。(2)对运动向量进行归一化。将I帧、B帧、P帧和帧间编码、帧内编码、混合编码等这几种不同情形下的运动向量统一起来。(3)去除运动向量中的部分噪音。主要依据是运动向量的邻域性和变化时光滑性。(4)进一步优化运动向量。先对该帧中的运动向量进行聚类，根据聚类后每一类的分布特征来判断此类的运动向量属于相机运动还是对象运动，然后仅保留属于相机运动的聚类。(5)建立相机参数模型求解运动参数。建立一个假设的相机参数方程组，将优化后的运动向量分别代入方程组中，再通过标准的数值线性代数方法来求解方程组中的未知参数。
7.根据权利要求1所述的一种用于制作和播放具有热点区域的交互式视频的方法，其特征在于，所述的标注的信息包括1)该区域激活状态的开始时间、结束时间；2)热点区域在激活状态中每一帧时的位置和大小；3)区域的附加内容信息，文本包括文字颜色、大小、超链接，图像包括所有象素点的信息，如果是直接从文件读取，则记录文件的路径地址；4)该区域所对应的响应目标信息是图像、音频、视频或网页，记录文件的路径地址。
全文摘要
本发明公开了一种用于制作和播放具有热点区域的交互式视频的方法。它包括1)视频中的热点交互区域的添加；2)交互式视频的保存；3)交互式视频的播放。本发明在传统视频中加入了可交互因素，视频中的任意帧中的任意封闭区域都可添加热点交互信息，并且热点交互区域的位置和大小在视频播放中的改变可以通过相机的运动参数自动计算出来。视频播放期间，热点交互区域可实时接收用户的交互操作并做出相应的响应。视频中的交互信息以附加数据文件的形式加以保存。可将源视频文件和交互数据文件相结合，导出生成SMIL标准文件，在所有支持SMIL标准的播放器中都可正常运行。
文档编号H04N7/26GK1946163SQ20061005395
公开日2007年4月11日申请日期2006年10月25日优先权日2006年10月25日
发明者潘云鹤, 庄越挺, 吴飞, 翁建广, 陈铭申请人:浙江大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：潘云鹤;庄越挺;吴飞;翁建广;陈铭
技术所有人：浙江大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。