一种基于用户轨迹的多媒体合成方法

文档序号:6604288阅读:185来源:国知局
专利名称:一种基于用户轨迹的多媒体合成方法
技术领域
本发明涉及一种基于用户轨迹的多媒体合成方法,属于定位与视频图像处理交叉 技术领域。
背景技术
近年来,通信电子和多媒体技术的快速发展,越来越多的影像记录装置如摄像机、 数码相机等性能不断提高的同时,价格也在不断降低,逐渐成为人们日常生活中的普通消 费品。这些可以随时或实时记录特定场景中人们的活动过程,在提高人们生活质量、改进公 共安全等方面发挥了巨大的作用。在已有的大量的多媒体资料的基础上,以场景内用户移动轨迹为中心,组合相关 的多媒体资料形成新的数字内容,在许多领域有广阔的应用前景。例如在旅游、婚礼、会议 等场景中,可以将场景相关背景资料,场景内摄像头的拍摄视频和用户相机所拍的照片,自 动生成一段与用户活动过程一致的留念视频,形成一份珍贵的纪念品。该技术涉及用户移动轨迹收集、多媒体内容检索和多媒体合成等多项技术。现有 技术可以收集用户的移动轨迹,例如,GPS装置可以记录用户在一段时间内位于不同位置的 经纬度,然后可将此信息作为一个轨迹记录,可方便用户了解其在场景内所经过的路线。但 如何根据用户的移动轨迹检索相关的多媒体内容并加以合成,是目前公开的技术无法实现 的。现有的多媒体检索技术基本上可以分成两类,一种是基于文本的检索,检索效率 取决于对视频的文字描述,但很难对视频进行准确全面的描述;二是基于内容的检索,就 是根据视频的内容和上下文关系,对大规模视频数据库中的视频数据进行检索。它在没有 人工参与情况下,自动提取和描述视频内容,其难点在于相似性计算的标准,其实现效果较 差。这些技术的本质都是为视频添加含有检索目标信息的标签,难以实现对某一目标在多 来源多媒体内容中有效的检索。在多媒体内容合成方面,一些技术根据特定图片文件格式中嵌入的时间和位置信 息,如使用JPEG文件的EXIF域,将多个图片合成为展示用户活动过程的图片序列。而现有 的视频合成技术大多集中在使用内容合成或特效制作的方式生成新的视频,例如虚拟演播 室,更简单的有将多个视频输入源通过多路选择输出调整,将多路视频合并为一段视频。目 前还没有公司或机构能实现对某个具体目标移动轨迹相关视频的合成。

发明内容
本发明的目的是以场景内用户移动轨迹为中心,组合相关的多媒体资料形成新的 数字多媒体内容。本文提出了一种基于时间和空间标签的多媒体合成方式所有的多媒体 资料都与空间区域和时间相关联,通过用户轨迹检索得到多媒体资料,经过自动编辑与合 成,形成新的数字多媒体内容。基于用户轨迹的多媒体合成方法,包括以下几个步骤
步骤一建立空间区域资料的索引结构;
将目标场景相关的多媒体资料根据场景中的空间区域划分建立索引,使通过给定 空间区域能够检索到与包含该区域的空间区域相关联的多媒体资料。步骤二 建立监控视频资料的索引结构;将监控设备与空间区域相关联建立索引。步骤三收集用户移动轨迹;通过定位装置收集用户轨迹并传给服务器。步骤四接收用户拍摄的图片资料;用户将自己拍摄的照片上传到服务器。步骤五根据用户的移动轨迹检索多媒体内容;根据用户移动轨迹,检索空间区域资料索引和监控视频资料索引与用户上传照 片,得到符合用户在目标场景内移动路线的多媒体片段序列。步骤六多媒体资料合并生成视频文件。将多个独立的多媒体片段序列按时间组合并自动剪辑,得到包含音频和视频内容 的完整视频文件。本发明的优点在于(1)本发明所得到的数字视频能直接表现用户移动的路线和每个重点目标场景内 的行为,同时可以将用户所配相机和相关说明结合起来。在安防监控领域中的用户行为跟 踪,旅游景区制作个性化游客纪念视频等方向都有广泛的应用。(2)对用户来说1)很强的纪念意义。能较好重现在景区/会议内的表现,方便用 户对曾经的行为进行了解和回味,实现真正的纪念意义;2)有利于更好地了解所参加的会 议/旅游,在纪念品中包含的会议相关说明/景区宣传片段和语言解说,便于用户进一步了 解3)避免了会议/景区宣传资料的盗版,因为每个纪念品只是根据用户的移动轨迹合成的 个性化视频。(3)对旅游、安保、会议公司而言,更好的实现安全保障。


图1是本发明的方法流程图;图2是本发明步骤五中根据位置与时间坐标检索多媒体资料的说明图;图3是本发明步骤六中基于景区地图的游客移动视频生成图;图4是本发明实施例的流程图。图中
具体实施例方式下面将结合附图和实施例对本发明作进一步的详细说明。本发明是一种基于用户轨迹的多媒体合成方法,流程如图1所示,包括以下几个 步骤步骤一建立空间区域资料的索引结构;将目标场景根据地理空间区域和功能划分为若干个空间区域,空间区域的几何模型为空间区域中点的空间位置集合和空间区域半径。如果空间区域有相关的视频、音频、文 字信息,则将相关的视频、音频、文字信息与空间区域中的地理位置建立映射关系,构建出 空间区域资料的索引结构,通过给定空间区域能检索到包含该区域的空间区域相应的多媒 体资料;步骤二 建立监控视频资料的索引结构;监控视频资料包括两类,一种为空间区域内固定摄像头拍摄视频,另外一种为空 间区域内工作人员携带摄像机拍摄的视频。对于空间区域内固定摄像头,预先采集空间区域内固定摄像头拍摄有效空间区域 的空间位置,然后建立固定摄像头与拍摄有效空间区域的索引表。通过检索空间区域内固 定摄像头所拍摄有效空间区域索引表,得到固定摄像头拍摄视频的位置与时间信息。对于 空间区域内工作人员携带摄像机拍摄,空间区域内工作人员携带的摄像机上安装定位装 置,通过定位装置得到摄像机拍摄的视频的位置与时间信息。每个监控视频资料都关联一个空间区域和时间坐标,监控视频资料通过网络传输 到服务器。步骤三收集用户移动轨迹进入目标场景的用户携带一个定位装置,定位装置内设有微处理器、定位模块和 存储模块,每隔一个周期触发一个定时器,定时读取定位模块得到的空间位置和时间坐标, 然后将空间位置和时间坐标存入定位装置的存储模块中,形成了一个时间和空间位置记录 序列,表示用户在目标场景内的移动轨迹。该轨迹可通过无线通信技术传输到服务器,或当 用户归还设备后通过有线方式传到服务器中。步骤四接收用户拍摄的图片资料;如果用户有自身携带数码相机所拍摄的图片,将照片上传给服务器,如果相机有 定位功能,可通过图片格式信息得到图片的拍摄时间和拍摄地点的空间位置,否则,将图片 的拍摄时间与步骤三得到的移动轨迹的时间坐标进行匹配,获取拍摄图片的空间位置,最 后将每张照片与一组空间位置和一个时间坐标相关联,建立索引。步骤五根据用户移动轨迹检索多媒体内容;根据用户移动轨迹中的空间位置检索步骤一中与空间位置所在空间区域对应的 背景资料,根据用户移动轨迹中的空间位置和时间坐标,检索步骤二中的监控视频资料,检 索步骤四中的照片,最后得到符合用户在目标场景内移动轨迹的多媒体片段序列。具体为假定用户的移动轨迹(t”X” yi, ,(t2,x2,y2, h2),(t3,x3,y3, h3)…… 其中,t为时间,x,y,h分别为该位置点的经度、纬度和海拔高度;对于第一个时间点(t” Xl, 、),根据步骤一中的索引结构搜索包含空间位置(Xl,Yl,。的空间区域的背景资 料,根据步骤二中的索引结构搜索包含空间位置(x^yphi)的空间区域对应的监控视频,并 选出满足{监控视频起始时间<、<监控视频终止时间}的监控视频资料,搜索步骤四中 用户拍摄图片,检索出图片的空间位置和时间坐标分别满足di-Xu <x< Xl+Xu, yi-yu < y < Yi+Yu, hrhu < h < Vlv t-tu < t < t+tu 的图片,xu,yu, hu,tu 表示很小的 x 变化,y 变 化,h变化和时间变化,由GPS精度和定位设备定位周期决定,然后得到视频片段的第一个 序列filei,然后搜索下一个时间点(t2,x2, y2, h2),直到完成最后一个,得到符合目标用户 在目标场景内移动轨迹相对应的所有多媒体片段序列。
步骤六多媒体资料合并生成视频文件;将步骤五中检索到的多个独立的多媒体片段序列,根据时间坐标顺序合成一个包含音频和视频内容的完整视频文件,根据时间坐标顺序和资料的类型进行取舍和剪切, 并通过多媒体内容分析、特征提取和效果合成技术来优化视频质量,得到清晰度高,内容准 确,艺术效果好的视频。实施例本文以旅游场景作为实施例来说明本发明。由于旅游场景极少存在同一经纬度坐 标时海拔高度不同景点不同的现象,本文将空间区域简化,用平面区域表示,即经纬度坐标 集合和区域半径;将空间位置简化,用平面坐标表示,即经纬度坐标。步骤一中,将整个景区 范围根据景点区域进行划分,可以将景区介绍的对象包括整个景区的介绍、景点的介绍。它 们都可以用一个地理区域范围来表示所描述的景区目标,例如可以用一个圆形封闭区域来 描述一个景点,而可以用一个多边形来描述整个景区。将每个区域的相关视频、音频、文字信息等与地理位置有关的资料与其地理区域 建立映射关系,即建立区域资料的索引结构,使通过给定地理区域能检索到相应的介绍资 料;映射关系是一个索引结构表,每个索引结构是由一个区域和一个指定的视频文件名及 其相应的描述,文件名由该文件在文件系统上的访问路径组成,例如在Iinux系统上可以 表不为 /data/video/mountain. mpg0这部分工作需要收集区域划分、区域相关资料和区域模型的坐标范围,并写入索 引文件。这种索引的逻辑结构可表示为(区域1,视频类型,视频文件名,开始时间,终止时间)(区域1,音频类型,解说文件名,开始时间,终止时间)(区域2,视频类型,视频文件名,开始时间,终止时间)在步骤二中,目前的多数旅游区域,都在特定位置部署了一定数量的固定摄像头, 不断拍摄当前监控范围内的视频;另外部分区域,可能会有工作人员携带一定数量的摄像 机进行摄像,这些所拍摄的视频都通过网络传输到服务器。通过记录固定摄像头所拍摄有 效区域的位置信息,并在移动摄像机上安装定位装置,同时利用摄像装置上带有的拍摄时 间记录,可以将拍摄的视频片段都关联一个位置标签和时间标签。为了加快检索速度,将固 定摄像头得到的时间上连续的视频切割为固定时间长度的小段,与移动摄像机得到的有开 始终止时间的视频片段一起,建立形如(EID,LOCATION,STIME,ETIME,SPATH)的索引结构。 其中EID为摄像装置编号,LOCATION为设备拍摄坐标范围,STIME,ETIME表示视频开始时 间与终止时间,SPATH为视频文件存放位置。对于固定摄像头,有如下两种方法给其所拍摄的视频打上位置和时间标签1)让 工作人员通过手持GPS移动到每个摄像头位置处,记录并保存位置与摄像头ID对应信息。 根据该对应表,在中央服务器一边接收摄像头传来的视频,一边保存相应的位置和时间标 签信息;2)给每个摄像头另外安装一个GPS模块,通过高度、位置、角度信息采用几何方法 计算监控区域,在传输监控视频的同时也传输对应的位置和时间标签信息。在步骤三中,进入景区用户携带一种定位模块(如GPS,RFID,ZIGBEE等其中之一, 根据景区选择),对用户的移动进行采样。GPS采用测量出接收天线至卫星的伪距离和距离 的变化率,解调出卫星轨道参数等数据,计算出用户所在地理位置的经纬度、高度等信息。ZIGBEE则通过收集通信范围内预先部署的锚节点的信号强度和标识,计算所在地理位置。每个位置信息包括时间t和经纬度坐标(X,y),位置序列表示为(t1; X1, Y1),(t2, X2, y2)。假设用户移动速度为lm/s,则使用IOs的周期能以足够的精度记录用户的移动 轨迹,误差不超过10m。用户在景区内的最大停留时间为10小时,每个位置信息使用8个 字节标识,时间信息使用4个字节表示,则定位装置所需存储空间最大为3600 * 12 = 43200byteso
在步骤四中,用户可以通过网络将相机中的照片上传到指定的服务器供视频合成 程序处理,也可以通过读卡器直接读取。如果游客自己的数码相机具有GPS定位功能,则相 机会将每张照片的拍摄时间和拍摄位置存储在的JPEG图片格式的EXIF位置区,从而自动 为每张照片打上时间位置标签。如果相机没有GPS功能,则由于游客配备GPS装置,记录了 用户时间与位置的对应关系,通过匹配照片的时间信息和用户的路线信息,可以确定照片 的位置标签。该步骤建立索引形式的为(LOCATION,TIME,SPATH),其中LOCATION为地理坐 标(X,y),TIME为拍摄时间,SPATH为用户上传相片服务器上保存的路径。在步骤五中,首先检索出与用户路线对应的宣传视频,扫描步骤三所得用户位置 序列,判断前后连续的几个位置是否属于同一个宣传视频片段或语音解说所描述的地理区 域,即判断属于步骤一中所建立索引表中的哪个封闭区域,进而提取相应的视频片段;然后,根据用户位置序列检索监控视频中的相关视频,假定每个摄像头的有效 拍摄半径为R,其所在位置为(χο,yo),则如图2所示,可计算出摄像头的拍摄区域为{(χ, y) I (X-X0)2+(y-y0)2 < R2}。假定用户从时间、到时间、经过拍摄区域,该摄像头所拍摄的 视频在时间、到、内的片段被提取出来。尽管由于用户位置采样周期原因,可能在用户进 入拍摄区域时,并没有位置信息,但这种误差控制在定位周期与用户移动速度(按之前估 算为10m)的乘积范围内。对于移动摄像头,由于其拍摄镜头并不是全向,因此提取到的当 前视频可能并没有用户镜头,为此,可以要求景区工作摄像师当发现在拍摄范围内有游客 出现时,将镜头全向移动拍摄,保证所有拍摄半径内的游客可以出现在拍摄视频中,这种方 式还避免了当游客静止不动时,视频画面单一导致最终留念视频质量降低的问题。另外,此 处的拍摄半径并不是指镜头所能拍摄的最大范围,这个数值往往很大,而是根据拍摄质量、 以及对视频中的人物清晰度等约束条件内所定义的有效拍摄区域。其次,需要根据用户的位置序列提取相应的照片,按照时间顺序依次扫描用户的 位置序列,当发现照片的位置标签(xp,yp)与用户当前位置(xu,yu)很接近时则提取该照片, 即(Xp-Xu)2+(yp_yu)2 < σ},σ是给定的偏差范围。该步骤所得结果的是一个包含文件名,文件类型,抽样坐标和时间的序列,如</data/video/mountain, mpg, intro,x1 y” tx> ;〈/data/camera/cl-tl_t2. rm,video, X2, J2, t2></data/uload/picl00324_123. jpeg,pic, x3,y3,t3>〈/data/camera/cl-tl_t2. rm, video, x3,y3,t3></data/video/moutain. mpg,intro, X4, y4,t4>〈/data/camera/cl-tl_t2. rm, video, X4, y4,t4></data/camera/cl-t2-t3. rm, video, x5,y5,t5>获得区域mountain简介,t2获得摄像机cl_tl_t2· rm视频,并延续到t3,t4。t3获得用户上传的拍摄照片。t4获得mountain简介。t5获得摄像机拍摄Cl-t2_t3. rm视频 片段。tn表示时间点η。为了提高视频欣赏价值,可以在视频序列中加入用户在景区内的移动轨迹视频, 如图3所示,在某景区,用户从西门进,从南门出,在以地图为背景的视频上,代表用户的点 不断从一个景点移动到另一个景点。还可以将照片进行一些动态效果,如旋转、飞入飞出、
百叶窗效果等。
最后,在景区地图信息基础上,根据用户在景区内的移动轨迹数据,生成用户的移 动视频。步骤六中,如图4所示,将提取的各种视频和音频片段按照时间顺序放置在时间轴 上,同时加入背景音乐,并根据一定的艺术加工方法重新编排一个小时间窗口内的片段,但 不改变整体的时间顺序。例如通过分析视频内容,确定视频所拍摄对象,重新编排其顺序, 增强美感。通过利用地图生成的视频放在每组关于一个景点的视频内容之前,表示用户移 动到该位置。通过分析视频内容或根据整个视频时间长度约束,去掉或压缩拍摄质量较低 或内容质量较低(例如画面基本静止不动)的视频片段。还可以通过识别照片中的用户人 脸,尽可能保留摄像头拍摄的关于用户的视频。通过排列视频,保证语音解说时间内,其所 描述的景点或其他对象正好对应。
权利要求
一种基于用户轨迹的多媒体合成方法,其特征在于,包括以下几个步骤步骤一建立空间区域资料的索引结构;将目标场景根据空间区域和功能划分为若干个空间区域,空间区域的几何模型为空间区域中点的空间位置集合和空间区域半径;如果空间区域有相关的视频、音频、文字信息,则将相关的视频、音频、文字信息与空间区域中的地理位置建立映射关系,构建出空间区域资料的索引结构,通过给定空间区域能检索到与包含该区域的空间区域相应的多媒体资料;步骤二建立监控视频资料的索引结构;场景内部署的监控设备都关联一个空间区域,采集的视频资料关联到对应的空间区域和时间坐标,监控视频资料通过网络传输到服务器;步骤三收集用户移动轨迹;进入目标场景的用户携带一个定位装置,定位装置内设有微处理器、定位模块和存储模块,每隔一个周期触发一个定时器,定时读取定位模块得到的空间位置和时间坐标,然后将空间位置和时间坐标存入定位装置的存储模块中,形成了一个时间和空间位置记录序列,表示用户在目标场景内的移动轨迹。将移动轨迹传到服务器中;步骤四接收用户拍摄的图片资料;如果用户有自身携带数码相机所拍摄的图片,将照片上传给服务器,如果相机有定位功能,可通过图片格式信息得到图片的拍摄时间和拍摄地点的空间位置,否则,将图片的拍摄时间与步骤三得到的移动轨迹的时间坐标进行匹配,获取拍摄图片的空间位置,最后将每张照片与一组空间位置(x,y,h)和一个时间坐标(t)相关联,建立索引,其中x,y,h分别为该位置点的经度、纬度和海拔高度;步骤五根据用户移动轨迹检索多媒体内容;根据用户移动轨迹中的空间位置检索步骤一中与空间位置所在空间区域对应的多媒体资料,根据用户移动轨迹中的空间位置和时间坐标,检索步骤二中的监控视频资料,检索步骤四中的照片,最后得到符合用户在目标场景内移动轨迹的多媒体片段序列;步骤六多媒体资料合并生成视频文件;将步骤五中得到的多个独立的多媒体片段序列,根据时间坐标顺序合成一个包含音频和视频内容的完整视频文件,根据时间坐标顺序和资料的类型进行取舍和剪切,并通过一般多媒体内容分析、特征提取和效果合成技术来优化视频质量。
2.根据权利要求1所述的一种基于用户轨迹的多媒体合成方法,其特征在于,所述的 步骤二中,监控视频资料包括两类,一种为空间区域内固定摄像头拍摄视频,另外一种为空 间区域内工作人员携带摄像机拍摄的视频;对于空间区域内固定摄像头,预先采集空间区域内固定摄像头拍摄有效空间区域的空 间位置,然后建立固定摄像头与拍摄有效空间区域的索引表,通过检索空间区域内固定摄 像头所拍摄有效空间区域索引表,得到固定摄像头拍摄视频的位置与时间信息;对于空间 区域内工作人员携带摄像机拍摄,空间区域内工作人员携带的摄像机上安装定位装置,通 过定位装置得到摄像机拍摄的视频的位置与时间信息。
3.根据权利要求1所述的一种基于用户轨迹的多媒体合成方法,其特征在于,所述的 步骤三中,用户携带定位模块中存储的空间位置和时间坐标,通过无线方式传送至服务器或者当用户归还设备后通过有线方式传到服务器。
4.根据权利要求1所述的一种基于用户轨迹的多媒体合成方法,其特征在于,所述的 步骤五具体为选出用户的移动轨迹UpXpyph1), (t2,x2,y2,h2),(t3,x3,y3,h3)……其中, t为时间;对于第一个时间点(、,\,71,h),搜索步骤一中包含空间位置(Xpy1A1)的空间 区域的背景资料,搜索步骤二中所有包含空间位置(X1^ph1)的空间区域,监控视频起始时 间<、<监控视频终止时间的监控视频资料,搜索步骤四中用户拍摄图片,检索出图片的 空间位置和时间坐标分别满足x「xu < χ < Xl+Xu, Y1-Yu < Y < Yi+Yu' hrhu < h < hi+K, t-tu < t < t+tu的图片,xu,yu,hu,tu表示很小的χ变化,y变化,h变化和时间变化,由GPS 精度和定位设备定位周期决定,然后得到视频片段的第一个序列Hle1,然后搜索下一个时 间点(t2,x2, y2, h2),直到完成最后一个,得到符合目标用户在目标场景内移动轨迹的所有 多媒体片段序列。
全文摘要
本发明公开了一种基于用户轨迹的多媒体合成方法,包括以下几个步骤,步骤一建立场景中空间区域资料的索引结构;步骤二建立监控视频资料的索引结构;步骤三收集用户移动轨迹;步骤四接收用户拍摄的图片资料;步骤五根据用户的移动轨迹检索多媒体内容;步骤六多媒体内容合成。以场景内用户移动轨迹为中心,组合相关的多媒体资料形成新的数字内容。在安防领域实现用户行为跟踪,旅游景区制作个性化游客纪念视频等方向都有广泛的应用。
文档编号G06F17/30GK101867730SQ20101020187
公开日2010年10月20日 申请日期2010年6月9日 优先权日2010年6月9日
发明者宋峥, 熊永平, 王文东 申请人:马明
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1