用于管理视频内容的方法和装置的制作方法

文档序号:6361062阅读:126来源:国知局
专利名称:用于管理视频内容的方法和装置的制作方法
技术领域
本发明涉及用 于管理视频内容的方法和装置,并且更具体地,但是非排它的,涉及用户可以向视频托管(hosting)站点上传视频内容以供其他用户访问的环境。
背景技术
在视频托管网站中,诸如YouTube, Google Video (谷歌视频)和Yahoo ! Video(雅虎!视频),可由用户将视频内容上传到站点并通过搜索引擎使其它用户能够获得所述视频内容。可以相信的是,当前的web视频搜索引擎基于用户录入的特定文本查询,根据视频内容的相关性分数来提供经过排名的搜索结果的列表。然后,用户必须考虑该结果以查找感兴趣的视频或多个视频。由于用户容易向托管网站上传视频,获得视频以及再次发布经过一些修改的视频,视频搜索结果中潜在地存在大量复制、或相近的复制、内容。举例来说,复制的视频内容可包括具有不同的格式、编码参数、诸如颜色或亮度的光度变化、用户编辑和内容修改的视频。这样可能使得用户查找自己实际所期望的内容变得困难或不方便。例如,基于来自YouTube, Google Video (谷歌视频)和Yahoo ! Video (雅虎!视频)的查询的样本,可以发现在搜索结果中列出了平均有超过27%的近似复制视频,对于更流行的视频,结果中会有更多的复制。假设搜索结果的很高百分率的复制视频,用户必须花费大量时间对其进行筛选以找到他们所需要的视频,并且必须重复地观看那些已经浏览过的相似视频的拷贝。当用户从网站搜索视频时,他们通常对第一屏上所示出的结果感兴趣。复制的结果会降低视频搜索、获取和浏览的用户体验。此外,这些复制的视频内容增加了网络存储开销和通过网络传递复制的视频内容的开销。

发明内容
根据本发明的第一方面,一种管理视频内容的方法,包括使特定视频文件具有描述指定视频文件的内容的至少一个关联标签。分析所述至少一个关联标签同与数据存储中的多个视频文件相关联的标签之间的语义关系。使用分析的结果从多个视频文件中选择视频文件的集合。将指定视频文件的内容与所选集合的内容进行比较,以确定内容的相似度。将所述确定的结果用于更新与数据存储中视频文件的相似度相关的信息。通过使用来自标签的语义信息来识别可能具有相似内容的这些视频文件,其允许从在通过将指定视频与所述集合中包括的那些视频进行比较的复制检测之前可用的总数的文件中选择用于进一步处理的视频文件的集合。通过减少必须考虑的内容的数量,使得更为有效并且更少资源集中地应用视频复制检测技术。特别有益的是在数据存储中保持与视频文件的相似度相关的信息,以用于改善视频搜索结果,且其还可能有益于其他目的,例如,用于对存档内容进行组织。视频复制和相似度检测在其潜在的搜索、主题追踪和版权保护中具有潜力。标签可以是用户生成的。例如,当用户向托管网站上传视频文件时,可以邀请他们添加关键词或其他描述符。存在对用户使用准确的且提供有用信息的标签的激励,使得可能希望查看该内容的其他用户能够方便的找到该内容。然而,添加标签或多个标签的用户不需要是向数据存储添加视频文件的人。例如,可能为人分配对已经存档的内容进行索引的工作。在一种方法中,提供标签而是由用户分配标签时可能涉及一定程度的自动化,但这样可能趋于提供更低价值的语义信息。当要向数据存储添加指定的视频文件时,可以应用所述方法。然而,其可以用于管理之前已经添加到数据存储中的视频内容,以便举例来说,对与数据存储所保持的视频内容的相似度有关的信息进行改进。在一个实施例中,数据存储中包括的视频文件中的任意一个可以被视为指定的视频文件并且用作查找数据存储中的相似视频文件的查询。根据本发明的另一方面,一种被编程或配置为执行根 据第一方面的方法的设备。


现在将仅通过实例并且参考附图来描述本发明的一些实施例,其中图I示例性地示出了根据本发明的实现方式;图2示例性地示出了图I的实现方式的视频复制检测步骤的一部分。
具体实施例方式参照图1,视频托管网站包括视频数据库1,其保持视频内容、与视频内容相关联的标签以及与内容的关系相关的信息。当用户上传了新的视频2时,他们还可以将标签分配给视频内容。标签是以某种方式描述视频文件的内容的关键词或术语。标签提供了视频内容的个性化查看并且因此提供了视频语义信息的一部分。第一步是使用标签来选择视频数据库I中已经包括的视频,其中所述视频在语义上与新上传的视频I相关。这将通过标签关系处理器3来执行,其接受与新视频2相关联的标签和与来自数据库I的之前上传的视频相关联的标签。由于用户通常会为视频内容分配多于一个的标签,因此还需要确定标签之间的关系。通常,存在两种类型的关系AND (和)或者OR (或)。对标签应用不同的关系给出不同的结果。在标签之间仅应用AND关系,将促使选择与标签中的每一个相关联的那些视频。这可能导致排除实际上与新上传的视频在语义上相关的一些视频。例如,如果将新上传的视频标记为“Susan Boyle”(苏珊大妈)和“from Scotland”(来自苏格兰)并且应用AND关系,则所选的视频必须将“Susan Boyle”和“from Scotland”这两者作为相关联的标签。由于标签“from Scotland”和“Susan Boyle” 一起出现的频率非常低,所以所选择的视频集合不包括仅利用“Susan Boyle”进行标记的许多视频。然而,后者在语义上最可能与新上传的视频相关。在标签之间仅应用OR关系,可能导致选择比所需视频更多的视频。例如,如果将新上传的视频标记为“apple”和“ipod”,则所选的集合可能包括与“iphone”相关的视频和包括与“apple-fruit (苹果-水果)”相关的视频,但是后者在语义上与新上传的视频不相关。
在3处进行标签关系分析,语义信息用于提供对用于进一步处理的视频文件集合的有益选择,以检测复制或相近复制。为了在多个标签之间导出正确的关系,基于来自同之前添加到数据库I的现有视频文件相关联的大量标签的集合知识(collectiveknowledge),来测量标签同现(cooccurrence)信息。标签同现包含用于在语义域中捕捉标签相似度的有益信息。当标签一起出现的概率较高,高于指定值时,意味着使用AND关系来选择通过多个标签获取的视频。当标签同现的功率较低,低于指定值时,基于多个标准来选择与这些标签相关联的视频,所述标准例如是标签出现的频率、标签的流行度、或其它合适参数。这样的选择有助于降低要被考虑的视频文件的总数。因此,对于特定的新上传的视频,如果存在用户分配的多于一个的标签,则由处理器3导出标签之间的关系。由于在视频托管网站中存在大量被标记的视频,来自现有视频的标签提供了用于确定标签关系的集合知识。根据标签关系的测量来计算标签同现频率。存在用于计算标签同现的多种方法。例如,使用方程
权利要求
1.一种管理视频内容的方法,包括 获取具有描述指定视频文件的内容的至少一个关联标签的指定视频文件; 分析所述至少一个关联标签和与数据存储中的多个视频文件相关联的标签之间的语义关系; 使用分析的结果从多个视频文件中选择视频文件的集合; 将指定的视频文件的内容与所选集合的内容进行比较,以确定内容的相似度;以及 使用确定的结果来更新与数据存储中视频文件的相似度相关的信息。
2.根据权利要求I所述的方法,其中使用标签同现的概率来导出所述语义关系。
3.根据权利要求2所述的方法,在概率大于指定值的情况下,在进行集合选择时对至少两个标签应用AND操作符;并且,在概率小于指定值的情况下,使用一个或多个其它标准来进行集合选择。
4.根据权利要求3所述的方法,其中其它标准包括以下内容中的至少一个标签出现的频率,和标签的流行度。
5.根据前述任意权利要求所述的方法,其中由用户将指定的视频文件添加到数据存储中。
6.根据权利要求5所述的方法,其中所述用户分配用于与指定的视频文件相关联的至少一个标签。
7.根据前述任意权利要求所述的方法,包括响应于搜索查询,使用与数据存储中视频文件的相似度相关的信息来提供结果。
8.根据前述任意权利要求所述的方法,包括 安排视频关系图内所选集合中包括的视频文件,以指示所选集合中视频文件的重叠内容;并且使用视频关系图来确定所选集合与指定视频文件之间的内容相似度。
9.根据权利要求8所述的方法,其中在安排视频关系图内所选集合中包括的视频文件之后,将指定视频文件的内容和所选集合中的非重叠内容进行比较。
10.根据权利要求8或9所述的方法,包括更新视频关系图,以包括来自指定视频文件的信息。
11.根据权利要求2所述的方法,包括使用下述方程来计算标签同现的概率
12.根据权利要求2所述的方法,包括使用Jaccard系数来计算标签同现的概率
13.一种被编程或被配置为执行包括以下步骤的方法的设备 获取具有描述指定视频文件的内容的至少一个关联标签的指定视频文件; 分析所述至少一个关联标签和与数据存储中的多个视频文件相关联的标签之间的语义关系; 使用分析的结果从多个视频文件中选择视频文件的集合; 将指定的视频文件的内容与所选集合的内容进行比较,以确定内容的相似度;以及 使用确定的结果来更新与数据存储中视频文件的相似度相关的信息。
14.根据权利要求13所述的设备,所述设备被编程或被配置为使用标签同现的概率来导出所述语义关系。
15.根据权利要求14所述的设备,所述设备被编程或被配置为,在概率大于指定值的情况下,在进行集合选择时对至少两个标签应用AND操作符;并且,在概率小于指定值的情况下,使用一个或多个其它标准来进行集合选择。
16.根据权利要求15所述的设备,其中其它标准包括以下内容中的至少一个标签出现的频率,和标签的流行度。
17.根据权利要求13至16任一项所述的设备,其 中由用户将指定的视频文件添加到数据存储中。
18.根据权利要求17所述的设备,其中所述用户分配用于与指定的视频文件相关联的至少一个标签。
19.根据权利要求13至18中任一项所述的设备,所述设备被编程或被配置为响应于搜索查询,使用与数据存储中视频文件的相似度相关的信息来提供结果。
20.根据权利要求13至19中任一项所述的设备,所述设备被编程或被配置为包括以下步骤 安排视频关系图内所选集合中包括的视频文件,以指示所选集合中视频文件的重叠内容;并且使用视频关系图来确定所选集合与指定视频文件之间的内容相似度。
21.根据权利要求20所述的设备,所述设备被编程或被配置为包括以下步骤 在安排视频关系图内所选集合中包括的视频文件之后,将指定视频文件的内容和所选集合中的非重叠内容进行比较。
22.根据权利要求20或21所述的设备,所述设备被编程或被配置为包括步骤更新视频关系图,以包括来自指定视频文件的信息。
23.根据权利要求13所述的设备,所述设备被编程或被配置为使用下述方程来计算标签同现的概率
24.根据权利要求13所述的设备,所述设备被编程或被配置为使用Jaccard系数来计算标签同现的概率
25.一种存储机器可执行程序的数据存储介质,所述机器可执行程序用于执行管理视频内容的方法,包含以下步骤 获取具有描述指定视频文件的内容的至少一个关联标签的指定视频文件; 分析所述至少一个关联标签和与数据存储中的多个视频文件相关联的标签之间的语义关系; 使用分析的结果从多个视频文件中选择视频文件的集合; 将指定的视频文件的内容与所选集合的内容进行比较,以确定内容的相似度;以及 使用确定的结果来更新与数据存储中视频文件的相似度相关的信息。
全文摘要
通过分析指定视频文件的至少一个关联描述标签和与数据存储中的视频文件相关联的标签之间的语义关系,管理数据存储中存储的视频文件。使用分析的结果在所述数据存储中存储的视频文件中选择视频文件的集合。将指定视频文件的内容与所选集合的内容进行比较以确定内容的相似度。响应于搜索查询,可使用确定的结果来更新与数据存储中视频文件的相似度相关的信息,例如,在提供结果时使用所述信息。
文档编号G06F17/30GK102959542SQ201180032219
公开日2013年3月6日 申请日期2011年6月24日 优先权日2010年6月30日
发明者Y·任, F·常, T·伍德, R·恩索尔 申请人:阿尔卡特朗讯公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1