从数字视频文件搜索和提取数字图像的制作方法

文档序号：6333327阅读：282来源：国知局

专利名称：从数字视频文件搜索和提取数字图像的制作方法
专利说明背景本发明一般涉及用于处理和播放视频文件的设备。电子形式的视频信息可由数字多用盘(DVD)播放器、电视接收机、电缆盒、机顶盒、计算机以及MP3播放器来播放，这里列举了几个示例。这些设备作为具有不可分解图像元素的原子单元来接收视频文件。附图简述

图1是根据一个实施例的装置的描绘；图2是一个实施例的流程图；以及图3是根据一个实施例的元数据架构的描绘。详细描述根据一些实施例，数字视频文件可被拆分成组成描绘数字图像。这些数字图像可与数字视频文件的其余部分分开并以各种方式来操纵。在一些实施例中，数字视频文件可预编码有元数据以促成该操作。在其他实施例中，在制作出视频文件之后，可对其进行分析和处理以开发出这种信息。例如，也可以使用与数字视频文件相关联的信息，包括相关联的文本(包括不是数字视频文件一部分的字幕)。在另一个实施例中，在针对特定类型的对象搜索数字视频文件的过程中，可实时地在数字视频文件内标识出这些对象。参照图1，根据一个实施例，计算机10可以是个人计算机、移动因特网设备(MID)、服务器、机顶盒、电缆盒、视频回放设备(诸如DVD播放器)、摄像机、或电视接收机，这里列举了一些示例。计算机10有能力处理视频文件以供播放、供进一步操作、或供存储，这里列举了一些示例。在一个实施例中，计算机10包括耦合到总线14的编码器/解码器(CODEC) 12。总线14还耦合至视频接收机16。视频接收机可以是广播接收机、电缆盒、机顶盒、或媒体播放器(诸如DVD播放器)，这里列举了几个示例。在一些情形中，可由元数据接收机17与接收机16分开地接收元数据。由此，在使用元数据的一些实施例中，可随数字视频文件一起接收元数据，而在其他实施例中，可在带外提供元数据供分开的接收机(诸如元数据接收机17)接收。总线14在一种架构中可耦合至芯片组18。芯片组18耦合至处理器20和系统存储器22。在一个实施例中，提取应用M可被存储在系统存储器22中。在其他实施例中，提取应用可由CODEC 12执行。在其他实施例中，提取序列可在硬件中实现，例如由CODEC 12 实现。图形处理器(gfxU6可耦合至处理器20。因此，在一些实施例中，提取序列可从数字视频文件提取视频图像。数字视频文件中内容的本质涵盖电影、广告、剪辑、电视广播、以及网播，这里给出几个示例。该序列可在硬件、软件、或固件中执行。在基于软件的实施例中，可通过由处理器、控制器或计算机(诸如处理器20)执行的指令来完成该序列。这些指令可存储在合适的存储中，包括半导体存储器、磁存储器或光学存储器，作为一个示例诸如系统存储器22。因此，诸如存储之类的计算机可读介质可存储指令供处理器或其他指令执行实体执行。
参照图2，序列M始于视频图像搜索，如框观中指示的。因此，在一些实施例中，用户可输入一个或更多个搜索项以定位数字视频文件中可能描绘了的感兴趣对象。搜索引擎随后可实现对包含该信息的数字视频文件的搜索。在一个实施例中，该搜索可使用关键词搜索来完成。可被搜索的文本包括与数字视频文件相关联的元数据、字幕、以及与数字视频文件有关的文本。在一些情形中，搜索可被自动化。例如，用户可运行对感兴趣主题、人物或对象的运行中搜索，包括数字视频文件中包含的这些项。在一些实施例中，数字视频文件可与元数据或附加信息相关联。该元数据可以是数字视频文件的一部分或者可以与其分开。元数据可提供关于视频文件以及其中描绘的对象的信息。元数据可用来在另外为原子性且不可分解的数字视频文件内定位感兴趣对象。附加信息包括不是文件一部分但能用来标识该文件中的对象的任何数据。它可包括描述性文本，包括与数字视频文件相关联的字幕。因此，作为示例，参照图3，元数据可按视频文件内描绘的各种对象来组织。元数据例如可具有关于棒球对象的信息，并且在棒球下面可以是关于该文件中描绘的体育场和运动员的信息。例如，在体育场下面，可以包括诸如扬基(Yankee)体育场和红袜(Red Sox) 体育场之类的对象描述。这些对象描述中的每一者可与给出关于对象的位置、大小、类型、运动、音频和边界状况中的一项或更多项的信息的元数据相关联。通过“位置”旨在表示其中描绘该对象的一个或多个帧，且在一些情形中，表示该对象在每一帧内的位置的更详细坐标。关于大小，作为一个示例，对象的大小可按像素数目的形式给出。作为示例，类型可以是对象是否为人物、物理对象、静止的对象、或移动的对象。还指示了文件中是否有运动，若有，则涉及何种运动。例如，运动向量可给出关于方向以及对象在当前帧和下一帧之间将移动多少的信息。作为另一示例，运动信息还可指示对象将在构成数字视频文件的帧序列中何处结束。运动向量可从视频压缩中已经可使用的数据中提取。元数据还可包括关于与其中描绘对象的帧相关联的音频的信息。例如，音频信息可使得用户能获得在描绘感兴趣对象期间播放的音频。最后，可以提供边界状况，其给出了感兴趣对象的边界。在一个实施例中，可以提供边界像素的像素坐标。有了该信息，就能定义对象的位置、配置和特性。因此，在一些实施例中，在制作或记录视频文件时，可以与该文件相关联地记录图 3中所示类型的元数据组织或阶层。在其他情形中，爬行器或处理设备可处理现有数字视频文件以标识有关元数据。例如，此类爬行器可使用对象标识、或对象识别和/或对象跟踪软件。它可以基于它具有的关于不同类型的对象看起来像什么以及其关键特性是什么的信息来标识像素群与对象相关联。它还可以使用因特网搜索基于相关联的文本、对相关联音频的分析或其他信息来寻找它认为代表所讨论对象的那些对象。此类搜索还可包括社交网站、共享数据库、维基、以及博客。在此类情形中，可将像素模式与已知被标识为特定对象的对象中的像素模式作比较，以查看数字文件中的像素是否对应于该已知的标识出的对象。该信息随后可与数字文件相关联地存储为分开的文件或存储在该数字视频文件本身内部。作为另一替换方案，当用户希望寻找任何数字视频文件内的特定对象时，可分析数个数字视频文件以组装如图3中所示的元数据。
再次参照图2，一旦已标识出可能具有感兴趣对象的数字视频文件，就可用该视频文件通过使用现有的元数据或通过分析该文件以产生必需的元数据来定位该对象，如框30 中所指示的。随后，在框32中，在一些实施例中，可确认对数字视频文件内的对象的标识。这可以通过使用辅助信息确认该标识来完成。例如，若所描绘的对象被指示为Yankee体育场，则可采取因特网搜索来寻找Yankee体育场的其他图像。接下来，可将视频文件中的像素与因特网图像作比较以确定对象识别是否能确认Yankee体育场的已知描绘与该数字视频文件内的描绘之间的一致性。最后，可从其中出现该对象的每一帧中提取该数字视频文件内的该对象，如框34 中指示的。若与这些图像相对应的像素的位置是已知的，则可逐帧跟踪这些图像。这可以使用图像跟踪软件、图像识别软件、或关于对象在一帧里的位置的信息以及关于对象从该位置的移动或运动的信息来完成。随后，与该对象相关联的像素可被复制或存储为分开的文件。因此，例如，特定棒球赛中特定棒球运动员的描绘可在该运动员首次出现时被提取。可提取该运动员的描绘而没有任何前景或背景信息。此后，定位示出该特定棒球运动员的移动、运动和动作的一系列帧。在一个实施例中，该运动员没有出现的一些帧可以空白结束。在一个实施例中，通过使用元数据内关于音频的信息来提取相关联音频文件，与原始数字视频文件相关联的音频可就像完整描绘仍在呈现一样地播放。一旦已提取了这些系列的图像，这些图像随后可被进一步处理。它们可被重新调整大小、它们可被重新上色、它们可用各种方式进行修改。例如，可使用处理软件将一系列二维图像转换成三维图像。作为附加示例，所提取的图像可被转成三维描绘、添加到网页、或社交网站。通过将其他图像与所提取的对象组合可创建新视频文件。这可例如使用图像重叠技术来完成。在一个实施例中，数个所提取的移动对象可被重叠，从而在一系列帧上它们看起来交互。贯穿本说明书引述的“一个实施例”或“一实施例”意指结合该实施例描述的特定特征、结构或特性被包含在本发明内所涵盖的至少一种实现中。因此，短语“一个实施例”或 “一实施例”的出现并非必要地引述同一实施例。此外，这些特定特征、结构或特性可用与所示出的特定实施例不同的其他合适形式来设立，并且所有此类形式都被涵盖在本申请的权利要求内。尽管本发明以有限的几个实施例予以描述，本领域的技术人员将会从其中意识到许多改变和变型。所附权利要求旨在覆盖所有此类改变和变型，只要其落于本发明的实质精神和范围内。
权利要求
1.一种方法，包括定位数字视频文件的一系列帧里所描绘的对象；以及从所述视频文件提取描绘该对象的像素。
2.如权利要求1所述的方法，其特征在于，包括通过搜索与所述文件相关联的元数据来定位对象。
3.如权利要求1所述的方法，其特征在于，包括针对所述对象搜索作为同一视频文件的一部分的元数据。
4.如权利要求1所述的方法，其特征在于，包括在与所述视频文件分开的文件中搜索所述视频文件的元数据。
5.如权利要求1所述的方法，其特征在于，包括分析所述视频文件以创建标识所述视频文件中的对象描绘的位置的元数据。
6.如权利要求1所述的方法，其特征在于，包括提供指示所述视频文件中所描绘的对象的运动程度和方向的元数据。
7.如权利要求1所述的方法，其特征在于，包括将所述对象的所提取的二维描绘转换成三维描绘。
8.一种存储指令的计算机可读介质，所述指令由计算机执行以从视频文件提取所述视频文件中所描绘的对象图像。
9.如权利要求8所述的介质，其特征在于，还存储用于在所述视频文件中进行对所述图像的搜索的指令。
10.如权利要求9所述的介质，其特征在于，还存储用于使用与所述视频文件相关联的元数据来定位所述图像的指令。
11.如权利要求8所述的介质，其特征在于，还存储用于从所述视频文件中的一系列帧提取移动对象图像的指令。
12.如权利要求8所述的介质，其特征在于，还存储用于从所述视频文件提取描绘所述图像的像素的指令。
13.一种装置，包括处理器；耦合到所述处理器的编码器/解码器；以及用于从数字视频文件提取移动对象图像的设备。
14.如权利要求13所述的装置，其特征在于，所述设备用于从多个帧提取对象图像，所述对象图像在所述帧里移动。
15.如权利要求13所述的装置，其特征在于，所述设备用于针对所选对象搜索数字视频文件。
16.如权利要求15所述的装置，其特征在于，所述设备用于在数字视频文件中进行关键词搜索。
17.如权利要求13所述的装置，其特征在于，所述设备使用与所述数字视频文件相关联的元数据来定位所述对象图像。
18.如权利要求13所述的装置，其特征在于，所述设备用于从所述数字视频文件提取描绘所述移动对象图像的像素。
19.如权利要求13所述的装置，其特征在于，包括用于接收数字视频文件的接收机。
20.如权利要求19所述的装置，其特征在于，所述装置包括用于接收与所述数字视频文件相关联的带外元数据的接收机。
全文摘要
可在搜索过程中定位用视频文件描绘的对象。随后可从数字视频文件提取所定位的对象。随后可与该视频文件独立地修改所提取的描绘。
文档编号G06F17/30GK102073668SQ201010500840
公开日2011年5月25日申请日期2010年9月25日优先权日2009年11月23日
发明者B·D·约翰逊, M·J·艾斯皮格, S·B·梅达帕蒂申请人:英特尔公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Ｂ.Ｄ.约翰逊;Ｍ.Ｊ.艾斯皮格;Ｓ.Ｂ.梅达帕蒂
技术所有人：英特尔公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。