用于增强的视觉内容数据库检索的方法和系统的制作方法

文档序号:6487678阅读:167来源:国知局
用于增强的视觉内容数据库检索的方法和系统的制作方法
【专利摘要】本发明涉及用于增强的视觉内容数据库检索的方法和系统。提供了用于通过组合从视觉内容导出的低级和高级视觉特征并且然后标引组合的视觉特征或者使用组合的视觉特征搜索类似的视觉内容而执行视觉搜索和检索的方法和系统。视觉内容检索系统将查询视频的低级和高级视觉特征分别转换成查询视频的低级和高级视觉描述符。视觉内容检索系统将查询视频的低级和高级视觉描述符组合成组合视觉描述符,并且然后使用查询视频的组合视觉描述符在视频数据库中搜索和检索一个或者多个类似的视频。
【专利说明】用于增强的视觉内容数据库检索的方法和系统
【技术领域】
[0001]本教示一般地涉及用于增强视觉内容数据库检索的方法和系统,并且更加具体地涉及用于通过首先组合从视觉内容导出的各种视觉特征并且然后使用组合的视觉特征搜索类似的视觉内容和/或标引组合的视觉特征而执行视觉搜索和检索的平台和技术。
【背景技术】
[0002]通常,当执行图像/视频搜索和检索时,使用了低级视觉特征。例如,使用颜色直方图比较在查询图像/视频与数据库中的视频之间的类似性。近来,研究人员已经开始对于使用高级视觉特征的图像/视频检索(诸如基于在图像/视频中的视觉概念的检索)给予更大的关注。
[0003]然而,在使用低级或者高级视觉特征来检索图像/视频方面存在限制。例如,低级视觉特征不对图像内容加以考虑,并且使用低级视觉特征所检索的结果可能只是反映视觉类似性,但是并非是有意义的。因为高级视觉特征提取的敏感性,使用高级视觉特征来检索图像/视频也可能返回不良的结果。

【发明内容】

[0004]根据在一个或者多个方面的本教示,提供了用于增强视觉内容数据库检索的方法和系统,其中视觉内容检索系统通过组合从视觉内容导出的低级和高级视觉特征而执行视觉搜索和内容检索,并且然后使用组合的视觉特征搜索和检索类似的视觉内容和/或标引组合的视觉特征。在本教示的一般实现中,视觉内容检索系统能够将查询视频的低级和高级视觉描述符组合成组合视觉描述符,并且然后能够使用查询视频的组合视觉描述符在视频数据库中搜索和检索一个或者多个类似的视频。
【专利附图】

【附图说明】
[0005]在本说明书中结合并且构成它的一个部分的附图示意本教示的某些方面并且与说明一起用于解释本教示的原理。在图中:
图1示意与本教示的各种实施例一致的一种示例性视觉内容检索系统,该视觉内容检索系统通过组合从视觉内容导出的低级和高级视觉特征并且然后使用组合的视觉特征搜索类似的视觉内容和/或标引组合的视觉特征而执行视觉搜索和检索;
图2示意根据本教示的各种实施例的由视觉内容检索系统执行以提供增强的视觉搜索和检索的处理的流程图;并且
图3示意与本教示的实施例一致的计算机系统。
【具体实施方式】
[0006]现在将详细地参考本教示的各种实施例,其实例在附图中示意。将尽可能地贯穿附图使用相同的参考数字来指代相同或者相似的部分。[0007]在以下说明中,对形成其一个部分并且其中通过示意示出其中可以实施的具体实现方式的附图进行参考。足够详细地描述了这些实现方式以使得本领域技术人员能够实施这些实现方式并且要理解可以利用其它实现方式并且可以在不偏离本教示的范围的情况下做出修改和等价形式。因此,以下说明仅仅是示例性的。
[0008]另外,在主题说明中,单词“示例性”被用于意味用作一个实例、事例或者示意。在这里被描述成“示例性”的任何方面或者设计均不是必要地被理解成相对于其它方面或者设计是优选的或者有利的。相反,单词示例性的使用旨在以具体的方式提出概念。
[0009]本教示的方面涉及用于增强视觉内容数据库检索的系统和方法。更加具体地,在各种方面并且如例如在图1中一般示出地,提供了平台和技术,其中视觉内容检索系统100能够通过组合从视觉内容导出的低级和高级视觉特征而执行视觉搜索和检索并且然后使用组合的视觉特征搜索类似的视觉内容和/或标引组合的视觉特征。这样,视觉内容检索系统100能够不经训练地执行高效且稳健的、高度相关视觉内容的视觉搜索和检索。视觉内容能够包括例如一个或者多个视频、一个或者多个图像等。低级视觉特征能够包括例如视觉内容的颜色、质地、边缘、轮廓等。高级视觉特征能够包括例如事件、视觉概念、语义内容和在视觉内容中包含的其它高级视觉特征,诸如运动、阴影、阴影的变化、照明、照明的变化、繁忙水平、繁忙水平的变化、震动水平、震动水平的变化等。
[0010]根据各种实施例并且如在图1中一般示出地,视觉内容检索系统100能够使用图像处理器Iio从视频数据库120中的视觉内容提取低级和高级视觉特征,组合从低级和高级视觉特征导出的低级和高级视觉描述符,并且在视频特征数据库130中存储和标引组合视觉描述符,所述组合视觉描述符能够在将来由视觉内容检索系统100使用以在视频数据库120中搜索和检索视觉内容。视觉内容检索系统100还能够使用图像处理器110从查询视频150提取低级和高级视觉特征并且将从低级和高级视觉特征导出的低级和高级视觉描述符组合成查询视频特征160,并且然后使用视觉内容检索器170从视频数据库120搜索和检索类似的视觉内容,诸如在视频数据库120中的一个或者多个最近邻视频。例如,视觉内容检索器170能够执行在查询视频特征160和视频特征数据库130中的组合视觉描述符之间的直方图类似性测量(诸如可变二进位(bin)尺寸距离技术)以搜索或者定位在视频数据库120中的、最类似于查询视频150的视频。视觉内容检索系统100还能够在视频特征数据库130中存储并且标引查询视频特征160,所述查询视频特征能够在将来由视觉内容检索系统100使用以在视频数据库120中搜索和检索查询视频。
[0011]图像处理器110能够脱机即当未正在为查询视频150搜索最近邻视频时处理视频数据库120中的视频并且填充视频特征数据库130,并且因此改进当搜索最近邻视频时的周转时间。虽然图1把图像处理器110示为单数或者集成,但是图像处理器100能够为复数或者分布式。根据各种实施例,图像处理器110能够在单一过程中、在单一机器上的多个独立的或者互连的过程中或者在多个机器上的多个独立的或者互连的过程中执行。更加具体地,如在图1中所示,图像处理器110能够包括低级视觉特征提取器112、高级视觉特征提取器114和描述符混合器116。低级视觉特征提取器112能够从视觉内容提取低级特征并且产生一个或者多个低级视觉描述符,诸如低级特征的一个或者多个直方图(例如,颜色直方图)。高级视觉特征提取器114能够从视觉内容提取高级特征并且产生高级视觉描述符,诸如代表用于高级特征的值的一个或者多个直方图。例如,高级视觉特征提取器114能够向用于高级视觉特征的直方图的不同二进位分配不同的值。描述符混合器116能够将低级和高级视觉描述符组合或者融合/混合成组合视觉描述符。例如,描述符混合器116能够使用组合技术来组合或者融合/混合低级和高级视觉描述符。组合技术能够包括例如加权直方图、决策融合、选择性过滤等。
[0012]图2示意根据本教示的各种实施例的由视觉内容检索系统100执行以提供增强的视觉搜索和检索的处理200的方法体系和/或流程图。为了解释简洁起见,作为一系列动作描绘和描述了该方法体系。要理解和意识到,主题创新不受所示意的动作和/或动作的顺序所限制。例如,动作能够以各种顺序和/或同时地并且与未在这里给出和描述的其它动作一起发生。此外,根据要求保护的主题,可能并非要求所有示意的动作来实现该方法体系。另外,本领域技术人员将会理解并且意识到,能够可替代地经由状态图表或者事件作为一系列相关的状态代表该方法体系。另外,应该进一步意识到,在下文中并且贯穿本说明书公开的方法体系能够被存储在一种制品上以便促进将这种方法体系输送并且转移到计算机。如在这里所使用地,术语制品旨在涵盖可从任何计算机可读器件、载体或者媒体访问的计算机程序。
[0013]如在图2中所示,在210,视觉内容检索系统100能够使用图像处理器110从视觉内容(例如,查询视频150或者视频数据库120中的视频)提取低级特征。接着,在220,视觉内容检索系统100能够使用图像处理器110从视觉内容提取高级特征。然后,在230,视觉内容检索系统100能够使用图像处理器110分别将低级和高级特征转换成低级和高级视觉描述符。在240,视觉内容检索系统100能够使用图像处理器110将低级和高级视觉描述符组合、融合或者混合成视觉内容的组合视觉描述符。
[0014]随后,在250,视觉内容检索系统100能够确定视觉内容是查询视频(例如,查询视频150)或者不是(例如,在视频数据库120中的视频)。如果确定视觉内容不是查询视频,则处理200能够直接地前进到280。可替代地,如果在250,确定视觉内容是查询视频,则在260,视觉内容检索系统100能够基于组合视觉描述符使用图像视觉内容检索器170搜索并且为查询视频提供一个或者多个最近邻视频。接着,在270,视觉内容检索系统100能够在视频数据库120中存储查询视频以供将来检索。
[0015]在280,视觉内各检索系统100能够在视频特征数据库130中存储和/或标引视觉内容的组合视觉描述符,所述组合视觉描述符然后能够在将来由视觉内容检索系统100使用以搜索和检索视觉内容。最后,在290,视觉内容检索系统100能够确定是否继续处理200。如果是,则处理200返回至210 ;如果否,则处理200结束。
[0016]图3示意与本教示的实施例一致的计算机系统300。通常,可以在各种计算机系统诸如个人计算机、服务器、工作站、嵌入式系统或其组合例如系统300中实现视觉内容检索系统100的实施例。视觉内容检索系统100的某些实施例可以作为计算机程序嵌入。计算机程序可以以各种形式(活动和不活动二者)存在。例如,计算机程序能够作为由以源代码、目标代码、可执行代码或者其它格式的程序指令构成的软件程序(一件或者多件);固件程序(一件或者多件);或者硬件描述语言(HDL)文件存在。以上任何方式均能够在计算机可读介质上体现,该计算机可读介质包括具有压缩或者未压缩形式的存储器件和信号。然而,为了解释的意图,系统300被示为对本领域技术人员众所周知的通用计算机。现在将描述可以在系统300中包括的构件的实例。[0017]如所示那样,系统300可以包括至少一个处理器302、键盘317、指示器件318 (例如,鼠标、触摸板等)、显示器316、主存储器310、输入/输出控制器315和存储器件314。存储器件314能够包括例如RAM、ROM、闪存、EEPROM、CD-ROM或者其它光盘存储、磁盘存储或者其它磁存储器件、或者能够用于携带或者存储形式为指令或者数据结构的所期程序代码并且能够由计算机访问的任何其它介质。能够例如在存储器件314上存储视觉内容检索系统100的计算机程序实施例的副本。系统300还可以提供有另外的输入/输出器件,诸如打印机(未示出)。系统300的各种构件通过系统总线312或者类似的架构通信。另外,系统300可以包括在操作期间在存储器310中驻留的操作系统(0S)320。本领域技术人员将会认识到,系统300可以包括多个处理器302。例如,系统300可以包括同一处理器的多个副本。可替代地,系统300可以包括各种类型的处理器的异构混合体。例如,系统300可以使用一个处理器作为主处理器并且使用其它处理器作为协同处理器。作为另一个实例,系统300可以包括一个或者多个多核处理器和一个或者多个单核处理器。因此,系统300可以包括跨越一组处理器(例如,处理器302)的任何数目的执行核。关于键盘317、指示器件318和显示器316,可以使用对本领域技术人员众所周知的构件来实现这些构件。本领域技术人员还将会认识到,可以在系统300中包括其它构件和外设。
[0018]主存储器310用作系统300的主存储区域并且保存由在处理器302上运行的应用诸如视觉内容检索系统100主动使用的数据。本领域技术人员将会认识到:所述应用是软件程序,每一件软件程序均包含用于在运行时间期间指令系统300执行一组具体任务的一组计算机指令;并且根据本教示的实施例,术语“应用”可以与应用软件、应用程序和/或程序可互换地使用。可以作为随机存取存储器或者对本领域技术人员众所周知的如在以下描述的其它形式的存储器实现存储器310。
[0019]OS 320是负责在系统操作和系统300中的硬件的直接控制和管理的例程和指令的集成集合。另外,OS 320提供在其上运行应用软件的基础。例如,OS 320可以执行服务,诸如资源分配、调度、输入/输出控制和存储器管理。OS 320可以主要是软件,但是还可以包含部分的或者完全的硬件实现和固件。与本教示的原理一致的操作系统的众所周知的实例包括 MICROSOFT WINDOWS (例如 WINDOWS CE,WINDOWS NT,WINDOWS 2000,WINDOWS XP 和WINDOWS VISTA)、MAC OS、LINUX、UNIX、ORACLE SOLARIS、OPEN VMS 和 IBM AIX。
[0020]前面的说明是示意性的,并且本领域技术人员可以想到在配置和实现方面的变化。例如,可以利用通用处理器(例如,处理器302)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者被设计成执行在这里描述的功能的其它可编程逻辑器件、离散门或者晶体管逻辑、离散硬件构件或其任何组合来实现或者执行结合在这里所公开的实施例描述的各种示意性的逻辑、逻辑块、模块和电路。通用处理器可以是微处理器,但是可替代地,该处理器可以是任何传统的处理器、控制器、微控制器或者状态机。还可以作为计算器件的组合例如DSP和微处理器的组合、多个微处理器、与DSP核相结合的一个或者多个微处理器或者任何其它这种配置实现处理器。
[0021]在一个或者多个示例性实施例中,可以以硬件、软件、固件或其任何组合实现所描述的功能。关于软件实现,能够利用执行在这里描述的功能的模块(例如规程、函数、子程序、程序、例程、子例程、模块、软件包、类等等)实现在这里描述的技术。通过传递和/或接收信息、数据、变元、参数或者存储内容,一个模块能够被耦合到另一个模块或者硬件电路。能够使用包括存储器共享、消息传递、令牌传递、网络传输等的任何适当的手段来传递、转发或者传输信息、变元、参数、数据等。软件代码能够被存储在存储单元中并且由处理器执行。能够在处理器内或者在处理器外部实现存储单元,在处理器外部的情形中它能够如在本【技术领域】中已知的那样经由各种装置被以通信方式耦合到处理器。
[0022]如果以软件实现,则功能可以作为一条或者多条指令或者代码在计算机可读介质上存储或者传输。计算机可读介质包括有形计算机存储介质和通信介质,包括促进从一个位置向另一个位置转移计算机程序的任何介质。存储介质可以是能够由计算机访问的任何可用有形介质。作为实例而非限制,这种有形计算机可读介质能够包括RAM、ROM、闪存、EEPR0M、CD_R0M或者其它光盘存储、磁盘存储或者其它磁存储器件、或者能够用于携带或者存储形式为指令或者数据结构的所期程序代码并且能够由计算机访问的任何其它介质。如在这里所使用地,磁盘和光盘包括⑶、激光光盘、光盘、DVD、软磁盘和蓝光光盘,其中磁盘通常以磁方式复制数据,而光盘利用激光以光学方式复制数据。而且,任何连接均适当地被称作计算机可读介质。例如,如果使用同轴电缆、光缆、双绞线、数字用户线路(DSL)或者无线技术诸如红外、无线电和微波从网站、服务器或者其它远程源传输软件,则在介质的定义中包括同轴电缆、光缆、双绞线、DSL或者无线技术诸如红外、无线电和微波。还应该在计算机可读介质的范围内包括以上的组合。描述为单数或者集成的资源能够在一个实施例中是复数或者分布式,并且描述为多个或者分布式的资源能够在实施例中得以组合。本教示的范围因而意在仅由以下权利要求限制,并且可以在不偏离本教示的范围的情况下对权利要求的特征做出修改和等价形式。
【权利要求】
1.一种用于增强视频检索的方法,包括: 将查询视频的低级视觉描述符和高级视觉描述符组合成所述查询视频的组合视觉描述符; 基于所述查询视频的所述组合视觉描述符,在视频数据库中搜索和检索一个或者多个类似的视频;和 提供所述一个或者多个类似的视频。
2.根据权利要求1所述的方法,其中搜索和检索一个或者多个类似的视频进一步包括: 比较所述查询视频的所述组合视觉描述符与在所述视频数据库中的第一视频的组合视觉描述符,其中所述第一视频的所述组合视觉描述符包括所述第一视频的低级视觉描述符和高级视觉描述符的组合。
3.根据权利要求2所述的方法,其中所述查询视频的高级视觉特征包括事件、视觉概念或者语义内容中的至少一项。
4.根据权利要求2所述的方法,其中组合所述查询视频的所述低级视觉描述符和所述闻级视觉描述符进一步包括: 基于组合技术将所述查询视频的所述低级视觉描述符和所述高级视觉描述符组合成所述查询视频的所述组合视觉描述符,所述组合技术用于将所述第一视频的所述低级视觉描述符和所述高级视觉描述符组合成所述第一视频的所述组合视觉描述符。
5.根据权利要求2所述的方法,进一步包括: 基于提取技术提取所述查询视频的低级视觉特征和高级视觉特征,所述提取技术用于提取所述第一视频的低级视觉特征和高级视觉特征。
6.根据权利要求5所述的方法,进一步包括: 基于转换技术将所述查询视频的所述高级视觉特征转换成所述查询视频的所述高级视觉描述符,所述转换技术用于将所述第一视频的高级视觉特征转换成所述第一视频的所述高级视觉描述符。
7.根据权利要求5所述的方法,进一步包括: 基于转换技术将所述查询视频的所述低级视觉特征转换成所述查询视频的所述低级视觉描述符,所述转换技术用于将所述第一视频的低级视觉特征转换成所述第一视频的所述低级视觉描述符。
8.根据权利要求1所述的方法,进一步包括: 在所述视频数据库中存储所述查询视频。
9.根据权利要求1所述的方法,进一步包括: 标引所述查询视频的所述组合视觉描述符。
10.一种用于从视频数据库检索视频的方法,其中所述视频基于所述视频的组合视觉描述符而被标引,所述组合视觉描述符包括所述视频的低级视觉描述符和高级视觉描述符的组合,所述方法包括: 基于组合技术将查询视频的低级视觉描述符和高级视觉描述符组合成所述查询视频的组合视觉描述符,所述组合技术用于将所述视频的所述低级视觉描述符和所述高级视觉描述符组合成所述视频的所述组合视觉描述符;基于所述查询视频的所述组合视觉描述符和一个或者多个类似的视频的一个或者多个组合视觉描述符,在所述视频数据库中搜索和检索所述一个或者多个类似的视频;和提供所述一个或者多个类似的视频。
11.一种用于执行视频检索的系统,包括: 被配置为将查询视频的低级视觉描述符和高级视觉描述符组合成所述查询视频的组合视觉描述符的描述符混合器; 被配置为基于所述查询视频的所述组合视觉描述符在视频数据库中搜索和检索一个或者多个类似的视频的内容检索器;和 被配置为提供所述一个或者多个类似的视频的服务器。
【文档编号】G06F17/30GK103577488SQ201210280182
【公开日】2014年2月12日 申请日期:2012年8月8日 优先权日:2012年8月8日
【发明者】贾真, 赵建伟 申请人:莱内尔系统国际有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1