用于使用基于网格的特征组织来执行视觉搜索的方法、设备和计算机程序产品的制作方法

文档序号:6478824阅读:216来源:国知局
专利名称:用于使用基于网格的特征组织来执行视觉搜索的方法、设备和计算机程序产品的制作方法
技术领域
本发明的实施方式总体上涉及内容检索技术,尤其涉及用于使用基于网格的特征组织来执行视觉搜索的方法、设备和计算机程序产品。
背景技术
现代通信时代已经引发了有线网络和无线网络的巨大扩展。计算机网络、电视网 络和电话网络正在经历着由消费需求所推动的空前的技术发展。无线和移动组网技术已经 解决了相关的消费者需求,同时提供了更加灵活和即时的信息传送。当前和未来的组网技术持续促进着信息传送的简易性和用户便利性。而一个需要 提高信息传送的简易性和用户便利性的领域涉及在网络中提供信息检索。例如,可以使诸 如音频、视频、图像内容、文本、数据等信息可用于在使用各种通信网络的不同实体之间的 检索。相应地,与每一个不同实体相关联的设备都可以彼此通信,以便定位和影响信息传 送。特别是,已经开发了支持诸如移动终端的设备进行针对关于特定查询或者关键字的信 息或者内容的搜索的机制。基于文本的搜索通常涉及搜索引擎的使用,该搜索引擎配置成用于基于用户输入 的查询项来检索结果。然而,由于语言上的挑战性诸如具有多重含义的词语,使得搜索结果 可能不是始终如一地高质量。另外,在受低效率的用户接口所累的设备上(例如,传统的移 动终端)执行基于文本的搜索可能是麻烦和有问题的。由于上文所描述的与文本搜索相关联的问题,所以其他搜索类型已普及。近来,就 视觉搜索而言,基于内容的搜索正在变得更为普及。在某些情形中,例如,当用户希望从诸 如数据库之类的特定位置检索图像内容时,用户有可能希望根据图像的内容来观看图像。 就此而论,例如,用户可能希望观看关于猫、动物、汽车等等的图像。这样,基于内容的视觉搜索功能已经变得普及。视觉搜索可以使用图像匹配来撬 动大型视觉数据库,以将查询的图像或者输入的图像与视觉数据库中的图像进行比较。针 对图像的数据库来执行查询,每个图像具有当查询图像与数据库中的图像匹配时可以显示 的关联内容。当定位了匹配图像,相关信息可以作为搜索结果返回。可以将用于这些搜索 的视觉数据库归类成增强现实(AR)的形式。AR通常被认为是在单个介质中真实世界数据 与计算机生成的数据的组合,诸如视觉数据库。现代移动设备拥有使得AR变得实用和通用的希望。第一,目前移动设备可以装配 有宽带无线连接,使得其用户可以随时随地访问万维网的海量信息。第二,在移动设置中对 AR的需求是最高的。第三,设备的物理位置可以通过包括GPS和小区塔位置三角测量的若 干方式进行精确估算。这些特征使得移动设备成为用于实现和开发AR应用的理想平台。然而,关于视觉搜索出现的问题在于考虑到视觉搜索数据库的大小,数据库搜索 需要执行搜索的设备上的大量的存储器和处理能力以便迅速提供结果。将捕获的图像与大 型数据库中的所有图像进行比较以确定匹配的过程可能是复杂的,并且可能经常需要大量的处理能力。相应地,由于这些条件约束,视觉搜索的效率受到不利影响。然而,视觉搜索查询经常是在请求视觉搜索的个人不是位于具有大量存储器和处 理能力的有线设备附近的时候最实用。这样,利用图像捕获技术的移动终端解决方案可以 提供用于执行视觉搜索的平台。遗憾的是,传统的移动终端经常不包含用于在整个视觉数 据库上执行视觉搜索的存储器或者处理能力。
相应地,有利的是提供一种用于在移动设备上和/或远程服务器上以更快并且更 有效的方式执行视觉搜索的改进机制。

发明内容
因此在某些实施方式中,提供了用于提供更快并且更有效的移动视觉搜索的方 法、设备和计算机程序产品。特别是,提供了通过将视觉搜索集中在视觉搜索数据库的目标 部分来提供增强的、基于视觉搜索的方法、设备和计算机程序。例如在这点上,可以在视觉 搜索数据库中定义基于位置的小区,并且可以将数据库中的特征解析成与小区相关联的较 小数据集。通过以这种方式构建视觉搜索数据库,视觉搜索可以使用小区参数来聚焦并且 相应地促进视觉搜索。这样,可以将视觉搜索集中到特定数据集,而不是查询整个数据库。 由于是集中的视觉搜索,所以可以加速基于服务器的搜索。另外,由于查询的目标是相对较 小的数据集,所以可以将数据集本身传送到电子设备。电子设备可以通过向服务器传送设 备的当前位置来接收适当的数据集。这样,移动设备可以具有依靠接收到的较小数据集进 行本地视觉搜索并且迅速提供结果的能力。相应地,可以提高搜索结果检索的效率,并且可 以改进电子设备(诸如,移动终端)的内容管理功能、导航功能、观光功能和娱乐功能。在一个实施方式中,提供一种方法,其中接收与基于位置的网格区域相关联的特 征集合。基于位置的网格区域还可以与设备(诸如,移动设备)的位置相关联。这样,当设 备移入不同的基于位置的网格时,可以通过接收与目前特征集中的特征不类似的特征来更 新接收到的特征集。除了特征集,还接收了查询图像特征。继而通过将查询图像特征与特 征集进行比较来执行视觉搜索。例如在一个实施方式中,可以使用最近相邻者搜索结构执 行视觉搜索,该最近相邻者搜索结构包括比较器和特征指针。然后,可以返回搜索结果。关于特征集,可以通过策略方式来定义该特征集,以便提高视觉搜索的效率。在这 点上,一个实施方式的特征集可以使用上下文、情境和优选项条件来标识。特征集还可以包 括基于位置的元特征分组。另外,可以从特征集中排除具有少于指定数量的邻近者的特征。 此外,可以基于特征到设备的距离从存储器中消除特征。通过策略上限制视觉上搜索的特征集的大小,在某些实施方式中,可以通过移动 设备来执行搜索。备选地,视觉搜索可以由服务器来执行并将结果返回至该设备。即使设 备执行视觉搜索,在某些情况下(诸如,其中最初搜索结果是无结果的实例中),也可以向 服务器传送查询图像特征和位置信息,以便服务器依靠与基于位置的网格区域相关联的附 加特征来执行视觉搜索。在另一实施方式中,提供了一种设备,其包括配置成接收与基于位置的网格区域 相关联的特征集的处理器。该基于位置的网格区域还可以与设备(诸如,移动设备)的位 置相关联。除了特征集,处理器还配置成接收查询图像特征。该处理器还配置成通过将查 询图像特征与特征集进行比较来执行视觉搜索,继而返回搜索结果。
备选地,提供了一种设备,其包括用于接收与基于位置的网格区域相关联的特征 集的装置。该基于位置的网格区域还可以与设备(诸如,移动设备)的位置相关联。此实 施方式的设备还包括用于接收查询图像特征的装置。此外,此实施方式的设备包括用于通 过将查询图像特征与特征集进行比较来执行视觉搜索的装置,以及用于返回搜索结果的装置。在进一步的实施方式中,提供了一种计算机程序产品,其具有用于存储计算机可 读程序代码部分的计算机可读存储介质,该计算机可读程序代码部分包括用于接收与基于 位置的网格区域相关联的特征集的第一可执行部分。该基于位置的网格区域还可以与设备 (诸如,移动设备)的位置相关联。还包括用于接收查询图像特征的第二可执行部分。计算 机程序产品还包括通过将查询图像特征与特征集进行比较来执行视觉搜索的第三可执行 部分,以及用于返回搜索结果的第四可执行部分。在本发明的另一方面中,提供了一种用于构建视觉搜索数据库的方法。该方法定 义基于位置的网格、获取训练图像和相关信息,继而将训练图像和相关信息与基于位置的 网格的一部分相关联。该方法还执行特征提取、分派特征鲁棒性值、以及生成且存储元特 征。本发明的实施方式可以提供用于在设备中使用以便增强内容检索(诸如,通过视 觉搜索进行的内容检索)的方法、设备和计算机程序产品。例如作为结果,移动终端和其他 电子设备可以从能够以有效的方式执行内容检索,并且在降低对文本输入的依赖的情况下 以智能并且有用的方式向用户提供结果的能力中获益。


因此,已经概括地描述了本发明的实施方式,现将参考附图,该附图不必按比例绘 制,其中图1是根据本发明一个示例性实施方式的移动终端的示意性框图;图2是根据本发明一个示例性实施方式的无线通信系统的示意性框图;图3示出了根据本发明一个示例性实施方式的用于提供视觉搜索的装置的框图;图4示出了根据本发明一个示例性实施方式的基于位置的网格;图5是根据本发明一个示例性实施方式负责构建视觉搜索数据库的操作的流程 图;图6a是根据本发明一个示例性实施方式负责执行视觉搜索的操作的流程图;以 及 图6b示出了根据本发明一个示例性实施方式的视觉搜索中使用的特征存储结构 和搜索结构。
具体实施例方式现将参考附图更全面地描述本发明的实施方式,附图中示出了本发明的某些而不 是所有实施方式。实际上,本发明可以按照不同形式来实现,并且不应当解释为局限于这里 提出的实施方式;相反,提供这些实施方式是为了本公开满足适用的法律要求。贯穿全文, 相同的标号表示相同的元件。
图1示出了将受益于本发明实施方式的移动终端10的框图。然而,应当理解,所示出的以及在此后描述的移动电话仅仅是受益于本发明实施方式的一种类型的移动终端 的示范,因此,不应用来限制本发明实施方式的范围。尽管出于示例目的而示出并在此后描 述了移动终端10的一种实施方式,但是其他类型的移动终端也可以容易地采用本发明的 实施方式,其中其他类型的移动终端诸如可以是便携式数字助理(PDA)、寻呼机、移动计算 机、移动电视、游戏设备、膝上型计算机、照相机、录像机、GPS设备以及其他类型的语音和文 本通信系统。此外,非移动的设备也可以容易地使用本发明的实施方式。下文将主要结合移动通信应用来描述本发明实施方式的系统和方法。然而,应当 理解,可以结合移动通信产业之内以及移动通信产业之外的各种其他应用来使用本发明实 施方式的系统和方法。移动终端10包括与发射器14以及接收器16进行可操作通信的天线12 (或多个 天线)。该移动终端10还包括分别向发射器14提供信号以及从接收器16接收信号的装 置,诸如控制器20或其他处理元件。该信号包括符合合适的蜂窝系统的空中接口标准的信 令信息,以及用户语音、接收数据和/或用户生成数据。就此而论,移动终端10能够结合一 个或多个空中接口标准、通信协议、调制类型以及接入类型来工作。作为例证,移动终端10 能够依照第一、第二、第三和/或第四代通信协议等等众多协议中的任何一种来工作。例 如,移动终端10能够依照第二代(2G)无线通信协议IS-136(时分多址(TDMA))、GSM(全球 移动通信系统)和IS-95(码分多址(CDMA))来工作,或者能够依照诸如通用移动电信系统 (UMTS)、CDMA2000、宽带CDMA (WCDMA)以及时分同步CDMA (TD-SCDMA)之类的第三代(3G)无 线通信协议来工作,还能够依照第四代(4G)无线通信协议等来工作。可以理解,诸如控制器20这样的装置包括实现移动终端10的音频和逻辑功能所 需的诸如电路的装置。例如,控制器20可以包括数字信号处理器设备、微处理器设备以及 各种模数转换器、数模转换器和其他支持电路。移动终端10的控制和信号处理功能按照这 些设备各自的能力在其间分配。控制器20由此还可以包括在调制和传送之前对消息和数 据进行卷积编码和交织的功能。控制器20还可以包括内部声音编码器,并且可以包括内部 数据调制解调器。此外,控制器20可以包括对一个或多个软件程序进行操作的功能,该软 件程序可以存储在存储器中。例如,控制器20可以能够操作连接程序,诸如传统的Web浏 览器。连接程序继而可以允许移动终端10例如按照无线应用协议(WAP)、超文本传输协议 (HTTP)等来传送和接收Web内容(诸如基于位置的内容和/或其他web页面内容)。移动终端10还可以包括用户接口,其包括输出设备,例如传统的耳机或者扬声器 24、麦克风26、显示器28以及用户输入接口,所有这些设备都耦合至控制器20。允许移动 终端10接收数据的用户输入接口可以包括允许移动终端10接收数据的多种设备中的任意 设备,例如小键盘30、触摸显示器(未示出)或者其他输入设备。在包括小键盘30的实施 方式中,小键盘30可以包括传统的数字键(0-9)和相关键(#、*),以及用于操作移动终端 10的其他键。备选地,小键盘30可以包括传统的QWERTY小键盘布置。小键盘30还可以包 括与功能相关联的各种软键。作为替代或补充,移动终端10可以包括诸如操纵杆的接口设 备或者其他用户输入接口。移动终端10还包括电池34,诸如振动电池组,用于为操作移动 终端10所需的各种电路供电,以及可选地提供机械振动作为可觉察输出。在一个示例性实施方式中,移动终端10包括与控制器20通信的媒体捕获元件,例如相机、视频和/或音频模块。该媒体捕获元件可以是用于捕获图像、视频和/或音频以供 存储、显示和传送的任何装置。例如,在媒体捕获元件是相机模块36的示例性实施方式中, 相机模块36可以包括能从捕获图像中形成数字图像文件的数码相机。同样,相机模块36 包括从捕获图像中创建数字图像文件所需要的所有硬件和软件,其中硬件例如是镜头或是 一个或多个其他光学部件。备选地,相机模块36可以只包括查看图像所需要的硬件,而移 动终端10的存储器设备则存储了供控制器20执行的指令,其中所述指令采用的是从捕获 图像中创建数字图像文件所需要的软件的形式。在一个示例性实施方式中,相机模块36还 可以包括处理元件,诸如在处理图像数据的过程中帮助控制器20的协处理器,以及用于压 缩和/或解 压缩图像数据的编码器和/或解码器。例如,所述编码器和/或解码器可以根 据联合图像专家组(JPEG)标准格式或者其他格式来进行编码和/或解码。移动终端10还可以包括定位传感器37,例如与控制器20通信的全球定位系统 (GPS)模块。该定位传感器37可以是用于定位移动终端10的位置的任何装置、设备或电 路。此外,定位传感器37还可以是用于定位在相机模块36捕获的图像中的兴趣点(POI)位 置的任何装置,其中所述兴趣点例如是商店、书店、餐厅、咖啡店、百货商店以及其他公司等 等。同样,这里使用的兴趣点可以包括用户感兴趣的任何实体,例如产品和其他对象等等。 定位传感器37可以包括用于定位移动终端或图像中的POI的位置的所有硬件。作为替换 或补充,定位传感器37可以利用移动终端10的存储器设备来存储供控制器20执行的指 令,其中所述指令采用的是确定移动终端或POI图像的位置所需要的软件的形式。虽然此 示例的定位传感器37可以是GPS模块,定位传感器37可以包括或者另外备选地体现为,例 如,辅助式全球定位系统(Assisted-GPS)传感器或者定位客户端,该客户端可以与网络设 备通信用于接收和/或传送确定移动终端10的位置所使用的信息。在这点上,移动终端10 的位置可以通过上文所描述的GPS、小区ID、信号三角测量或者其他机制等来确定。在一个 示例性实施方式中,定位传感器37包括计步器或者惯性传感器。这样,定位传感器37可以 能够确定移动终端10的位置,诸如,移动终端10的经度和纬度方向,或者相对于诸如目的 地或起点的参考点的位置。继而,可以向移动终端10的存储器或另一存储器设备发送来自 位置传感器37的信息,从而将其作为位置历史或地点信息存储。另外,定位传感器37能够 通过使用控制器20来经由发射器14/接收器16向服务器传送/接收位置信息,其中所述 位置信息例如是移动终端10的位置以及一个或多个POI的位置,所述服务器例如是视觉搜 索服务器51和/或视觉搜索数据库53 (参见图2),在下文中将会对此进行更全面的描述。移动终端10还可以包括视觉搜索客户端68 (例如统一的移动视觉搜索/映射客 户端)。该视觉搜索客户端68可以是以硬件、软件或软件和硬件的组合实现的任何装置或 设备,所述装置或设备能够与视觉搜索服务器51和/或视觉搜索数据库53 (参见图2)通 信以处理从相机模块36接收的查询(例如图像或视频剪辑),以便提供包含了与查询具有 一定相似度的图像的结果。例如,视觉搜索客户端68可以被配置成在移动终端10指向对 象和/或POI的时候、或在对象和/或POI处于相机模块36的视线以内的时候、或当相机 模块36在图像中捕获到POI的时候,辨认(通过在视觉搜索数据库53中基于查询图像来 进行针对类似图像的视觉搜索,或是通过将查询图像(原始的或压缩的)或查询图像的特 征传递到视觉搜索服务器51来进行视觉搜索并接收结果)对象和/或兴趣点。移动终端10还可以包括用户身份模块(UIM)38。UIM 38通常是具有内置处理器的存储器设备。例如,UIM 38可以包括订户身份模块(SIM)、通用集成电路卡(UICC)、通用订 户身份模块(USIM)、可拆卸用户身份模块(R-UIM)等。UIM 38通常存储了涉及移动订户的 信息元素。除了 UIM 38之外,移动终端10还可以配备存储器。例如,移动终端10可以包 括易失性存储器40,例如包含用于临时存储数据的高速缓存区域的易失性随机存取存储器 (RAM)。该移动终端10还可以包括其他非易失性存储器42,其中所述非易失性存储器可以 是嵌入式的和/或可以是可移动的。作为补充或替换,非易失性存储器42可以包括电可擦 可编程只读存储器(EEPROM)、闪存等,诸如可以从加利福尼亚州的Sunnyvale市的SanDisk 公司或加利福尼亚州的Fremont市的Lexar Media公司得到的存储器。这些存储器可以 存 储多种信息和数据中的任何一种,这些信息供移动终端10使用以便实施移动终端10的功 能。例如,这些存储器可以包括能够唯一标识移动终端10的标识符,例如国际移动设备标 识(IMEI)码。图2是根据本发明示例性实施方式的无线通信系统的示意性框图。现在参考图 2,该图提供了一种从本发明示例性实施方式中获益的系统的图示。该系统包括多个网络设 备。如图所示,一个或多个移动终端10中的每一个都可以包括用于向基点或基站(BS)44 传送信号以及从基点或基站(BS)44接收信号的天线12。基站44可以是一个或多个蜂窝或 移动网络的一部分,其中每个蜂窝或移动网络都包括操作网络所需要的单元,例如移动交 换中心(MSC)46。正如本领域技术人员公知的那样,移动网络也可以被称为基站/MSC/互 连功能(BMI)。在工作中,当移动终端10发起和接收呼叫时,MSC 46能够路由往来于移动 终端10的呼叫。当在某个呼叫中涉及移动终端10时,MSC 46还可以提供与陆线干线相连 的连接。另外,MSC 46能够控制往来于移动终端10的消息的转发,并且可以控制往来于消 息收发中心且针对移动终端10的消息的转发。应该指出的是,虽然在图2的系统中显示了 MSC 46,但是MSC 46仅仅是一个示例性网络设备,并且本发明的实施方式并不限于在使用 了 MSC的网络中运用。MSC 46可以耦合到数据网络,例如局域网(LAN)、城域网(MAN)和/或广域网 (WAN)。MSC 46可以直接耦合到数据网络。然而,在一个典型实施方式中,MSC 46耦合到 网关设备(GTW) 48,而GTW48耦合到WAN,例如因特网50。而诸如处理元件(例如个人计算 机、服务器计算机等等)之类的设备可以经由因特网50耦合到移动终端10。例如,如下所 述,处理元件可以包括与如下所述的计算系统52、源服务器54、视觉搜索服务器51、视觉搜 索数据库53等等相关联的一个或多个处理元件。BS 44还可以耦合到信令GPRS (通用分组无线服务)支持节点(SGSN) 56。正如 本领域技术人员所知道的那样,SGSN 56通常能为分组交换服务执行与MSC 46相类似的功 能。与MSC 46相似,SGSN56可以耦合到数据网络,例如因特网50。该SGSN 56可以直接耦 合到数据网络。但在更典型的实施方式中,SGSN 56耦合到分组交换核心网络,例如GPRS 核心网络58。然后,该分组交换核心网络耦合到另一个GTW 48,例如GTW GPRS支持节点 (GGSN) 60,并且所述GGSN 60耦合到因特网50。除了 GGSN 60之外,分组交换核心网络还 可以耦合到GTW 48。此外,GGSN 60也可以耦合到消息收发中心。在这点上,与MSC 46相 似,GGSN 60和SGSN 56可能能够控制诸如匪S消息之类的消息的转发。GGSN 60和SGSN 56还能控制往来于消息收发中心的针对移动终端10的消息的转发。此外,通过将SGSN 56耦合到GPRS核心网络58以及GGSN 60,诸如计算系统52和/或源服务器54之类的设备可以经由因特网50、SGSN 56以及GGSN 60耦合到移动终端 10。就此而论,诸如计算系统52和/或源服务器54之类的设备可以经由SGSN 56、GPRS核 心网络58以及GGSN 60与移动终端10进行通信。通过直接或间接地将移动终端10和其 他设备(例如计算系统52、源服务器54、视觉搜索服务器51、视觉搜索数据库53等等)连 接到因特网50,移动终端10可以与其他设备通信以及相互通信,其中例如,所述通信可以 依据超文本传输协议(HTTP)和/或类似协议,由此可以执行移动终端10的各种功能。虽然在这里没有显示和描述每个可能的移动网络中的每个元件,但是应该了解, 移动终端10可以通过BS 44耦合到多个不同网络中的一个或多个网络。在这点上,所述 一个或多个网络能够支持依照第一代(IG)、第二代(2G)、2. 5G、第三代(3G)、3.9G、第四代 (4G)移动通信协议等众多协议中的一个或多个协议的通信。例如,一个或多个网络能够支 持依照2G无线通信协议IS-136 (TDMA)、GSM和IS-95 (CDMA)的通信。此外,例如,一个或多 个网络能够支持依照2. 5G无线通信协议GPRS、增强型数据GSM环境(EDGE)等等的通信。 更进一步,例如,一个或多个网络能够支持依据3G无线通信协议的通信,诸如采用了 WCDMA 无线电接入技术的UMTS网络。某些窄带模拟移动电话服务(NAMPS)以及全接入通信系统 (TACS)网络同样可以得益于本发明的实施方式,并且双模式或更高模式的移动台(例如数 字/模拟或TDMA/CDMA/模拟电话)也应如此。移动终端10还可以耦合到一个或多个无线接入点(AP)62。AP62可以包括被配置 成根据诸如射频(RF)、蓝牙(BT)、红外(IrDA)或是多种不同无线组网技术中的任何一种的 技术来与移动终端10进行通信的接入点,其中所述无线组网技术包括无线LAN(WLAN)技 术,例如 IEEE 802. 11 (例如 802. Ila,802. lib,802. Ilg,802. Iln 等等)、诸如 IEEE 802. 16 之类的全球微波接入互操作性(WiMAX)技术、和/或诸如IEEE 802. 15之类的超宽带(UWB) 技术等等。AP 62可以耦合到因特网50。与MSC 46相同,AP 62可以直接耦合到因特网50。 但在一个实施方式中,AP是经由GTW 48间接耦合到因特网50。此外,在一个实施方式中, BS 44可以被认为是另一个AP 62。正如所了解的那样,通过直接或间接地将移动终端10 和计算系统52、源服务器54和/或多个其他设备中的任意设备连接到因特网50,移动终端 10既可以相互通信,也可以与计算系统等等通信,由此执行移动终端10的各种功能,例如 向计算系统52传送数据、内容等等和/或接收来自计算系统52的内容、数据等等。这里使 用的术语“数据”、“内容”、“信息”以及类似的术语可以可交换地用于指示那些能够依照本 发明实施方式而被传送、接收和/或存储的数据。由此,任何此类术语的运用不应该限制本发明的实施方式的实质和范围。应当理解,通过直接或间接地将移动终端10和计算系统52、源服务器54、视觉搜 索服务器51、视觉搜索数据库53和/或多个其他设备中的任意设备连接到因特网50,移动 终端10既可以相互通信,也可以与计算系统52、源服务器54、视觉搜索服务器51、视觉搜 索数据库53等等进行通信,由此执行移动终端10的各种功能,例如向计算系统52、源服务 器54、视觉搜索服务器51和/或视觉搜索数据库53等等传送数据、内容等等,和/或接收 来自计算系统52、源服务器54、视觉搜索服务器51和/或视觉搜索数据库53等等的内容、 数据等等。例如,视觉搜索服务器51可以具体实现为一个或多个其他服务器,例如可以提 供与一个或多个移动终端10或是一个或多个兴趣点(POI)的地理区域相关的地图数据的 视觉地图服务器,或是可以存储与一个或多个POI的地理位置有关的数据以及可以存储涉及不同兴趣点的数据的POI服务器,其中所述数据包括但不局限于POI的位置、POI的类别(例如咖啡店或餐厅、运动场、音乐会等等)、涉及POI的产品信息等等。相应地,例如,移动 终端10可以捕获图像或视频剪辑,并且所述图像或视频剪辑可以作为查询而被传送到视 觉搜索服务器51,以便在与视觉搜索数据库53中存储的图像或视频剪辑的比较中使用。同 样,视觉搜索服务器51可以执行与相机模块36所获取的图像或视频剪辑的比较,并且确定 这些图像或视频剪辑与视觉搜索数据库53中存储的图像或视频剪辑是否接近以及接近的 程度。虽然在图2中没有显示,但是作为将移动终端10经由因特网50耦合到计算系统 52和/或视觉搜索服务器51以及视觉搜索数据库53的补充或替换,移动终端10和计算系 统52和/或视觉搜索服务器51以及视觉搜索数据库53还可以相互耦合和通信,其中例如, 所述通信依照的是RF、BT、IrDA或是多种不同的有线或无线通信技术中的任何一种,这其 中包括LAN、WLAN、WiMAX和/或UWB技术等。或者作为补充或替换,计算系统52、视觉搜索 服务器51和视觉搜索数据库53中的一个或多个可以包括能够存储内容的可移动存储器, 这些内容此后能被传送到移动终端10。更进一步,移动终端10可以耦合到一个或多个电子 设备,例如打印机、数字投影仪和/或其他多媒体捕获、生成和/或存储设备(例如其他终 端)。与计算系统52、视觉搜索服务器51以及视觉搜索数据库53相同,移动终端10可以被 配置成与便携电子设备进行通信,其中例如,所述通信依据的技术可以是RF、BT、IrDA或是 多种不同有线或无线通信技术中的任何一种,这其中包括通用串行总线(USB)、LAN、WLAN、 WiMAX和/或UWB技术等。图3描绘了根据本发明一个示例性实施方式的用于执行视觉搜索的设备的示例 性框图300。框图300包括以下操作创建网格310、捕获训练图像和相关信息320、建立 数据库330、标识内核340、接收标记了位置的查询图像350、执行图像匹配360和提供结果 370。在操作310,可以建立网格系统以便促进与标记了位置的训练图像和关联信息或者用 于建立数据库的源信息的关联性。在操作320,可以捕获训练图像和相关信息。如所描绘 的,将标记了位置的训练图像和相关信息与网格相关联促进在330处的视觉搜索数据库的 创建。可以在340标识该数据库的基于位置的子集或者内核。可以在350接收标记了位置 的查询图像,并且可以在操作360中针对与内核340相关联的特征匹配标记了位置的查询 图像,即执行图像匹配。一旦识别出匹配,则可以在370提供视觉搜索的结果。这样,示例 性框图300描绘了本发明的示例性概观。图4描绘了示例性的基于位置的网格400。基于位置的网格400包括单元格410。 基于位置的网格400可以使用任何类型的位置描述信息来定义,包括但不限于纬度/经度、 纬度/经度/高度三元组、位置指示符或者小区ID。图4中是在二维平面上描绘基于位置 的网格400。然而,可以想到基于位置的网格400可以是三维的,其中第三维可以使用例如 高度进行描述。基于位置的网格400的单元格(loXel)410可以描述为基于位置的网格400的基 本单元区域。如这里所使用的,术语“单元格”和“小区”可以互换使用以表示基于位置的 网格的基本单元区域。在示例性的基于位置的网格400中,每个单元格是正方形。然而,考 虑到单元格可以定义为任何形状区域,诸如圆形、长方形、任何其他多边形形状或者其他不 规则的形状。此外,在某些实施方式中,单元格可以具有灵活的半径。另外,所有的单元格不必是相同的形状或者大小。在某些实施方式中,单元格的大小和形状可以通过与特定单 元格相关联的特征的数量来确定。这样,特定单元格中包围的区域可以随着在例如视觉搜 索数据库53中添加、移除或者压缩特征而动态地变化。相应地,在某些实施方式中,单元格 大小可以是基于特定区域中对象的密度。此外,当基于位置的网格400是三维时,例如单元 格可以由三维多边形来定义。另外,来自示例性视觉搜索数据库的图像特征可以与图像中 描绘的对象所处的单元格相关联。可以将这种特征表示为单元格特征集。内核或者邻域可以定义为从特定单元格(创造的内核基础单元格)可见的区域。 在图4中,内核430可以由其基础单元格来定义。在某些实施方式中,基础单元格位于其内 核的中心。然而,可以想到,由于内核的视觉边界可以是不统一的,所以基础单元格可以位 于内核内的任何地方。此外,内核的大小可以由这样的距离进行限制在该距离视觉对象 不再是可辨别的或者具有高的被遮挡可能性。在某些示例性实施方式中,针对给定的基础 单元格,由于内核的区域大小是通过可见性确定的,所以可以将该内核区域考虑为常量。另 夕卜,在某些实施方式中,由于位于内核外部的对象可能从基础单元格看是不可见的,所以当 进行视觉搜索时不必考虑内核外部的图像。在图4中,该示例性内核被定义为包围基础单 元格和空间上邻近的单元格的区域。然而,可以想到,根据从内核的基础单元格中看的可见 程度,内核中的区域可以是任意数目的形状和大小。相应地,在某些实施方式中,内核可以 包括由多个单元格或者单元格的部分定义的区域。在某些实施方式中,将与从基础单元格中可见的对象相关联的所有特征与内核相 关联,这些特征可以表示为内核特征集。这样,在某些实施方式中,内核特征集包括执行视 觉查询所需的所有特征,在该视觉查询中查询图像是从内核的基础单元格中的位置捕获 的。相应地,在某些示例性实施方式中,为了管理包含在特定内核中的特征数量,以及因此 管理视觉搜索的速度与效率,可以调整基础单元格的大小。较小的基础单元格可以产生较 小的内核,并且相应地导致内核特征集中的特征较少,因为对于较小的单元格而言较少的 对象可以是可见的。类似地,较大的基础单元格可以产生较大的内核并且相应地导致关联 的内核特征集中的特征增加。改变基础单元格的区域大小和相应的内核特征集的大小,例 如可以允许向移动终端10传送内核,其中移动终端10中的存储器的存储能力可能是有限 制的。因此,在某些实施方式中,内核可以定义示例性视觉搜索数据库53中的与基础单元 格相关联(并且最终与示例性移动终端10的位置相关联)的特征子集。此外,在某些实施 方式中,内核的形状或大小可以是变化的,其中关联的基础单元格的形状和大小仍然是固 定的。另外,当考虑上下文、情境和优选信息时,多个内核可以与单个基础单元格相关联。上下文和情境条件诸如但不限于,一天中的时刻、一年中的时间、当前天气情况以及白 天与晚上情况,其可以用于在给定那些条件下标识针对基础单元格的适当内核。此外,优选 条件诸如但不限于,带宽使用、带宽可用性、存储器使用、存储器容量、会议模式、休假模式 或者可能影响对象匹配的任何其他条件,其可以用于在特定上下文、情境或者优选条件下 标识针对给定基础单元格的适当内核。基于位置的网格400、单元格410和内核420 —起可以用于组织并且标识视觉搜索 数据库中的特征。这样,结果得到的组织可以将视觉搜索集中到较大数据库的较小部分上。 这样做,可以改进视觉搜索功能的速度和效率。此外,由于这样组织,数据库的移动性是可行的,因为数据库的小部分可以先于针对视觉搜索的用户请求进行标识。图5是根据本发明示例性实施方式的方法的流程图。应当理解,流程图的每个框 或者步骤和流程图中框的组合可以通过各种装置来实现,诸如硬件、固件和/或包括一个 或者多个计算机程序指令的软件。例如,所描述的一个或多个过程可以通过计算机程序指 令来体现。容易理解,可以将任何这种计算机程序指令加载到计算机或者其他可编程设备 (即,硬件)用于生产机器,从而在计算机或者其他可编 程设备上执行的指令可以创建用于 实现流程图框或者步骤中指定的功能的装置。这些计算机程序指令还可以存储到计算机可 读存储器,该计算机可读存储器可以命令计算机或者其他可编程设备以特定的方式工作, 从而存储在计算机可读存储器中的指令生产出包括实现流程图框或者步骤中指定的功能 的指令装置的制品。计算机程序指令还可以加载到计算机或者其他可编程设备,用于产生 一系列在计算机或者其他可编程设备上执行的可操作步骤以产生计算机可实现的过程,从 而在计算机或者其他可编程设备上执行的指令提供了用于实现流程图框或者步骤中指定 的功能的步骤。相应地,流程图的框或者步骤支持用于执行指定功能的装置的组合、用于执行指 定功能的步骤的组合和用于执行指定功能的程序指令装置。还应当理解流程图的一个或者 多个框或者步骤以及流程图中框或者步骤的组合,可以通过执行指定功能或者步骤的专用 的基于硬件的计算机系统来实现,或者可以通过专用硬件和计算机指令的组合来实现。图5描绘了构建视觉搜索数据库方法500的流程图。在某些实施方式中,视觉搜索 数据库可以是视觉搜索数据库53。方法500包括以下操作获取训练图像和相关信息510、 将训练图像和相关信息与单元格相关联520、执行特征提取和分派鲁棒性值530,以及生成 元特征540。虽然是以特定的顺序对方法500的操作进行描述,但可以想到不同的操作顺 序。此外,可以想到方法500的某些或者所有操作可以在本地例如移动终端10上执行,或 者远程地例如在视觉搜索服务器51上执行。在操作510,可以执行获取训练图像和相关信息。训练图像和相关信息可以从包括 但不限于因特网、视觉搜索查询数据、专属数据库的许多源,以及其他电子或者非电子的源 获取。例如,标记了位置的图像可以用作训练图像和关联信息,所述标记了位置的图像例如 是具有包括位置信息的关联元数据或者其他标签的图像,或者诸如关联网站上的那些具有 位置信息的图像,例如包括位置指示的内容的图像。此外,例如,移动终端10捕获的标记了 位置的查询图像可以是训练图像和关联信息的源。相应地,可以将训练图像和关联信息从 多个源汇集,以便添加至例如视觉搜索数据库53。这样,在某些实施方式中,根据方法500 的视觉搜索数据库的构建可以是个连续过程,其中标记了新位置的查询图像或者标记了位 置的网站图像不断地作为训练图像被添加至数据库,并且方法500的操作在这些新的训练 图像和相关信息上执行。另外,随着每个训练图像被添加至数据库,可以给训练图像分派唯 一的ID以用作与包括在该训练图像中的特征相关联的索引。获取训练图像和相关信息510可以进一步包括如下过程,其将训练图像和相关信 息与其他训练图像和相关信息聚合在一起。可以执行有监督的训练过程,其基于出现在集 群中的每个训练图像的对象(诸如建筑物、商业机构或者自然地标)来聚集训练图像和相 关信息。可以执行无监督的训练过程,其中没有产生对象关系,而是根据相似性将训练图像 和相关信息聚集。
在操作520中可以执行将训练图像和相关信息与单元格相关联。每个训练图像可 以标有位置信息,诸如包含位置信息的元数据。这样,由于单元格可以定义为基于位置的区 域,所以训练图像可以通过标识了相应单元格中的位置的训练图像的位置信息与单元格相 关联。在操作530可以执行特征提取和分派鲁棒性值。可以通过称作特征提取的过程将 训练图像分解成关联特征。可以对提取的相同对象的图像的特征进行处理并且分组。可以 将对应于相同对象但是在不同条件下(诸如不同的视角、距离和照明条件)得到的共同特 征进行分组。这样,可以从每个图像生成与特定单元格相关联的关于视点和照明改变的视 觉特征集。此外,最近邻近者搜索结构可以被用来确定特征的鲁棒性。可以将与一个单元格相关联的所有特征插入至最近邻近者搜索数据结构。最近邻近者搜索数据结构可以通过特 征参数空间来组织,并且可以潜在地是高维度的。相应地,针对单元格中的每个视觉特征, 最近邻近者搜索结构可以用于寻找与另一个特征具有充分接近(例如,在一个预定的范围 内)的值的所有特征。此过程可以用于确定最近邻近者搜索数据结构中一个特征的邻近 者。由于针对特定特征标识了邻近者,所以可以递增特征计数或者鲁棒性值,并且可以通过 将训练图像的ID添加至与该特征相关联的图像列表来将那些特征分组在一起。越是鲁棒 的特征将具有越高的计数。在某些实施方式中,可以在视觉搜索中回避那些具有特定计数 (经常是较低计数)的特征。在其他实施方式中,具有特定计数(例如小于预定阈值的计 数)的特征由于鲁棒性不足而不被包括在内核特征集中。然而,在某些实施方式中,具有特 定计数的特征可以依然存储在视觉搜索数据库中,这敞开了这些特征可能随着特征被添加 至数据库而变得更加鲁棒的机会。在操作540可以执行生成元特征。由于特征计数大于0表示若干特征被分在一组 组在一起,该特征分组可以由元特征取代。元特征可以计算为分组特征的平均和关联的边 界框。另外,可以确定不变的描述符或者值。在某些实施方式中,可以通过使用诸如以不同 图像比例的边和角之类的图像特征来确定不变的描述符或值。这些特征可以用于计算特征 周围区域中的图像统计,用于确定不变的描述符。在某些实施方式中,针对每个元特征,可 以存储不变的描述符或值、边界框、与元特征相关联的或者包括在元特征中的训练图像的 索引以及关联的信息。注意,当涉及视觉搜索过程时,术语特征和元特征可以互换使用。在某些实施方式中,可以将作为方法500操作的结果构建的数据库存储至诸如视 觉搜索服务器51之类的服务器上。同样地,在允许的存储器限制内,在某些实施方式中,可 以将作为方法500操作的结果构建的数据库存储至例如移动终端10上。图6a的流程图描绘了执行视觉搜索的方法600。该方法包括使用位置信息标识基 础单元格610、使用基础单元格标识内核620、接收查询图像特征630、通过将查询图像特征 与内核特征集进行比较来执行内核特征集的视觉搜索640,以及返回搜索结果650。虽然是 以特定的顺序对方法600的操作进行描述,但可以想到不同的操作顺序。此外,可以想到方 法600的某些或者所有操作可以在本地例如移动终端10上执行,或者远程地例如在视觉搜 索服务器51上执行。在操作610可以执行使用位置信息标识基础单元格。位置信息可以例如从进行或 者请求视觉搜索的移动终端10的定位传感器37得到。位置信息可以是任何类型的位置描述信息,包括但不限于纬度/经度、纬度/经度/高度三元组、位置指示符或者小区ID。相应地,可以使用位置信息标识基础单元格,其中位置信息描述了该基础单元格中的位置。因 此,根据本发明的某些实施方式,可以使用移动终端10的定位传感器37提供的位置信息来 确定移动终端10所位于的基础单元格。在操作620可以执行使用基础单元格来标识内核。如上文所述,每个基础单元格 具有一个或者多个与其相关联的内核。在某些实施方式中,可以使用上下文、情境和优选条 件来标识适当内核。此外,在某些实施方式中,操作620可以通过标识示例性视觉搜索数据 库53中的内核来实现。在某些示例性实施方式中,移动终端10可以向视觉搜索服务器51 提供位置信息用于确定适当的内核。在其他示例性实施方式中,可以将视觉搜索数据库存 储在移动设备10上,并且内核的标识可以在移动终端10上实现。在某些实施方式中,操作620可以包括在移动终端10上从视觉搜索服务器51接 收内核特征集。例如,可以基于移动终端10的位置不断地更新移动终端10上的内核特征 集。这样,当移动终端10移到基础单元格外部时,移动终端10可以接收关于新的当前基础 单元格的新特征。例如,如果移动终端10移到一个基础单元格外部,那么可以接收到与当 前基础单元格相关联的新的内核特征集。备选地,由于内核特征集可以由多个单元格特征 集组成,并且邻近的内核有可能具有包含在这些内核内的重叠单元格,所以在某些实施方 式中,移动终端10可以仅接收不属于过去的内核特征集的一部分的单元格特征集。在由服 务器存储或者维护视觉搜索数据库的情况下,服务器可以重复地轮询移动终端的位置或者 移动终端可以重复地向服务器提供其当前位置,以便服务器可以确定移动终端是否移入不 同的单元格,从而需要更新内核特征集。备选地,移动终端可以本地存储当前基础单元格的 边界,这样可以能够重复将其当前位置与当前基础单元格的边界进行比较。如果此实施方 式的移动终端确定该移动终端已经移入另一单元格,该移动终端可以向服务器提供其位置 或者新的基础单元格连同关于更新内核特征集的请求。此外,由于内核特征集可以由多个单元格特征集组成,所以可以将每个单元格特 征集存储为特征库中的一个单位或者特征块。图6b示出了一个示例性特征存储结构和视 觉搜索中使用的搜索结构。图6b进一步描绘了特征库660、特征665和特征块670。为了 促进内核特征集的更新,新近标识的单元格特征集可以作为特征块670进行存储。可以将 特征665存储至特征库,使得特征是高维度的。在某些实施方式中,在可用存储器容量是有 限的情况下,在达到存储器极限时,新近标识的单元格特征集可以替换特征库中的已有特 征块。在某些实施方式中,当达到存储器极限时,首先替换对应于距离例如移动终端10的 位置最远的单元格的特征块。在某些实施方式中,在不存在存储器限制的情况下,保持在特 征库中的单元格特征集可以保留在特征库中。此外,在某些实施方式中,其中特定的特征与 许多内核相关联,由特征要素替换特征可能是可行的。在某些实施方式中,可以出现更新内核特征集的过程,以便在执行移动视觉查询 的请求之前接收到内核特征集。这样,当数据库太大而不能整个存储在例如移动终端10上 时,以这种方式更新内核特征集促进了执行高效的移动视觉搜索的能力。此外,在某些实施 方式中,执行移动视觉搜索所需的所有特征可以在示例性移动终端10上获取。在其中内核 特征集不是基于移动而不断地更新的实施方式中,由于必须在真正执行视觉搜索之前响应 于执行视觉搜索的请求更新内核特征集,从而导致低效的视觉搜索响应。另外,在某些实施方式中,当在示例性移动终端10上传送和接收特征时,可以使用压缩机制和解压缩机制。在操作630可用执行接收查询图像特征。在某些实施方式中,移动终端10的相机模块36可以用于捕获查询图像。在某些实施方式中,可以在查询图像上执行特征提取以生 成查询图像特征。可以将查询图像特征例如存储至移动终端10的易失性存储器40或者非 易失性存储器42。在某些实施方式中,可以向视觉搜索服务器51传送查询图像特征和关联 的位置信息。在操作640可以执行通过将查询图像特征与内核特征集进行比较(或者更精确的 讲是执行特征匹配)来执行视觉搜索。在某些实施方式中,操作640可以在移动终端10上 执行,其中在移动终端10上接收内核特征集。在其他实施方式中,操作640可以在视觉搜 索服务器51上执行。在某些实施方式中,数据结构(诸如,内核最近邻近者搜索结构)可以基于内核特 征集生成,并且可以使用内核最近邻近者搜索结构来促进操作640。其结果可以是如下数据 结构其中特征通过位置进行索引并且继而根据特征相似性来搜索。图6b描绘了具有两个 最近邻近者搜索子结构675和680的内核特征集的示例性实施方式。此处示例性最近邻近 者搜索结构包括两个子结构675和子结构680,其进一步包括比较器685和特征指针690。 针对每个查询图像特征,可以在最近邻近者搜索结构的每级在比较器与查询图像特征之间 进行比较。在某些实施方式中,比较器可以将针对特征描述符的每个维度的值与和比较器 相关联的值之间的差进行相加。在其他实施方式中,比较器可以将针对特征描述符的每个 维度的值与和比较器相关联的值之间的差的平方进行相加。如果一个特征越接近地匹配一 个特定比较器,该过程可以移至该结构的关联分支。继续该比较过程直到达到该结构的最 低级,即指针690。一旦针对指针确定了匹配,那么该指针将指示特征库660中的关联特征 的位置。此外,当确定了特征匹配时,可以将关于所存储特征的训练图像的吻合度保留。在 匹配了查询图像的每个特征之后,使用利用特征存储的训练图像索引来标识具有最高吻合 度的训练图像。在某些实施方式中,在训练图像的吻合度没有达到设置值的情况下,可以消 除该训练图像是一个潜在对象匹配。举例来说,查询图像可以包括三个指定为Fl、F2和F3的特征。基于上述技术,特 征Fl被确定为与图像II、图像12和图像13匹配;特征F2被确定为与图像12、图像13和 图像14匹配;以及特征F3被确定为与图像13、图像14和图像15匹配。这样,吻合度(例 如,特征匹配的总数)针对Il是1、针对12是2、针对13是3、针对14是2以及针对15是 1。如果图像必须具有多于一个特征匹配才被认为是潜在匹配,那么图像Il和15可以被消 除,从而图像12、13和14作为潜在匹配保留,而13则是最有可能的潜在匹配。在某些实施 方式中,可以通过考虑查询图像中特征的空间关系并且确保匹配的图像遵循类似的空间关 系来确认特征匹配结果。以这种方式确认匹配可以缓解图像中的噪声和图像中的对象的外 观改变的问题。这样,当匹配了所有查询图像特征,可以标识训练图像和关联信息。在某些实施方 式中,其中在移动终端10上执行搜索并且没有获取匹配的训练图像,可以向视觉数据库服 务器传送查询图像特征和位置信息,并且可以在服务器上执行特征匹配,其可以包括与移 动终端10没有接收到的特征(例如,非鲁棒性特征)的比较。另外,在某些实施方式中,在 向视觉搜索服务器传送查询图像特征和位置信息用于比较的情况下,查询图像特征和位置信息可以通过方法500添加至数据库。此外,可以脱离内核最近邻近者搜索结构将内核特征集存储至特征库660。当在 某些实施方式中将内核特征集和内核最近邻近者搜索结构存储到移动终端10上时,分开 存储内核特征集和内核最近邻近者搜索结构促进了特征库的更新。另外,当将新的单元格 特征集添加至特征库作为当前内核特征集的一部分时,可以做出对内核的最近邻近者搜索 结构的修改。在某些实施方式中,可以在移动终端10上接收具有操作620中论述的新的内 核特征集或者新的单元格特征集的新的内核最近邻近者搜索结构。然而,在某些实施方式 中,新的内核最近邻近者搜索结构可以使用更新的内核特征集在本地例如移动终端10上 生成。此外,在其他示例性实施方式中,可以在移动终端10上接收与新的单元格特征集相 关联的最近邻近者搜索结构的单元格部分。这些单元格最近邻近者搜索结构可以与示例性 移动终端10上的已有的内核最近邻近者搜索结构合并,或者保留作为独立的结构。如果进 行合并过程,在某些实施方式中,该单元格最近邻近者搜索结构可以简单地与已有的内核 最近邻近者搜索结构合并,而不考虑不再包含于当前内核中的内核最近邻近者搜索结构部 分。此外,内核最近邻近者搜索结构可以每隔一定间隔基于当前内核特征集进行完全重建。
在操作650可以执行返回搜索结果。例如,视觉搜索结果可以通过将结果显示到 移动终端10的显示器28上进行返回。搜索结果可以包括但不限于与匹配的训练图像相关 联的信息、关联的对象、图像或者与图像或对象相关联的信息。另外,在本发明的一个实施 方式中,搜索结果可以通过如下方式返回从视觉搜索服务器51向移动终端10传送结果, 继而将该结果显示到移动终端10的显示器28上。此外,在某些实施方式中,特征匹配过程 识别来自web页面的训练图像,可以将来自匹配过程的吻合度与分析web链接结构的更通 用的web页面重要性排名组合。这样,可以根据感兴趣的位置和对象返回相关web页面。如早先提到的,可以想到方法600的某些或者所有元件可以在本地例如移动终端 10上执行。另外,可以想到到方法600的某些或者所有单元可以在服务器例如视觉搜索服 务器51上执行。此外,可以想到,本发明的如下实施方式,其中在单个搜索期间,其中方法 600的某些单元在例如移动终端10上执行,而其他单元在例如视觉搜索服务器51上执行。对于这些发明所附属的领域中的技术人员来说,在得益于前面的说明书和相关附 图中给出的教导的情况下,众多修改以及本发明的其他实施方式都是可以想到的。由此应 该理解,本发明的实施方式并不局限于所公开的具体实施方式
,并且这些修改和其他实施 方式同样是包含在附加权利要求的范围中的。虽然在这里采用了特定的术语,但是这些术 语仅仅是在一般性的和描述性的意义上使用的,并不具有限制目的。
权利要求
一种方法,包括接收与基于位置的网格区域相关联的特征集,其中所述基于位置的网格区域进一步与设备的位置相关联;接收查询图像特征;通过将所述查询图像特征与所述特征集进行比较来执行视觉搜索;以及返回搜索结果。
2.根据权利要求1所述的方法,进一步包括使用上下文、情境和优选项条件来标识所 述特征集。
3.根据权利要求1所述的方法,其中所述特征集包括基于位置的元特征分组。
4.根据权利要求1所述的方法,其中所述视觉搜索使用最近邻近者搜索结构进行执 行,其中所述最近邻近者搜索结构包括比较器和特征指针。
5.根据权利要求1所述的方法,进一步包括从所述特征集中排除具有小于指定数量的 邻近者的特征。
6.根据权利要求1所述的方法,其中接收所述特征集包括当所述设备移入不同的基 于位置的网格区域时,通过接收与当前特征集中的特征不类似的特征来更新所述特征集。
7.根据权利要求1所述的方法,进一步包括向服务器传送所述查询图像特征和位置信 息,以针对与所述基于位置的网格区域相关联的附加特征来执行视觉搜索。
8.根据权利要求1所述的方法,进一步包括基于特征离所述设备的距离来从存储器部 件中消除特征。
9.一种设备,包括处理器,其被配置成接收与基于位置的网格区域相关联的特征集,其中所述基于位置的网格区域进一步与 设备的位置相关联;接收查询图像特征;通过将所述查询图像特征与所述特征集进行比较来执行视觉搜索;以及返回搜索结果。
10.根据权利要求9所述的设备,其中所述处理器进一步配置成使用上下文、情境和优 选项条件来标识特征集。
11.根据权利要求9所述的设备,其中所述处理器进一步配置成使用所述特征集构建 最近邻近者搜索结构,其中所述最近邻近者搜索结构包括比较器和特征指针。
12.根据权利要求9所述的设备,其中所述处理器进一步配置成从所述特征集中排除 具有小于指定限制的鲁棒性值的特征。
13.根据权利要求9所述的设备,其中所述处理器进一步配置成当所述设备移入不同 的基于位置的网格区域时,通过接收与当前特征集中的特征不类似的特征来接收特征集更 新。
14.根据权利要求9所述的设备,其中所述处理器进一步配置成向服务器传送所述查 询图像特征和位置信息,以针对与所述基于位置的网格区域相关联的附加特征来执行视觉 搜索。
15.根据权利要求9所述的设备,进一步包括用于存储所述特征集的存储器部件,并且 其中所述处理器进一步配置成基于特征离所述设备的距离从所述存储器部件中消除特征。
16.一种计算机程序产品,包括至少一个其中存储有计算机可读程序代码部分的计算 机可读存储介质,所述计算机可读程序代码部分包括第一可执行部分,用于接收与基于位置的网格区域相关联的特征集,其中所述基于位 置的网格区域进一步与设备的位置相关联; 第二可执行部分,用于接收查询图像特征;第三可执行部分,用于通过将所述查询图像特征与所述特征集进行比较来执行视觉搜 索;以及第四可执行部分,用于返回搜索结果。
17.根据权利要求16所述的计算机程序产品,其中所述第一可执行部分进一步配置成 使用上下文、情境和优选项条件来标识特征集。
18.根据权利要求16所述的计算机程序产品,其中所述特征集包括基于位置的元特征 分组。
19.根据权利要求16所述的计算机程序产品,其中所述第三可执行部分配置成使用最 近邻近者搜索结构执行视觉搜索,其中所述最近邻近者搜索结构包括比较器和特征指针。
20.根据权利要求16所述的计算机程序产品,其中所述第三可执行部分进一步配置成 从所述特征集中排除具有小于指定限制的鲁棒性值的特征。
21.根据权利要求16所述的计算机程序产品,进一步包括第五可执行部分,用于当所 述设备移入不同的基于位置的网格区域时,通过接收与当前特征集中的特征不类似的特征 来更新所述特征集。
22.根据权利要求16所述的计算机程序产品,进一步包括第五可执行部分,用于向服 务器传送所述查询图像特征和位置信息,以便针对与所述基于位置的网格区域相关联的附 加特征来执行视觉搜索。
23.一种设备,包括用于接收与基于位置的网格区域相关联的特征集的装置,其中所述基于位置的网格区 域进一步与设备的位置相关联; 用于接收查询图像特征的装置;用于通过将所述查询图像特征与所述特征集进行比较来执行视觉搜索的装置;以及 用于返回搜索结果的装置。
24.根据权利要求23所述的设备,进一步包括用于使用最近邻近者搜索结构来执行视 觉搜索的装置,其中所述最近邻近者搜索结构包括比较器和特征指针。
25.一种用于构建视觉搜索数据库的方法,所述方法包括 定义基于位置的网格;获取训练图像和相关信息;将所述训练图像和相关信息与基于位置的网格的一部分相关联; 执行特征提取; 分派特征鲁棒性值;以及 生成并存储元特征。
全文摘要
提供了用于视觉上搜索以类似网格的方式组织的特征集合的方法、设备和计算机程序产品。这样,可以接收与基于位置的网格区域相关联的特征集合。该基于位置的网格区域还可以与设备的位置相关联。在接收查询图像特征之后,可以通过将该查询图像特征与特征集合进行比较来执行视觉搜索。继而返回搜索结果。通过在基于设备位置而选择的特征集合中进行视觉搜索,从而可以增强搜索的有效性,并且搜索有可能可以由诸如移动设备之类的设备本身来执行。
文档编号G06F17/30GK101842788SQ200880114262
公开日2010年9月22日 申请日期2008年8月18日 优先权日2007年9月24日
发明者K·皮利, M·雅各布, N·吉尔方德, P·施洛特尔, R·格尔泽兹克祖克, W-C·陈, 熊银根, 王祥林, 高江 申请人:诺基亚公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1