专利名称:基于万维网的图像内容的检测、提取以及识别的制作方法
技术领域:
本发明涉及一种图像内容的检测(detection)、提取(extraction) 以及识别(recognition)技术。特别地,本发明涉及一种使用万维网 浏览器插件(web browser plug-in)来进行图像内容的检测、图像帧 的提取以及图像内容的识别的系统和方法。
背景技术:
计算机和电子文档仅限于在电子文档被计算机控制并且被计算机 输出至打印机并被打印在纸件上的环境中使用。电子文档一旦被打印 在纸件上,则该文档的纸件版和电子版的操作就各自独立。另外,目 前,打印和复印技术还不能把静态打印媒介(例如,纸件媒介)和动 态电子媒介连接起来;这里,动态电子媒介包括数字通信、网络、电 子信息传播、电子广告、在线娱乐以及电子商务等。在过去的几年中,个人数字助理(PDA)装置、手机(例如,相机 手机)、数码相机等的便携式计算装置和个人用电子装置的出现和普 及已经拓展了文档的概念,目卩通过将文档制作成可供电子阅读和检 索的形式,并且通过引进互动多媒体的功能,使文档还包含其电子版, 这是现有技术中的打印媒介所无法比拟的。但是,在连接电子文档和纸件文档的现有技术中存在一个问题, 即使用打印文档来访问或检索用于生成纸件文档的电子文档仍然非常困难和/或非常耗时。识别和检索与打印文档对应的电子文档的主 要障碍是打印文档向电子形式的转换,该电子形式被用来对打印文档 和电子文档进行比较。由于相机手机和扫描仪的激增,已经可以非常 容易地获取打印文档的图像,但是也还没有办法使用这些劣质图像对电子文档进行检索。另外,即使图像的质量很好,用于识别的计算量 也很大,并且计算结果的精度也不高。现有技术中还存在着一个问题,即在运行之前,几乎没有几个 类型的识别处理不需要专用的识别/通信软件安装至客户终端。另外,现有技术中还存在着一个问题,即没有办法通过使用纸 件和日常计算装置(例如,计算机等)的结合来有效地与电子文档进 行接口。目前,尽管已经有很多种方法可以实现与电子文档的接口, 例如工具条、按钮以及其他界面等,它们即可以单独地显示在计算机 屏幕上,也可以与鼠标控制器和键盘等的输入装置一起来使用,但是, 还没有一种接口可以与纸件(或其他有形媒介)和电子文档同时进行 操作。发明内容本发明是鉴于上述问题而提出的,其目的在于,提供一种通过使 用万维网浏览器插件来实现基于万维网的图像内容检测和图像提取的 系统。该系统的优点在于,可以在用户终端进行初期图像处理,以此来 确定图像是否适于识别处理以及是否适于提取用作处理的视频帧。用 户终端的图像处理最好通过万维网浏览器插件(以下简称"插件") 或者其他不需要安装至客户终端的小程序来实现。需要说明的是,这 里所说的"安装"是指将插件或其他小程序保存在永久存储装置中、以及/或者、对注册表(registry)进行修改。在一个实施例中,插件执行用于进行检测和提取视频帧的初期图 像分析,并且为服务器预留计算强化(compute-intense)的识别处理。 在一个实施例中,本发明的系统包括图像采集装置、万维网浏览器 (以下简称"浏览器")、插件以及识别服务器。插件还包括图像采集控制模块、分析模块以及传送模块;该传送模块用于将数据传送至识别服务器。插件对采集到的图像进行处理,以确定该图像是否包含 预定的内容,例如,图像是否为文档文本。然后,系统通过图像采集 装置和浏览器让用户能够将文档或其他类型的图像连接至电子数据。本发明还包括基于万维网的图像内容类型的检测方法。当插件的 初期图像处理检测到图像中的预定内容之后,该图像就被传送至识别 服务器进行内容识别。例如,如果初期图像处理确定了图像包含文档 文本,该图像就被传送至识别服务器进行文档识别。文档识别可以与 档案服务器或本地存储器(例如,客户终端的硬盘等)等各种文档资 源一起来使用。另外,在任何可上网的客户终端上,用户可以不需要 安装任何软件就能进行文档识别。运行时,还可以基于客户终端的参 数对插件进行修改。在服务器一侧,可以容易地与档案服务器等进行 整合,并且还可以容易地进行质量保证和软件升级。附图概述图1是本发明的一个实施例中的、基于万维网的图像内容检测和图 像提取的系统的示意图。图2是本发明的一个实施例中的、客户终端或识别服务器的功能框图。图3A是本发明的一个实施例中的、客户终端的存储单元的框图。 图3B是本发明的一个实施例中的、万维网服务器的存储单元的框图。图3C是本发明的一个实施例中的、识别服务器的存储单元的框图。 图4是本发明的一个实施例中的、浏览器和插件的框图。 图5A—5D是本发明的一个实施例中的、采集模块、检测模块、特 征提取模块以及检索模块的各种配置的框图。图6是本发明的一个实施例中的、基于万维网的内容类型检测方法 的流程图。图7是本发明的一个实施例中的、基于万维网的内容类型检测方法的互动示意图。图8是本发明的一个实施例中的、由检测模块所执行的基于万维网 的文本检测方法的流程图。图9是基于图8所示方法进行边缘检测的源程序图。图1 OA是本发明的一个实施例中的、由内容类型检测方法所生成的 用户界面的示意图。图10B是本发明的一个实施例中的、当匹配文档被找到时的用户界 面的示意图。图1 l是本发明的一个实施例中的、显示从档案服务器接收到的信 息的用户界面的示意图。图12是本发明的一个实施例中的、基于万维网的博客文本检测系 统和方法的功能图。图13是本发明的一个实施例中的、由基于万维网的博客文本检测 方法所生成的用户界面的示意图。图14是本发明的一个实施例中的、由与检索系统相连的图像文本 检测方法所生成的用户界面的示意图。图15是本发明的一个实施例中的、与检索系统相连的基于万维网 的图像文本检测系统和方法的功能图。图16是本发明的一个实施例中的、由图像文本检测方法所生成的 用户界面的示意图。图17A是本发明的一个实施例中的、由图像内容类型检测方法所生 成的用户界面的示意图。图17B是本发明的一个实施例中的、与QR码相 的视频被找到时的图17A的用户界面的示意图。
具体实施方式
以下参考
本发明的最佳实施方式。本发明提供一种使用插件来实现基于万维网的图像内容类型检测 和图像提取的系统。为了详细地描述该系统,以下给出了几个具体的 实施例,但是,本发明并不局限于这些具体实施例,只要不脱离本发 明的基本思想,也可以采用其他变化形式来代替。例如,在下述记载 中,本发明是以文本识别为对象进行描述的,但是,本发明也适用于 其他类型的识别,例如,指纹识别、人物面部识别以及条形码识别等。另外,需要说明的是,本文中使用的"处理"、"计算"、"确 定"或"显示"等术语是指计算机系统或其他类似电子装置的动作或 处理,这些动作或处理由计算机程序来实现。执行这些动作或处理的 计算机程序可存储在计算机可读存储介质中,例如,可存储在软盘、光盘、CD-R0M、磁光盘、R0M、 RAM、 EPR0M、 EEPR0M、磁卡、光卡或其 他适于存储的电子装置中,这些存储介质通过总线与计算机系统相连。 [系统的概要]参考图l。图l是本发明的一个实施例中的、基于万维网的图像内 容类型的检测系统100的示意图。如图1所示,参考由图像采集装置104所获得的内容(content) 102 的各种形式,本文中所使用的"内容类型(content type)"可以为 文本102a、条形码102b、指纹102c以及面部特征102d等。另外,本发 明使用插件来分析采集到的图像,并检测该图像中是否包含预定的内 容。例如,插件可以检测图像是否为文本(其中,文本为预定的内容 类型)。在本实施例中,系统100包括图像采集装置104、与图像采 集装置104相连的客户终端106、识别服务器108以及数据库110;该系统100被构成为可获取内容102的图像,并且从该图像中识别出具体的 内容类型。识别出内容类别后,再通过使用识别服务器108,以得到相 应的内容。在一些实施例中,在客户终端106和识别服务器108之间还 包含服务器107。图1是系统100采集内容102的图像的示意图,其中, 内容102例如可为文档或文档的一部分(即文本)102a、条形码102b、 指纹102c、面部图像10d或者其他图像。客户终端106使用插件来检测采集到的图像中的内容类型,并提取该图像,然后将提取的图像传送 至识别服务器108,这样,被提取的图像就可以与保存在数据库110中 的内容进行对比。图像采集装置104可以采用现有技术中的任何一种装置,例如,可 以采用能输出视频流或电子图像的网络摄像头(web camera)、手机 相机、数码相机或其他相机等。图像采集装置104用于获得视频或静态 图像。本发明的优点在于,可与低解像度图像采集装置一起使用。图 像采集装置104与客户终端106相连并与其进行通信,该通信可以是有 线方式的通信,也可以是无线方式的通信。在一个实施例中,图像采 集装置104可以是多功能周边设备的扫描仪,还可以是用于产生打印文 档的软件。在其他实施例中,图像采集装置104还可以是打印采集软件, 该打印采集软件用于采集由多功能周边设备打印的纸件文档的图像。 这些实施例中的图像采集装置104被用来采集由计算机(未图示)输出 或打印的文档。客户终端106执行和/或控制图像的采集、内容类型的检测、图像 的提取以及将图像传送至识别服务器108的各种操作。在一个实施例 中,客户终端106也可以进行特征提取,并使用所提取的特征对数据库 IIO进行检索。客户终端106与图像采集装置104相连,用于接收内容102 的图像。客户终端106还与识别服务器108相连,用于将图像传送至识 别服务器108。在一个实施例中,客户终端106包含个人计算机(参考图2)、浏览器308以及插件310 (参考图3)。在其他实施例中,客户 终端106包含无线装置,该无线装置可以是个人数字助理(PDA)、无 线电话、无线万维网浏览器、无线访问协议浏览器(wireless access protocol browser)或者其他可用于网络的装置。后面将对客户终端 106的一个实施例结合图2、图3A以及图4进行具体的说明。识别服务器108执行和/或控制对与所接收到的图像相对应的电 子文档进行识别的操作。在一个实施例中,识别服务器108执行特征提 取并对数据库110进行检索,以确定一个或多个与接收到的图像相对应 的电子文档。在其他实施例中,识别服务器108还可以进行内容类型检 测和图像提取。识别服务器108与数据库110相连,用于检索与客户终 端106所提供的图像相对应的内容。在一些实施例中,数据库110被包 含在识别服务器108中,或者,也可以用识别服务器108中的其他存储 装置来代替数据库IIO。另外,识别服务器108可以使用"混合媒体非 可视结合算法"(mixed media (腿R) invisible junctions algorithm) 对文档进行识别,该算法可参考申请日为2008年3月31日的美国专利申 请第12/059, 583号说明书,其名称为"Invisible Junction Feature Recognition for Document Security or Annotation", 本文弓l用该 专利文献的全部内容;或者,还可以使用其他基于薩R或不基于醒R的 文档识别算法对文档进行识别,这些算法例如可以是基于文档识别的 光学字符识别(optical character recognition: OCR)或者其他基 于文字边界的技术等,具体可参考非专利文献Hull, Jonathan J. et aL , Paper-Based Augmented Reality, icat, pp. 205-209, 17th Int, 1. Conf. on Artificial Reality and Telexistence (ICAT 2007). 2007,本文引用该非专利文献的全部内容。在其他实施例中,识别服 务器108包含档案服务器(document server),该档案服务器例如可 以包含Document Mall (日本Ricoh公司)、Enterprise ContentManagement (美国Alfresco of Palo Alto公司)、Lotus Notes (美 国IBM公司)、Shar印oint (美国Microsoft公司)。后面将对识别服 务器108的一个实施例结合图2和图3C进行具体的说明。在一个实施例中,系统100还可以包含服务器107,该服务器107设 置在客户终端106和识别服务器108之间,并分别与客户终端106和识别 服务器108相连。服务器107接收来自客户终端106的浏览器310的连接 请求;响应该连接请求,服务器107向客户终端106发送插件。因为插 件可以被提供给任何具有浏览器的客户终端,所以本发明的该特征具 有显著的优点。在一个实施例中,服务器107是现有技术中的万维网代 理服务器(web proxy server)。然后,服务器107将来自客户终端106 的图像、数据和命令传送至识别服务器108;之后,来自识别服务器108 的数据和命令等再返回至客户终端106。在一个实施例中,该操作是由 HTTP请求来实现的,该HTTP请求来自客户终端106,被送至识别服务器 108;另外,作为该HTTP请求的响应的HTTP响应,来自识别服务器108, 被送至客户终端106。数据库110可以是现有技术中的数据库,用于保存索引、电子文档 和其他电子内容、特征说明、以及、在进行内容类型比较和检索处理 中使用的其他信息等。数据库110可以包含多个数据库,g卩可以是多 个数据库的组合。在一个实施例中,数据库110被保存在一个多功能周 边设备(未图示)内。本发明的系统100具有如下优点系统100在客户终端106执行初期 图像处理,以确定图像是否适于识别服务器108的识别处理;通过使用 基于万维网的方法,客户终端侧的处理就可以由不需要安装至客户终端106的插件或其他小程序来实现;插件仅进行初期分析,并为识别服 务器108预留计算强化的识别处理;插件还可以提取一个或一组图像,并将其传送至识别服务器108,这样就可以最小化从客户终端106传送至识别服务器108的数据;文档识别可以与各种文档资源相结合来进 行,这些文档资源例如可以是档案服务器或者用于对本地机进行检索 的检索应用界面等;不需要在可以上网的装置上安装任何软件,使用 者就可以在该装置上进行识别处理;运行时,还可以根据客户终端的 参数修改插件;另外,在服务器一侧,可以容易地与档案服务器等进 行整合,并且还可以容易地进行质量保证和软件升级。 [系统的实施例]参考图2。图2是本发明的一个实施例中的、客户终端106或识别服 务器108的功能框图。如图2所示,客户终端106或识别服务器108最好包含控制单元250、 显示装置210、输入装置212、光标控制部214、通信装置216以及一个 或多个输入输出(10)装置218。控制单元250可包含算术逻辑单元、微处理器、通用计算机或者其 他可为显示装置210提供电子显示信号的信息装置。在一个实施例中, 控制单元250包含具有图形用户界面(GUI)的通用计算机,该图形用 户界面例如可以通过由WINDOW或UNIX等的操作系统下运行的Java程序 而生成。在一个实施例中,控制单元250执行一个或多个应用程序,这 些应用程序可以是绘图应用程序、文字处理应用程序、电子邮件应用 程序、财务应用程序以及万维网浏览器应用程序等,但是,本发明并 不限于这些应用程序。再参考图2。在图2中,控制单元250包含处理器202、主内存204以 及数据存储装置206 ,并且三者都被可通信地连接至系统总线208 。处理器202用于处理数据,并且可以包含各种计算架构,这些计算 架构包括复杂指令系统计算机(CISC)架构、精简指令系统计算机 (RISC)架构或者可执行复合指令系统的架构。另外,图2中尽管仅示 出了一个处理器,但是,控制单元205也可以包含多个处理器。主内存204用来存储由处理器202执行的指令和/或数据。指令和 /或数据可以包含用于执行本文中描述的任何一个和/或所有技术的 源码。主内存203可以是动态随机存储器(DRAM)装置、静态随机存储 器(SRAM)装置或者现有技术中的其他存储器装置。后面将结合图3至 图5对主内存204进行详细的说明。数据存储装置206为处理器202存储数据和指令,并且包含一个或 多个具有硬盘装置、软盘装置、CD-ROM装置、DVD-ROM装置、DVD-RAM 装置、DVD-RW装置、闪存装置或者现有技术中的其他存储装置的装置。 在一个实施例中,数据存储装置206包含数据库110。在其他实施例中, 数据库110可以通过现有的网络中的通信装置216和信号线220连接至 识别服务器108。系统总线208是共享总线,用于在控制单元250内传送信息和数据。 系统总线208可以是一个或多个包含工业标准结构(ISA)总线、外设 组件互连标准(PCI)总线、通用串行总线(USB)或者现有技术中具 有相似功能的其他总线的总线。另外,通过系统总线208连接至控制单 元250的其他部件包含显示装置210、输入装置212、光标控制器214、 通信装置216和输入输出装置218。显示装置210可以是用于显示本文中描述的电子图像和数据的任 何装置。在一个实施例中,显示装置210是液晶显示器(LCD)和发光 二极管(LED),用于向用户提供状态反馈、操作设置和其他信息等。 在其他实施例中,显示装置210可以例如是阴极射线管(CRT)或其他 类似的显示装置、显示屏或监视器。另外,在一个实施例中,显示装 置210具有触屏,并且/或者包含数位器,该触屏是显示装置210的屏 幕上覆盖的一个触摸式透明面板。显示装置210用于显示用户界面,后 面将结合图IO至图17B对该用户界面进行更详细的描述。在一个实施例中,输入装置212是键盘。键盘可以是QWERTY键盘、小键盘(key pad)或在触屏上创建的显示型键盘。光标控制部214是用 户输入装置,用于将位置数据以及选择的命令传送给处理器202。光标 控制部214可以包含鼠标、轨迹球、针、笔、触屏、光标键或者其他可使光标移动的装置。通信装置216用于将控制单元250连接至网络220,其可以包含多处理系统,在一个实施例中,其为网络控制器。处理系统的网络可以包 含局域网(LAN)、广域网(WAN)(例如,互联网)以及/或者其他 任何可以使多个装置互相通信的互连数据通路等。控制单元250也可以 使用现有技术中的方法连接至其他系统,例如,连接至使用TCP/IP、 http、 https以及SMTP等标准网络协议的网络等,这对所属技术领域的技术人员来说是周知的技术。一个或多个输入输出(1/0)装置218连接至总线208。这些I/0装置 218可以是其他系统(未图示)的一部分。例如,1/0装置218可以包含 图像扫描仪,用于获取文档的图像。1/0装置218也可以包含打印机, 用于生成文档。1/0装置218还可以包含音频输入/输出装置,用于通 过麦克风接收音频输入并通过扬声器播放音频输出。在一个实施例中, 音频装置可以是通用的音频卡(audio add-in/expansion card),该 音频卡可以在通用的计算机系统中使用。另外,1/0装置218还可以包 含一个或多个模数或数模转换器、以及/或者、 一个或多个用于音频 处理的数字信号处理器。在图2所示的客户终端106的实施例中,1/0装 置218包含上述网络摄像头(即图像采集装置104)。另外,需要说明的是,只要不脱离本发明的基本思想,客户终端 106或识别服务器108可以包含比图2所示部件更多或更少的部件。例 如,客户终端106和/或识别服务器108可以包含例如一级缓冲或二级 缓冲等的附加内存,或者还可以包含一个或多个专用集成电路(ASIC)。 另夕卜,客户终端106或识别服务器108除了单一总线208之外,还可以包含多条数据总线。多条总线可以加快客户终端106和/或识别服务器108内的图像数据的传输,并且可以实现例如向显示装置进行的用户界 面信息的同步数据传输。同样,附加的I/0装置218也可以连接至控制 单元250,这些附加的I/0装置218例如可以包含电子标签阅读器、数码 相机或摄影机、或者、其他连接或不连接至控制单元250并用于为控制 单元250采集和/或下载电子数据的装置等。另外,客户终端106或识 别服务器108的一个或多个部件,例如输入装置212和光标控制部212 等,也可以被省略。图3A至图3C分别是客户终端106、服务器107以及识别服务器108的 内存单元204a、 204b以及204c的实施例的框图。参考图3A。图3A所示为客户终端106的内存单元204a的实施例。在 这个实施例中,内存单元204a包含操作系统302、应用程序304、控制 模块306、浏览器308以及插件310。当然,内存单元204a也包含缓冲器 (未图示),该缓冲器用于存储数据以及在进行内容类型检测、图像 提取和图像传送过程中临时使用的其他信息等。另外,如上所述,内 存单元204a还存储由处理器202执行的指令和/或数据。该指令和/或数据包含用于执行本文中描述的任何一个和/或所有技术的源码。操 作系统302、应用程序304、控制模块306、浏览器308以及插件310由总 线208连接至处理器202,与系统100进行通信并协同工作。操作系统302最好采用现有技术中的操作系统,用户可通过应用界 面对其进行操作。在一个实施例中,操作系统302可以是例如基于 WINDOWS、 Mac OS X、 SOLARIS或LINUX的操作系统中的一种。内存单元204a也包含一个或多个应用程序304,这些应用程序可以 是绘图应用程序、文字处理应用程序、电子邮件应用程序、检索程序 以及财务应用程序等,但是,本发明并不限于这些应用程序。在一个 实施例中,应用程序304利用内存单元204a中的模块的功能来连接电子文档和纸件文档。例如,应用程序304可以将浏览器308和插件310作为 界面来使用,用以访问与纸件文档相对应的电子文档。更具体地,应 用程序340从纸件访问电子数据,并将电子数据粘贴/埋入至纸件的特 定位置,这样,用户以后就可以从该纸件检索上述电子数据;另外, 上述操作是通过使用相机作为工具来完成的。例如,当用户简单地操 作图像采集装置104并获取内容102的图像(即打印纸件)时, 一个 应用程序304可以检索打印纸件的电子文件(Microsoft Word文档、 Adobe PDF文档等);关于此技术内容,参考申请日为2006年7月31日 的美国专利申请第11/461,017号说明书,其名称为"System and Methods for Creation and Use of a Mixed Media Environment,,,本文引用该专利文献的全部内容。控制模块306用于控制内存单元204a的其他模块。具体而言,控制 模块306适于与应用程序304、浏览器306以及插件310进行通信并对它 们进行控制。控制模块306的动作将在后面参考附图进行详细的说明。 另外,需要注意的是,控制模块306在本实施例中被示为内存单元204a 的一个独立模块,但是,在其他实施例中,控制模块306也可以是其他 模块中的例行程序(routine)。浏览器308可以是现有技术中的IE浏览器(Microsoft公司)、 Firefox浏览器(Mozilla公司)、Safari浏览器(Apple公司)、无线电话 或者由生产商或无线服务供应商所提供的其他无线浏览器等。浏览器 308是通过执行应用程序(软件)而生成的,其目的在于使用户在其上 显示文本、图像和其他信息(网页)等,并与它们进行互动;这些文 本、图像和其他信息(网页)等,可以位于万维网的网站(website) 上,也可以位于局域网上。作为一种软件的应用,浏览器308提供一个 应用界面,可以与其他程序进行互动,该其他程序例如可以是插件310 等。插件310是一种辅助程序,其与浏览器308互动,用以进行本文所 描述的基于万维网的图像内容检测。在一个实施例中,插件310是一个 模块,当客户终端106的浏览器308向一个特定的网址发送请求时,客 户终端106就会从服务器107得到该模块310。插件310可以由一个文件 组成,该文件内可以记载命令、数据、和/或脚本语言等,并可在一 个已知的浏览器插件运行器内运行(例如, 一个".swf"文件可以在 Adobe Flash播放器内运行)。例如,插件310可以是记载了Action Script (—种Flash的脚本语言)的文件。在一个实施例中,插件是一 个".swf"文件,其可以在Adobe Flash 8. O或以上版本的Flash播放 器中播放。根据本发明的实施例,插件310可以提供本文所描述的基于 万维网的图像内容类型检测、提取和传送的一部分或全部的功能。插 件310不需要安装至客户终端106 (g卩不需要将插件310写入客户终端 106的硬盘内),但是,根据一个实施例,插件310与浏览器308进行登 记,并且当插件310被运行时其被存储在内存单元204a中。插件310对 采集的图像或视频流进行分析,以检测图像中的内容类型。例如,插 件310可以被构成为用来检测图像是否为文本(其中,文本是内容类 型)。后面将结合图4对插件310的一个实施例进行更详细的描述。
参考图3B。图3B所示为服务器107的内存单元204b的实施例。为了 便于说明和理解,在图3B中,与图3A中的具有相同或相似功能的部件 使用与图3A中的相同编号来表示。在一个实施例中,服务器107的内存 单元204b包含操作系统302、 一个或多个应用程序304 (可省略)、控 制模块306、发布模块320、传递模块322以及插件存储部324。其中, 操作系统302、 一个或多个应用程序304以及控制模块306已经在上文中 进行了描述,这里不再重复。发布模块320、传递模块322以及插件存 储部324连接至总线208,并由总线208连接至处理器202,与系统100进 行通信并协同工作。发布模块320是一软件,用于响应来自浏览器310的请求,将插件 310传送至客户终端106。发布模块320连接至总线208,通过总线208与 插件存储部324和客户终端106进行通信。在一个实施例中,发布模块 320从插件存储部324接收插件310,产生一包含插件310的HTTP响应, 并将该HTTP响应发送至客户终端106。在其他实施例中,发布模块320 也可以对插件310进行选择,以使其与要求插件310的浏览器的性能相 匹配。
传递模块322是一软件,用于在客户终端106和识别服务器108之间 传送数据和命令。特别地,当插件310被传送至客户终端106并被与浏 览器308进行注册时,插件310就与传递模块322进行通信。传递模块322 接收来自客户终端106的请求,并将其传送至识别服务器108。同样地, 传递模块322接收来自识别服务器108的响应,并将其传送至客户终端 106。这样,传递模块322就可以在客户终端106的插件310与识别服务 器108之间进行有效的通信。另外,这里是使用请求/响应的协议来对 服务器107进行描述的,但是,也可以使用其他任何通信协议,这对所 属技术领域的技术人员来说是显而易知的。再有,所属技术领域的技 术人员也应该知道,传递模块322也可以为万维网服务器(web server) 或代理服务器(proxy)提供例如转发(forwarding)、登录(logging)、 认证(authentication)、错误处理(error handling)、力口密(encryption) 和防护(security)等功能。
插件存储部324是内存单元204b的一部分,用于存储一个或多个插 件310。在一个实施例中,插件存储部324存储多个不同的插件,每个 插件适用于特定的浏览器和该浏览器上的附件(addon)。因为插件310 根据不同版本、不同类型(例如IE explore或Netscape等)的浏览 器和其上的附件(addon)被设计成了不同的形式,并被存储在插件存 储部324内,因此,经过这样处理的插件310就可以与不同版本、不同类型的浏览器以及附件(addon)相对应。
另外,如上所述,服务器107及其内存单元204b是作为不同的模块 被描述的,但是,所属技术领域的技术人员应该知道,在其他实施例 中,服务器107及其内存单元204b的功能也可以被合并至识别服务器 108及其内存单元204c,并且,识别服务器108也可以直接与客户终端 106进行通信。
参考图3C。图3C所示为识别服务器108的内存单元204c的实施例。 同样,为了便于说明和理解,在图3C中,与图3A和图3B中的具有相同 或相似功能的部件使用与图3A和图3B中的相同编号来表示。在一个实 施例中,识别服务器108的内存单元204c包含操作系统302、 一个或多 个应用程序304 (可省略)、控制模块306、通信模块330、特征提取模 块332以及检索模块334。其中,操作系统302、 一个或多个应用程序304 以及控制模块306已经在上文中进行了描述,这里不再重复。通信模块 330、特征提取模块332以及检索模块334连接至总线208,并由总线208 连接至处理器202,与系统100进行通信并协同工作。另外,需要说明 的是,所属技术领域的技术人员应该知道,在本文中,尽管描述的是 计算机的内存单元204的部分或模块,但是,这里言及的部分或模块也 可以存储在例如永久的数据存储装置206等其他存储媒介中,并且,还 可以通过具有多个不同的计算机(例如,终端/服务器)的网络220来 进行分配。
通信模块330是一软件,用于在服务器107和数据库110之间传送数 据并进行通信。通信模块330与服务器107进行通信,用以接收和传送 来自和送至客户终端106的浏览器308的数据和命令。通信单元330与数 据库110进行通信,用以发送请求和接收包含文件、数据以及命令的结 果。通信模块330还与特征提取模块332和检索模块334进行通信。例如, 通信模块330从服务器107接收图像,并将该图像提供给特征提取模块332以进行分析。同样,通信模块330接收来自检索模块334的数据,并 将该数据传送至服务器107以备用于传送给客户终端106 。
特征提取模块332是一软件,用于分析图像以生成一可被用来进行 检索的标准(criteria)。在一个实施例中,特征提取模块332与通信 模块330相连,用以接收被提取的图像。在其他实施例中,接收到被提 取的图像后,特征提取模块332将该图像分割成多个不连续的部分。例 如,所述图像如果被判定为是文本,特征提取模块332就将该文本分割 成词汇(或者字母、或者单词、或者句子)。在该例子中,提取出图 像特征,并生成相应的xml文件,该xml文件包含被打印的文本以及文 本框的位置;该被打印的文本以及文本框的位置例如可通过美国专利 申请第11/461, 017号说明书所记载的特征提取处理所获得,本文引用
该专利文献的全部内容。
在内存单元204c中,特征提取模块332可以包含一软件,该软件用 于根据从客户终端106接收到的图像进行内容识别。例如,对于文档或 文本的识别,该软件可以包含各种基于文本的识别的程序,这些基于 文本的识别例如可以是基于丽R的识别、基于OCR的识别或者基于词汇 边界的技术。对于条形码的识别,可以使用Tasman、 Quickmark或类似 的软件。对于指纹或面部的识别,可以使用现有技术中常用的生物特 征匹配应用程序(biometric matching applications)等。例如,生 物特征识别一般可参考非专利文献A. K. Jain, et al. , An Introduction to Biometric Recognition, IEEE, Transactions on Circuits and Systems for Video Technology 14:1, 4-20 (Jan. 2004); 面部识别一般可参考非专利文献W. Zhao, etal. , Face Recognition: A Literature Survey, ACM Computing Surveys (CSUR) 35:4, 399-458 (2003);面部检测一般可参考非专利文献E. Hjelmas & B. K. Low, Face Detection:A Survey,Computer Vision and ImageUnderstanding 83, 236-274 (2001);指纹识别一般可参考非专利文 献D. Maltoni et. al. , Handbook of Fingerprint Recognition (2003);本文引用这些非专利文献的全部内容。
检索模块334是一软件,用于在数据库110内进行检索。检索模块 334与特征提取模块332相连,用以接收由特征提取处理过程所生成的 检索标准。在一个实施例中,特征提取模块332产生或确认文本图像特 征(词汇),检索模块334将该文本图像特征作为关键词来使用,用以 通过文档识别检索来定位例如保存在数据库110中的相匹配的内容。在 另一个实施例中,特征提取模块332对条形码进行识别,用以产生一识 别号码,检索模块334使用该识别号码进行检索。在其他实施例中,特 征提取模块332对人的面部进行识别,用以产生一人名,检索模块334 使用该人名例如在数据库或其他社会性网络(例如,Linkedin)中进 行人物搜索。搜索模块334向数据库110发出请求,并接收来自数据库 110的识别结果,该识别结果经由通信模块330和服务器107被传送至客 户终端106。
内存单元204c还包含一个或多个应用程序304,该应用程序304包 括绘图应用程序、文字处理应用程序、电子邮件应用程序以及财务应 用程序等,但并不限定于此。在另一个例子中,应用程序304是一基于 纸件的图片维基百科(paper-based photo-wiki)程序,该程序通过 简单地将相机对准物理纸件的期望的位置,让用户粘贴从该纸件上拍 到的该位置的图片。还有一些其他应用程序304,例如用于访问或浏览 文档数据库的小说用户界面、数字化的笔或纸、地图导航器、复印机 或扫描仪的安全系统、相机游戏以及用于版权保护的复制品检测等。
另外,对于文档内容,其他的应用程序304还可以被用来进行注释、 连接其他信息、音频或视频的剪辑、基于文档建立网上社区或社会性 网络、以及、将用于教育的多媒体与识别出的文档相结合等。关于应用程序304的实例,可参考申请日为2008年3月31日的美国专利申请第 12/060, 2008号说明书,其名称为"Ad Hoc Paper-Based Networking with Mixed Media Reality",本文引用该专利文献的全部内容。 [插件310]
参考图4。图4所示为本发明的一个实施例中的插件310的框图。 如图4所示,插件310 (例如是一个".swf"文件)在客户终端106 内运行,用于进行图像中的文本检测。在一个实施例中,插件310包含 用户界面模块402、采集模块404、检测模块406以及传送模块408。
用户界面模块402是一软件,用于生成用户界面,后面将结合图 10-17B对生成的该用户界面进行详细的描述。在一个实施例中,用户 界面模块402与浏览器308协同工作,向用户生成一视觉反馈界面,该 视觉反馈界面内显示基于万维网的图像内容检测过程。用户界面模块 402也经由用户界面接收来自用户的数据和命令。用户界面模块402提
供基于万维网的内容类型检测过程的显示以及文档识别的结果,并且, 在一些实施例中,还生成多个网页。在一个实施例中,用户界面模块 402生成如图10A所示的用户界面1000。例如,在一个使用档案服务器 的实施例中,文档被识别后,就生成一个与该文档相关的网页,该网 页内包含关于该文档的各种信息,例如评注、标记部、与一致资源 定址器(URL: uniform resource location,以下简称URL)的链接、 与其他文档的链接、媒体剪辑等。图ll示出了与该实施例相对应的用 户界面1100的实例。
采集模块404是一软件,用于控制图像采集装置104,以获取内容 102的一个或多个图像。根据不同的实施例,图像可以是视频帧或静态 图像。采集模块404接收来自图像采集装置104的图像,并暂时保存这 些图像;检测模块406将对这些图像进行分析。采集模块404与图像采 集装置104和检测模块406相连。另外,不论所进行的检测的类型如何,即,不论是条形码检测、文本检测、指纹检测、面部检测或者其他类
型的检测等,采集模块404都生成一图像,以备进一步的分析。
检测模块406是一软件,用于通过分析一个或多个图像,来检测其 内容类型。后面将结合图8和图9对文本检测中的内容类型的检测功能 进行更详细的描述。除了文本检测,对于面部或物体的检测,例如, 对于轻量面部检测(lightweight face detection),插件310还可以包 含一基于颜色阈值的分析。在运行时,插件310可以根据客户参数被修 正,这些客户参数例如是时间、位置、客户装置的计算要求等。在一 个实施例中,检测模块406先进行一预备分析,该预备分析不是进行实 际的检测,而是进行一个简单的分析,以确定图像是否包含文本,进 而确定是否要将该图像传送出去,以使该图像接收随后的全面识别处 理。检测模块406与采集模块404相连,用以接收已被采集的图像。
传送模块408是一软件,用以对采集模块404所采集的图像进行过 滤,并将其转换为BMP(bit m即)图像,然后将其传送至服务器107。传 送模块408与采集模块404相连,用以接收图像。传送模块408还与检测 模块406相连,用以接收一期待类型的内容被检测出时的指示。在一个 实施例中,传送模块408对采集模块404所采集的图像进行过滤,目的 在于仅传送一帧,这一帧中包含检测到的内容类型。因为不是传送图 像采集装置104所采集到的视频的所有的帧,而是仅传送其中的一帧, 所以,这大大提高了传送速度,并且对客户终端106的网络连接的潜在 因素也无影响。如上所述,传送模块408将从采集模块404接收到的图 像转换成BMP图像,然后将该BMP图像作为HTTP请求的一部分传送至服 务器107,进而传送至识别服务器108。在其他实施例中,传送模块408 也可以传送多个BMP图像,其中,每个BMP图像对应于从采集模块404接 收的图像;或者,也可以传送从采集模块404接收的多个图像的多个BMP 文件。[其他配置]
图5A — 5D示出了与数据库110相连的客户终端106和识别服务器 108的其他四种不同的配置方式,所述基于万维网的内容类型检测在这 三者之间进行。尽管本文仅对这四种配置方式进行了特别的描述,但 是,所属技术领域的技术人员应该知道,只要不脱离本发明的基本思 想,也可以采用其他配置方式。另外,为了便于说明和理解,这些配 置方式是以主要构成要件(模块)为对象来进行描述的;当然,具体 运行时,也需要其他模块,这里省略其说明。这些主要构成要件(模 块)包括采集模块404、检测模块406、特征提取模块332和检索模块334。 在一些实施例中,客户终端106、服务器107和识别服务器108的内存单 元204a、 204b、 204c也可以包含下述图5A—5D中描述的模块。
图5A示出了第一种架构502,其中,客户终端106包含采集模块404 和检测模块406,识别服务器108包含特征提取模块332和检索模块334。 这种配置方式适于在客户终端106进行轻度的内容检测以及在服务器 108进行强化的内容识别。
图5B示出了第二种架构504,其中,客户终端106包含采集模块404、 检测模块406、特征提取模块332以及检索模块334。在这个例子中,模 块404、 406、 332以及334只有当客户终端106和服务器108在同一台机 器上时才能运行。另外,在这个例子中,检索模块334使用客户终端106 的存储器作为检索数据库,提供桌面型检索功能。在这个实施例中, 上述桌面型检索功能也可以与其他桌面型检索应用程序一起使用,例 如,通过使用其应用程序界面(API)来访问其功能。在这个例子中, 除了图10所示的标准界面1000之外,还具有与上述桌面型检索功能相 对应的其他界面,例如,如图12的用户界面1200中所描述的界面。
在另一个实施例中,使用桌面型检索功能,文档被识别后,其具 有与其相关的维基(wiki)页面或博客(blog)页面,这些维基(wiki)页面或博客(blog)页面可以通过编辑维基或博客、或者、通过使用基于 固R的编辑和注释技术来编辑,关于该技术,可参考申请日为2008年3 月31日的美国专利申请第12/060,206号说明书,其名称为"Indexed Document Modification Sharing with Mixed Media Reality", 本 文引用该专利文献的全部内容。图12示出了与该实施例对应的用户界 面1200的一个实例。
图5C示出了第三种架构506,其中,客户终端106仅包含一个非常 简单的插件310,该插件310包含采集模块404,并将所有采集到的图像 传送给识别服务器108,识别服务器108包含检测模块406、特征提取模 块332以及检索模块334。在这个例子中,识别服务器108包含检测模块 406 ,该检测模块406用于执行所述内容类型检测的功能。
图5D示出了第四种架构508,其中,客户终端106包含采集模块404、 检测模块406以及特征提取模块332,识别服务器108包含检索模块334。 这种配置方式适于大的文档和其他大的数据集合,其中,内容类型(例 如,文本类型)的检测和检索参数(例如,检索特征或文本中识别的 词汇等)的确定,可以在向一个大集合(例如,大文档)发送检索请 求(例如,关键字检索)之前,在客户终端106上使用插件310来进行。 在这个例子中,除了图10所示的标准界面1000之外,还具有与所述大 集合相对应的其他界面功能,例如,如图11的用户界面1100中所描述 的Alfresco文档管理服务器。
采集模块404、检测模块406、特征提取模块332以及检索模块334 可以识别各种各样的内容类型,例如,用于文本检索的文档/文本识 别、用于确认检索的条形码识别、以及、用于人物检索(例如,使用 社会性网络软件(Social Network Software))的面部识别等。因此, 在一个实施例中,模块404、 406、 332以及334被用作检索引擎的输入。 另外,在上述例子中,数据库110例如是文档服务器或其他大的数据集[方法和用户界面] 参考图6。图6是本发明的一个实施例中的、基于万维网的内容类 型检测方法的流程图。
如图6所示,所述方法开始于浏览器连接至一网页(步骤602), 该网页被显示在浏览器308上。然后,接收插件310 (步骤640),该插 件310与浏览器308协同工作,以实现步骤606至610所述的各种服务。 在一个实施例中,插件310包含一个".swf"文件;关于该".swf"文 件,参考上述图4及其相关说明。但是,需要说明的是,只要能与主应 用程序(浏览器308)互动并能提供本文所描述的各种功能,插件310
也可以是其他任何计算机程序。
然后,使用图像采集装置104获取图像(步骤606),该操作是插 件310的一个服务功能。在一个实施例中,图像采集装置104可以是手 机,另外,获取图像的操作可以通过安装在手机内的相机来完成。但 是,在另外其他实施例中,也可以使用其他方法和装置,例如,对于 一个文档,可以使用扫描仪来获取其图像,或者可以在打印时使用打 印机驱动器来获取其图像。接下来,对获取的图像进行分析(步骤608 ), 以确定其包含的内容的类型,该操作也是插件310的一个服务功能。例 如,该分析操作可以包含确定所述获取的图像是否包含文本内容、是 否包含包含条形码内容、是否包含指纹内容、或者、是否包含面部图 像或其他可识别的物体等。根据一个实施例,不同的插件被用来进行 不同的内容类型识别,例如, 一个插件用来进行文本检测,另一个插 件用来进行条形码检测。分析步骤608结束后,如果图像是所要的图像, 该图像就被标记为是可识别的图像,并被送出,例如,以用于对其进 行进一步的分析、识别和/或本文描述的其他操作等。之后,图像和 标识符(identifier)被送出,例如,被送至识别服务器108以对其进行识别处理。在一个实施例中,识别服务器108可以被设置在客户终端 106上,所以,在这种情况下,其实也没有实际的"送出"动作。
与此同时或者稍后,(例如从识别服务器108)接收(例如在识别 服务器108上进行的)识别的结果。该结果产生一个链接,这个链接被 提供给所述识别的内容、以及/或者、被提供给与显示在显示器614上 的被标识的图像相关的所述识别的内容。
参考图7。图7是本发明的一个实施例中的、基于万维网的内容类 型检测方法的互动示意图。
首先,客户终端106的浏览器308连接至服务器107提供的网页(浏 览器连接(步骤702))。然后,服务器107向浏览器308提供插件310
(插件提供(步骤704))。插件310提供步骤706、 708、 710、 712、 724、 726所述的功能。在一个实施中,服务器107可以是环球资讯网内 的服务器(web server)。
之后,插件310进行图像的获取(步骤706)和分析(步骤708)。 在步骤706、 708中,插件310提供界面(例如,界面IOOO)显示,这样, 用户就可以看到分析步骤708的进行状态。图8和图9示出了分析步骤 708的一个更详细的实例。
分析步骤708结束后,图像被赋予一个特有(唯一)的标识符(步 骤712)。接下来,该图像和标识符被送至服务器107,向识别服务器 108生成一个请求(步骤716),并提供一个所要识别的内容的目标位 置。识别服务器108进行图像内容的识别(步骤718),如果成功,则 输出内容识别结果(步骤720),并将所识别的图像保存至目标位置。 在一个实施例中, 一个成功的识别也可以同时伴随一个操作,S卩图 像内容的识别可触发(启动) 一个操作,该操作例如是播放一段视频 剪辑、文档记录、或者文档检索等。例如,图像是条形码时,如果成 功地识别出该图像是条形码,则该识别就会启动上述操作。然后,服务器107将识别结果通知给插件301 (步骤722)。插件310 控制界面(例如,界面IOOO),以显示内容的縮图表示(步骤726), 并更新连接至识别内容的链接。
参考图8。图8是本发明的一个实施例中的、由文本检测模块所执 行的基于万维网的图像文本检测方法的流程图。
如图8所示,所述方法开始于接收用于进行文本检测的图像(步骤 802)。然后,计算邻接像素的梯度(步骤804)。在一个实施例中, 是按组来对像素来进行计算的,例如,可以按每io个像素为一组来进
行计算。之后,如果算出的梯度超过了边缘阈值(edge threshold), 则增加边缘计数器的值。在一个实施例中,对垂直和水平的梯度进行 计算,并增加边缘计数器的值。接下来,将垂直和水平的边缘计数值 相乘(乘积计算)(步骤808),然后,与一个文本检测阈值进行比较 (步骤810)。如果相乘的结果超过了阈值,图像被标识(步骤812)并 准备被传送给识别服务器108。图9示出了与上述方法相对应的边缘检
测的动作的源程序。
参考图10A。图10A是本发明的一个实施例中的、由图像内容类型 检测方法所生成的用户界面1000的示意图。
如图10A所示,用户界面1000包含图像采集部1002、内容类型识 别部1004、图像检索显示部1006、以及、识别结果显示部1008。
在该实例中,内容类型是文本。图像采集部1002显示了由图像采 集装置104所获取的图像,这里,图中显示的是文本文档的一部分。内 容类型识别部1004将已经从图像中检测出的预定的内容类型(即文 本)通知给用户。内容类型识别部1004使用颜色和柱形图来显示其作 为所期望的内容类型的图像的可能性。图像检索显示部1006显示用于 内容匹配的检索图像。识别结果显示部1008向用户显示所识别出的内 容的縮图表示。在这个实例中,因为识别处理还没有完成,所以,在识别结果显示部内没有显示任何内容。
参考图10B。图10B是本发明的一个实施例中的、当匹配文档被找 到时的用户界面图像。
图10B除了一个文档标记被显示在识别结果显示部1008内之外,与 图10B基本相同;该文档标记是识别出的内容的链接IOIO。在这个例子 中,识别出的内容的链接1010是PDF图标,该PDF图标链接至一个识别 出的文档。识别出的内容的链接1010提供给用户一个直接的链接,该 链接直接指向一个所存储的、并且是相匹配的内容。
图10B还示出了一个识别结果显示窗口1012。在一个实施例中,当 用户点击上述识别出的内容的链接1010时,识别结果显示窗口 1012显 示所识别出的文档。在另一实施例中,不需要用户点击上述识别出的 内容的链接IOIO,识别结果显示窗口1012就可以自动地显示所识别出 的文档。在其他实施例中,当根据图像采集部1002的图像,识别或检 索出一个以上的文档时,识别结果显示窗口1012也可以显示这些文档 的列表。
参考图ll。图ll是本发明的一个实施例中的、显示从档案服务器 接收到的信息的用户界面图像,该用户界面是由图像文本检测方法生 成的。
如图11所示,用户界面1100包含一档案服务器部1102和一图像识 别部1104。图像识别部1104与上述图10A中描述的用户界面1000相似, 即包含图像采集部1002、内容类型识别部1004、检索图像显示部1006、 识别结果显示部1008、以及、识别出的内容的链接IOIO。
档案服务器部1102包含一空间列表1106,该空间列表1106内列出 了文档一览。当与档案服务器一起使用时,图像文本检测方法对由档 案服务器所存储和管理的文档进行检索。当使用档案服务器时,当识 别出文档之后,就具有一个与之相对应的网页,例如,该网页可包含图11所示的用户界面1100
参考图12。图12是本发明的一个实施例中的、基于万维网的博客 文本检测系统1200和方法的功能图。
如图12所示,基于万维网的博客文本检测系统1200是图6所示的基 于万维网的图像内容类型检测以及文档博客功能的一个实例。
在这个实例中,用户获取文档1202的一部分以及与该文档1202相 关的其他信息(步骤1210),这些其他信息例如是声音或文本评注1212、 标记块1214、网址链接1216、档案链接1218、媒体剪辑等。被汇编后 的这些信息被传送至档案服务器1220,在该档案服务器1220内,使用 画R等进行文档识别处理。之后,被识别出的、并被注释的文档1222作 为网页(1330)图像用户界面显示给用户,下面结合图13对其进行更 详细的描述。
参考图13。图13是本发明的一个实施例中的、由基于万维网的博 客文本检测方法所生成的网页用户界面的示意图。
如图13所示,网页用户界面1300包括识别出的文档1302 (与图12 中采集的文档1202相对应)以及与该文档1302相关的各种附加信息 1304,这些附加信息例如与图12中的1212、 1214、 1216、 1218相对应; 另外还包括一可视辨别指示部1306,其中显示出了每个附加信息1304。
参考图14。图14是本发明的一个实施例中的、由与桌面检索应用 程序(desktop search application)相连的图像文本检测方法所生
成的用户界面的示意图。
用户界面包括桌面检索部1402以及图像识别部1404。图像识别部 1404包括用户界面1000 (参考图10A和10B),即包括图像采集部1002、 内容类型识别部1004、检索图像显示部1006、识别结果显示部1008以 及识别的内容的链接IOIO。桌面检索部1402包括桌面检索结果显示部 1406,其与从获取的图像上识别出的文本相对应。桌面检索结果包括:电子邮件、文件、以及、保存在客户终端的网站历史记录等。在一个 实施例中,每个桌面检索结果1406包括一个文件名和一段检索出的内 容的简介。当桌面检索应用程序与本发明一起使用时,文档别识别后,
就具有一个与之相关的网页,如图14所示的用户界面1400。
参考图15。图15是本发明的一个实施例中的、与桌面检索应用程 序相连的基于万维网的图像文本检测系统1500和方法的功能图。
图15所示的与桌面检索应用程序相连的图像文本检测,是图6所示 的基于万维网图像内容类型检测以及桌面检测功能的一个实例。
在这个实例中,客户终端106是用户的计算机(个人电脑或其他无 线装置),识别服务器108是桌面检索应用程序,并位于用户计算机内。 所以,图中客户终端106和识别服务器108用虚线来表示,也就是说, 实际上两者位于同一台机器内。
在该实例中,文档可以被打印(步骤1502)、可以被打印采集(步 骤1504)、以及、可以使用醒R来对其进行存储(1332),关于这些技 术,上面已经进行了叙述,另外,还可以参考上面引用的专利文献 美国专利申请第11/461,017号说明书。打印采集(步骤1504)是上述 图5A—6所描述的采集步骤404、 606的一个实例。存储步骤包括存储至 画R数据库1334,该腿R数据库1334包括基于图像的文本特征(例如, 非可视连接)或者基于文字边界的特征;并且还包括存储至XML打印采 集数据库1510,该XML打印采集数据库1510包括打印的文本以及文本框 的位置的XML文件,该打印的文本以及文本框的位置例如是在步骤1504 中从打印机驱动器接收到的。
当基于万维网的图像文本检测与桌面检索应用程序一起使用时, 用户采集文档1514的一部分(步骤1512)。通过使用画R数据库1508, 可以确定文档1514和文档内的采集部分的提取位置。位置信息确定后, 对XML打印采集文件(1510)进行分析,以得到在那个页面和位置上的用于提取的文本;也就是说,不需要使用OCR处理就可以实现该操作。 从该文本就可以提取出关键词或N-grams 。在一个实施例中,这些步骤 是图5A—5D的分析步骤504和特征提取步骤332的一个实例。然后,使 用桌面检索应用程序界面(API)将提取出的关键词或N-grams递交至 桌面检索应用程序数据库1520。接下来,将桌面检索的结果显示在网 页上,例如,显示在图14的用户界面1400上。
参考图16。图16是本发明的一个实施例中的、由图像文本检测方 法所生成的用户界面1600的示意图。
如图16所示,在这个实例中,预定的内容类型是QR码,但是,图 16 — 17B也可以与条形码相对应。在一个实施例中,用户界面1600包含 图像采集部1602、内容类型识别部1604、以及、处理过程显示部1606。 需要说明的是,图像采集部1602包含一题目为"Ricoh Caplio R5 -Video Tour"的图像以及一QR码。
在该实例中,预定的内容类型是QR码。图像采集部1602显示由图 像采集装置104采集的图像,这里,该图像是具有OR码的文档。内容类 型识别部1604显示是否或多少预定的内容类型(例如,QR码)已经被 从图像中识别。处理过程显示部1606显示发送图像过程的进行状态(例 如,以百分比来显示),该图像用于进行内容匹配的检索。
参考图17A。图17A是本发明的一个实施例中的、由图像内容类型 检测方法所生成的用户界面1700的示意图。
如图17A所示,用户界面1700包括图像识别部1702和内容显示部 1704。图像识别部1702与上述的图16的用户界面相似,即包括图像 采集部1602、内容类型识别部1604、以及、处理过程显示部1606。内 容显示部1704与一应用程序相对应,检索操作与该应用程序相结合, 在这个实例中,内容显示部1704内显示的是一视频共享网站。
参考图17B。图17B是本发明的一个实施例中的、与QR码相配的视频被找到后的图17A的用户界面1700的示意图。
如图17B所示,在这个实例中,内容显示部1704显示与采集的QR码 相对应的视频1706,该视频1706的题目为"Ricoh Caplio R6 — Video Tour"。服务器识别QR码,并返回与该QR码相对应的视频共享网站的 URL;内容显示部1704播放该视频。
QR码的检测与上述结合图8所描述的关于文本的检测相似。特别 地,首先计算梯度(步骤804),然后使用一阈值来确定QR码是否存在 于图像中(步骤806 —810)。用于QR码的阈值为是否存在有很多暗像素 到亮像素的转变。如果是,对图像进行标识(步骤812),并将其送至 服务器被解码;这里,解码例如可以采用Tasman解码器来进行。另外, 关于条形码的检测,可以参考非专利文献"Jamey Graham et al. , The Video Paper Multimedia Playback System, MM 2003 (Nov. 2003),,, 本文引用该非专利文献的全部内容。
本发明并不局限于上述具体实施例,只要不脱离权利要求书的范 围,亦可采用其他变化形式代替,但那些变化形式仍属于本发明所涉 及的范围。
权利要求
1、一种基于万维网的文本检测方法,包括图像采集步骤,由与客户终端相连的采集装置采集图像;图像分析步骤,在所述客户终端对所述被采集的图像进行分析,以检测所述被采集的图像内的文本;文本图像特征确定步骤,根据检测到的所述被采集的图像内的文本,在所述客户终端确定用于检索的文本图像特征;文本图像特征传送步骤,从所述客户终端传送所述文本图像特征,以对档案服务器进行检索。
2、 根据权利要求1所述的文本检测方法,其中, 所述文本图像特征是词汇。
3、 根据权利要求1所述的文本检测方法,还包含 识别结果接收步骤,从所述档案服务器接收识别结果,该识别结果包含与所述文本图像特征相匹配的文档。
4、 根据权利要求3所述的文本检测方法,还包含 识别结果显示步骤,显示与所述文本图像特征相匹配的所述文档的縮图表示、以及、与所述文本图像特征相匹配的所述文档的链接。
5、 根据权利要求1所述的文本检测方法,其中, 所述分析包含边缘检测。
6、 一种基于万维网的文本检测方法,包括 图像采集步骤,由与客户终端相连的采集装置采集图像;图像分析步骤,在所述客户终端对所述被采集的图像进行分析, 以检测所述被采集的图像内的文本;文本图像特征确定步骤,根据检测到的所述被采集的图像内的文 本,在所述客户终端内确定用于检索的文本图像特征;检索步骤,将所述文本图像特征作为关键词,执行桌面检索。
7、 根据权利要求6所述的文本检测方法,还包括 识别结果接收步骤,接收识别结果,该识别结果包含与所述文本图像特征相匹配的文档。
8、 根据权利要求7所述的文本检测方法,其中, 所述文档是从由文件、邮件以及网站历史记录所组成的文档群中选出的。
9、 根据权利要求7所述的文本检测方法,还包含 识别结果显示步骤,显示与所述文本图像特征相匹配的所述文档的縮图表示、以及、与所述文本图像特征相匹配的所述文档的链接。
10、 根据权利要求6所述的文本检测方法,其中, 所述分析包含边缘检测。
11、 一种基于万维网的文本检测系统,包括 采集装置,其连接至客户终端,用于采集图像; 浏览器插件,其在所述客户终端对所述被采集的图像进行分析,并且,根据所述分析,检测所述被采集的图像内的文本,在所述客户 终端确定用于检索的文本图像特征;桌面检索应用程序界面,其将所述文本图像特征作为关键词,执 行桌面检索。
12、 根据权利要求ll所述的文本检测系统,其中, 所述浏览器插件接收识别结果,该识别结果包含与所述文本图像特征相匹配的文档。
13、 根据权利要求12所述的文本检测系统,其中, 所述文档是从由文件、邮件以及网站历史记录所组成的文档群中选出的。
14、 根据权利要求12所述的文本检测系统,其中, 所述浏览器插件显示与所述文本图像特征相匹配的所述文档的縮图表示、以及、与所述文本图像特征相匹配的所述文档的链接。
15、 根据权利要求ll所述的文本检测系统,其中, 所述分析包含边缘检测。
16、 根据权利要求11所述的文本检测系统,还包括 服务器,其提供在所述客户终端运行的所述浏览器插件, 其中,所述浏览器插件经由与所述客户终端相连的所述采集装置采集所 述图像,所述被采集的图像被所述服务器所接收,所述浏览器插件在所述服务器内对所述被采集的图像进行分析, 并且,根据分析出的所述被采集的图像内的文本,在所述服务器内确定用于检索的特征,所述服务器使用所述特征执行文档识别检索。
全文摘要
一种基于万维网的文本检测系统,包括采集装置,其连接至客户终端,用于采集图像;浏览器插件,其在所述客户终端对所述被采集的图像进行分析,并且,根据所述分析,检测所述被采集的图像内的文本,在所述客户终端确定用于检索的文本图像特征;桌面检索应用程序界面,其将所述文本图像特征作为关键词,执行桌面检索。
文档编号G06K9/00GK101582083SQ20091013804
公开日2009年11月18日 申请日期2009年5月4日 优先权日2008年5月15日
发明者乔纳森·J·赫尔, 伯纳·埃罗尔 申请人:株式会社理光