使用背景信息的移动装置上的光学字符辨识的制作方法
【专利摘要】本发明的实施例描述用于执行背景敏感OCR的方法和设备。装置使用耦合到所述装置的相机来获得图像。所述装置识别包括图形对象的所述图像的一部分。所述装置推断与所述图像相关联的背景且基于与所述图像相关联的所述背景来选择图形对象群组。使用所述图形对象群组来产生改进的OCR结果。可使用来自包含麦克风、GPS和相机等各种传感器的输入连同包含话音、触摸和用户使用模式的用户输入一起推断用户背景且选择与所述所推断的背景最相关的字典。
【专利说明】使用背景信息的移动装置上的光学字符辨识
[0001]相关申请案的交叉参考
[0002]本申请案主张2011年8月29日申请的标题为“具有背景信息的相机OCR (CAMERAOCR WITH CONTEXT INFORMATION) ”的第61/528,741号美国临时申请案的优先权,且所述申请案以引用的方式并入本文中。
【背景技术】
[0003]光学字符辨识(OCR)将书写的、打字的或印刷的文本、图形或符号的扫描图像机械地或电子地转变为机器编码的文本。OCR是在计算机视觉和扩增现实应用中的增长的研究领域。计算机视觉允许装置感知其附近的环境。计算机视觉通过允许来自与现实世界的终端用户交互的传感输入延伸到虚拟世界中而实现扩增现实中的应用。在现实实例应用中,具备计算机视觉功能的OCR可帮助视觉残障的个人感知例如智能电话等个人移动装置的相机的视野中的书写文本和符号。
[0004]模拟到数字变换的时代还促进了 OCR的应用以及所述技术中的改进。大多数文件柜和大型记录摘要系统会进行到数字可搜索媒体的变换。在OCR技术中的所有进步下,OCR仍不适合于具有有限处理能力的移动装置。来自由移动装置俘获的相机图像的字符和符号的无限辨识会由于对不同语言和不同文化的字、字符和符号的庞大选择而难以处理。因为OCR需要在移动装置上实时或几乎实时地运行以支持计算机视觉和扩增现实应用,所以计算复杂性也是问题。
[0005]本发明的实施例解决了这些和其它问题。
【发明内容】
[0006]本发明提供用于执行背景敏感OCR的技术。本文中所描述的技术对于具有有限处理能力的移动装置特别有用。然而,本文中所描述的技术的应用不限于移动装置,且可适用于所有OCR应用。来自包含麦克风、GPS和相机的各种传感器的输入连同包含话音、触摸和用户使用模式的用户输入一起用于推断用户背景且选择与所推断的背景最相关的字典的过程中。
[0007]—种用于执行OCR的方法的实例包含:使用耦合到装置的相机来获得图像;识别包括至少一个图形对象的图像的一部分;推断与所述图像相关联的背景;基于与所述图像相关联的所述背景来选择图形对象群组;以及使用所述图形对象群组来改进所述至少一个图形对象的OCR结果。在一些实施例中,改进OCR结果包含使用所述图形对象群组来执行OCR。在另一实施例中,改进所述OCR结果包含:通过对所述至少一个图形对象执行OCR来产生所述至少一个图形对象的多个OCR候选者;以及使用所述图形对象群组从所述多个OCR候选者中选择一 OCR候选者。所述方法可进一步包含使用OCR结果来改进所述推断的背景。
[0008]此方法的实施可包含以下特征中的一者或一者以上。图形对象可包含符号、字符、字、标志和数字中的一者或一者以上。所述图形对象群组可包含通过共同特性而彼此相关联的多个图形对象,且可表示字典或字典的精炼。在本发明的一些方面中,图像的背景是非文本的。在其它方面中,可使用图形说明来推断背景,其中图形说明可来自包括对象的姿势和图形表示的群组中的至少一者。还可使用传感器输入来推断图像的背景。可通过相机、麦克风、光传感器、时钟和GPS兀件中的一者或一者以上来提供所述传感器输入。还可通过估计相机与至少一个图形对象之间的距离且基于所述相机与所述至少一个图形对象之间的所述所估计的距离来推断背景,而推断背景。推断背景还可包含:检测与在其中获得图像的环境中的多个光线相关联的至少一个特性;以及基于与所述多个光线相关联的所述至少一个特性来推断背景。此外,与所述多个光线相关联的所述至少一个特性可为亮度,其中阈值以下的亮度会产生在室内获得图像的推断,且阈值以上的亮度会产生在室外获得图像的推断
[0009]在其它实施方案中,推断背景可包含:使用麦克风接收音频输入;对所述视频输入执行模式辨识;以及基于所述音频输入中的所辨识的模式来推断背景。所述所辨识的模式可为来自用户的话音命令,或相机的在接收音频输入时的位置的指示。推断背景还可包含从用户接收背景相关信息,且基于来自用户的所述所接收的背景相关信息而推断背景。还可基于装置的位置来推断背景,其可包含:估计装置的位置;以及基于装置的所述所估计的位置而推断背景。可使用装置的GPS元件、相对于小区塔的信号的强度或来自麦克风的音频输入来估计装置的位置。
[0010]在一些实施例中,内容语义和结构分析还可用于分析与图像相关联的背景的过程中对于结构布局分析,可将图形对象之间的关系彼此进行比较或与图形说明进行比较。图形说明可为对象的姿势或图形表示。对于内容语义分析,可分析图形对象彼此的共现或与图形说明的共现。
[0011]此外,可使用例如图像中的以多种语言显示的文本等图形对象来分析内容语义。在一个实施例中,识别包括呈第一种语言的第一图形对象和呈第二种语言的第二图形对象的图像的一个或一个以上部分,其中所述第一图形对象和所述第二图形对象具有类似含义。还识别第一图形对象的第一多个候选者以及第二图形对象的第二多个候选者,且所述图形对象是选自与第二多个候选者中的至少一者具有类似含义的第一多个候选者。此外,来自第一多个候选者的图形对象可包含将第二图形对象的第二多个候选者翻译为第一语言;以及从第一多个候选者中找出与经翻译的第二多个候选者具有类似含义的至少一个图形对象。
[0012]一种用于执行OCR的装置的实例包含:处理器;用于获得图像的相机;以及耦合到所述处理器的非暂时性计算机可读存储媒体,其中所述非暂时性计算机可读存储媒体包括可由所述处理器执行以用于实施方法的代码,所述方法包含:使用耦合到装置的相机获得图像;识别包括至少一个图形对象的图像的一部分;推断与所述图像相关联的背景;基于与所述图像相关联的所述背景来选择图形对象群组;以及使用所述图形对象群组来改进所述至少一个图形对象的OCR结果。改进OCR结果可包含使用所述图形对象群组来执行OCR。改进所述OCR结果还可包含:通过对所述至少一个图形对象执行OCR来产生所述至少一个图形对象的多个OCR候选者;以及使用所述图形对象群组从所述多个OCR候选者中选择一OCR候选者。所述装置可进一步使用所述OCR结果来改进所述推断的背景。此装置的实施可包含上文关于其它实例所论述的特征中的一者或一者以上。
[0013]本发明的实施例的额外实例包含耦合到所述处理器的非暂时性计算机可读存储媒体,其中所述非暂时性计算机可读存储媒体包括可由所述处理器执行以用于实施方法的代码,所述方法可包含:使用耦合到装置的相机获得图像;识别包括至少一个图形对象的图像的一部分;推断与所述图像相关联的背景;基于与所述图像相关联的所述背景来选择图形对象群组;以及使用所述图形对象群组来改进所述至少一个图形对象的OCR结果。改进所述OCR结果包含使用所述图形对象群组来执行OCR。改进所述OCR结果还可包含:通过对所述至少一个图形对象执行OCR来产生所述至少一个图形对象的多个OCR候选者;以及使用所述图形对象群组从所述多个OCR候选者中选择一 OCR候选者。此设备的实施可包含上文关于其它实例所论述的特征中的一者或一者以上。
[0014]一种用于执行OCR的方法的设备的又一实例可包含:用于使用耦合到装置的相机来获得图像的装置;用于识别包括至少一个图形对象的图像的一部分的装置;用于推断与所述图像相关联的背景的装置;用于基于与所述图像相关联的所述背景来选择图形对象群组的装置;以及用于使用所述图形对象群组来改进所述至少一个图形对象的OCR结果的装置。改进所述OCR结果包含使用所述图形对象群组来执行OCR。改进所述OCR结果还可包含:通过对所述至少一个图形对象执行OCR来产生所述至少一个图形对象的多个OCR候选者;以及使用所述图形对象群组从所述多个OCR候选者中选择一 OCR候选者。此设备的实施可包含上文关于其它实例所论述的特征中的一者或一者以上。
[0015]前述内容已相当广泛地概述了根据本发明的实例的特征及技术优点以便可较好地理解下文的详细描述。下文将描述额外特征和优点。所揭示的概念和特定实施例可容易地用作用于修改或设计用于实行本发明的相同目的的其它结构的基础。此等效构造不脱离所附权利要求书的精神和范围。当结合附图进行考虑时,将从以下描述更好地理解据信为本文所揭示的概念的特性的特征(关于其组织和操作方法两者)连同相关联的优点。仅出于说明和描述的目的而提供各图中的每一者,且其不作为对权利要求书的限制的界定。
【专利附图】
【附图说明】
[0016]参考图式来提供以下描述,其中相同参考标号始终用于指代相同元件。虽然在本文描述一种或一种以上技术的各种细节,但其它技术也是可能的。在一些情况下,以框图形式来展示众所周知的结构和装置以便有助于描述各种技术。
[0017]可通过参考说明书和图式的其余部分来实现对由本发明提供的实例的性质和优点的进一步理解,其中在所有若干图式中使用相同的参考数字来指代类似组件。在一些情况下,子标记与参考数字相关联以表示多个类似组件中的一者。当在没有对现有子标记的规范的情况下参考参考数字时,参考数字指代所有此类类似组件。
[0018]图1说明并入有用于实践本发明的实施例的装置的若干部分的示范性计算机系统。
[0019]图2A描绘展示由背景敏感OCR的移动装置俘获的图像的示范性表示的图。
[0020]图2B描绘展示由背景敏感OCR的移动装置俘获的图像的示范性表示的另一图。
[0021]图3说明流程图,其展示使用背景信息来选择OCR的图形对象群组的非限制性示范性决策树。
[0022]图4说明流程图,其描述背景敏感OCR的示范性实施例。
[0023]图5是流程图,其描述用于执行背景敏感OCR的方法的又一示范性实施例。[0024]图6是流程图,其描述用于执行背景敏感OCR的方法的一示范性实施例。
[0025]图7是流程图,其描述使用光条件的背景敏感OCR的另一示范性实施例。
[0026]图8是流程图,其展示其中选择OCR的图形对象群组的背景是基于来自麦克风的输入的示范性实施例。
[0027]图9是流程图,其描述使用手动输入来用于背景敏感OCR的实施例。
[0028]图10是流程图,其论述用于执行使用在其中俘获图像的位置来进行背景敏感OCR的方法的另一实施例。
[0029]图11是流程图,其描述使用麦克风来辨识环境以选择背景敏感OCR的字典的另一示范性实施例。
[0030]图12是流程图,其描述使用内容分析来进行背景识别的实施例。
[0031]图13是流程图,其描述通过分析图像的结构布局来进行背景识别的实施例。
[0032]图14是流程图,其描述使用内容分析来进行背景识别的实施例。
[0033]图15是流程图,其描述使用行为元素的背景敏感OCR的实施例。
[0034]图16是多种语言的示范性交通标志的框图。
[0035]图17是流程图,其描述用于在标志呈一种以上语言时增加OCR结果的准确性和速度的方法。
【具体实施方式】
[0036]可并入如图1中所说明的计算机系统以作为先前所描述的计算机化装置的部分。举例来说,计算机系统1200可表示移动装置的组件中的一些。移动装置可为具有比如相机和显示单元等输入传感单元的任何计算装置。移动装置的实例包含(但不限于)视频游戏控制台、平板计算机、智能电话和任何其它手持式装置。图1提供计算机系统100的一个实施例的示意性说明,其可执行如本文中所描述的各种其它实施例所提供的方法,且/或可充当主机计算机系统、远程电话亭/终端、销售点装置、移动装置、机顶盒和/或计算机系统。图1仅打算提供各种组件的一股化说明,所述组件中的任一者或全部可在适当时利用。因此,图1广泛地说明可如何以相对单独或相对更整合的方式来实施个别系统元件。
[0037]计算机系统100被展示为包括可经由总线105(或可在适当时以其它方式通信)电耦合的硬件元件。所述硬件元件可包含:一个或一个以上处理器110,包含(不限制)一个或一个以上通用处理器和/或一个或一个以上专用处理器(例如,数字信号处理芯片、图形加速处理器和/或类似物);一个或一个以上输入装置115,其可包含(不限制)相机、传感器(例如,包含惯性传感器)、鼠标、键盘和/或类似物;以及一个或一个以上输出装置120,其可包含(不限制)显示单元、打印机和/或类似物。
[0038]计算机系统100可进一步包含(且/或与之通信)一个或一个以上非暂时性存储装置125,其可包括(不限制)本地和/或网络可存取存储装置,且/或可包含(不限制)磁盘驱动器、驱动阵列、光线存储装置、固态存储装置,例如随机存取存储器(“RAM”)和/或只读存储器(“R0M”),其可为可编程的、闪存可更新的,和/或类似物。此些存储装置可经配置以实施任何适当的数据存储装置,包含(不限制)各种文件系统、数据库结构和/或类似物。
[0039]计算机系统100还可能包含通信子系统130,所述通信子系统可包含(不限制)调制解调器、网卡(无线或有线)、红外线通信装置、无线通信装置和/或芯片组(例如,BluetoothTM装置、802.11装置、WiFi装置、WiMax装置、蜂窝式通信设施等),和/或类似物。通信子系统130可准许与网络(例如,下文所描述的网络(举一个实例))、其它计算机系统和/或本文中所描述的任何其它装置交换数据。在许多实施例中,计算机系统100将进一步包括非暂时性工作存储器135,其可包含如上文所描述的RAM或ROM装置。
[0040]计算机系统100还可包括展示为同时位于工作存储器135内的软件元件,包含操作系统140、装置驱动器、可执行库和/或其它代码,例如一个或一个以上应用程序145,所述应用程序可包括由各种实施例提供的计算机程序,且/或可经设计以实施由其它实施例提供的方法且/或配置由其它实施例提供的系统,如本文中所描述。仅举例来说,关于上文所论述的方法而描述的一个或一个以上过程可能被实施为可由计算机(和/或计算机内的处理器)执行的代码和/或指令;在一方面中,此类代码和/或指令可随后用于配置和/或调适通用计算机(或其它装置)来执行根据所描述的方法的一个或一个以上操作。
[0041]一组这些指令和/或代码可能存储在计算机可读存储媒体上,例如上文所描述的存储装置125。在一些情况下,存储媒体可能并入在例如计算机系统100等计算机系统内。在其它实施例中,存储媒体可能与计算机系统分开(例如,可移除媒体,例如压缩光盘),且/或提供在安装包中,使得存储媒体可用其上存储的指令/代码来编程、配置和/或调适通用计算机。这些指令可能采取可由计算机系统100执行的可执行代码的形式,且/或可能采取源和/或可安装代码的形式,其在计算机系统100上编译和/或安装后(例如,使用多种一股可用的编译器、安装程序、压缩/解压缩公用程序等中的任一者)即刻采取可执行代码的形式。
[0042]可根据特定要求进行实质性变化。举例来说,还可能使用定制的硬件,且/或特定元件可能实施于硬件、软件(包含便携式软件,例如applet等)或两者中。此外,可使用到例如网络输入/输出装置等其它计算装置的连接。
[0043]一些实施例可使用计算机系统(例如,计算机系统100)来执行根据本发明的方法。举例来说,所描述的方法的过程中的一些或全部可由计算机系统100响应于处理器110执行工作存储器135中所含有的一个或一个以上指令的一个或一个以上序列(其可能并入到操作系统140和/或其它代码(例如,应用程序145)中)来执行。可从另一计算机可读媒体(例如,存储装置125中的一者或一者以上)将此些指令读取到工作存储器135中。仅举例来说,执行工作存储器135中所含有的指令的序列可能致使处理器110执行本文中所描述的方法的一个或一个以上过程。
[0044]如本文中所使用的术语“机器可读媒体”和“计算机可读媒体”指代参与提供致使机器以特定方式操作的数据的任何媒体。在使用计算机系统100实施的实施例中,各种计算机可读媒体可能涉及向处理器110提供指令/代码以供执行且/或可能用于存储和/或携载此类指令/代码(例如,作为信号)。在许多实施方案中,计算机可读媒体是物理的和/或有形的存储媒体。此媒体可采取许多形式,包含(但不限于)非易失性媒体、易失性媒体和传输媒体。非易失性媒体包含(例如)光盘和/或磁盘,例如存储装置125。易失性媒体包含(不限制)动态存储器,例如工作存储器135。传输媒体包含(不限制)同轴电缆、铜线和光纤,包含包括总线105的电线,以及通信子系统130的各种组件(和/或通信子系统130借以提供与其它装置的通信的媒体)。此处,传输媒体还可采取波(包含(不限制)无线电、声波和/或光波,例如在无线电波和红外线数据通信期间所产生的波)的形式。
[0045]物理的和/或有形的计算机可读媒体的常见形式包含(例如)软盘、柔性磁盘、硬盘、磁带或任何其它磁性媒体、CD-ROM、任何其它光学媒体,穿孔卡、纸带、具有孔图案的任何其它物理媒体、RAM、PROM、EPROM、FLASH-EPR0M、任何其它存储器芯片或盒式磁带、载波(如下文所描述),或计算机可从其读取指令和/或代码的任何其它媒体。
[0046]在将一个或一个以上指令的一个或一个以上序列载运到处理器110以供执行的过程中可涉及各种形式的计算机可读媒体。仅举例来说,所述指令可起初被携载在远程计算机的磁盘和/或光盘上。远程计算机可能将所述指令加载到其动态存储器中,且经由传输媒体将所述指令作为信号进行发送以让计算机系统100接收和/或执行。根据本发明的各种实施例,可能呈电磁信号、声学信号、光学信号和/或类似物的形式的这些信号是可在其上编码指令的载波的全部实例。
[0047]通信子系统130 (和/或其组件)一股将接收所述信号,且总线105随后可能将所述信号(和/或由所述信号载运的数据、指令等)载运到工作存储器135,处理器110从所述工作存储器检索和执行所述指令。由工作存储器135接收的指令可在由处理器110执行之前或之后任选地存储于非暂时性存储装置125上。
[0048]上文所论述的方法、系统和装置是实例。各种实施例可在适当时省略、替代或添加各种过程或组件。举例来说,在替代性配置中,所描述的方法可以不同于所描述的次序的次序执行,且/或可添加、省略和/或组合各种阶段。而且,关于某些实施例所描述的特征可组合在各种其它实施例中。实施例的不同方面和元件可以类似方式组合。而且,技术会演进且因此许多元件是实例,其不将本发明的范围限制于那些特定实例。
[0049]在描述中给出特定细节以提供对实施例的透彻理解。然而,可以在没有这些特定细节的情况下实践实施例。举例来说,已在没有不必要的细节的情况下展示众所周知的电路、过程、算法、结构和技术,以便避免使所述实施例模糊不清。此描述仅提供实例性实施例,且无意限制本发明的范围、适用性或配置。而是,实施例的前述描述将向所属领域的技术人员提供用于实施本发明的实施例的启用性描述。在不脱离本发明的精神和范围的情况下,可在元件的功能和布置方面作出各种改变。
[0050]而且,将一些实施例描述为被描绘为流程图或框图的过程。虽然每一实施例可将操作描述为连续过程,但许多操作可并行地或同时地执行。另外,操作的次序可重新排列。过程可具有图中未包含的额外步骤。此外,所述方法的实施例可由硬件、软件、固件、中间件、微码、硬件描述语言或其任何组合来实施。当实施于软件、固件、中间件或微码中时,用以执行相关联的任务的程序代码或代码段可存储在例如存储媒体等计算机可读媒体中。处理器可执行相关联的任务。
[0051]虽然已描述了若干实施例,但在不脱离本发明的精神的情况下,可使用各种修改、替代性构造和等效物。举例来说,以上元件可仅为较大系统的组件,其中其它规则可优先于或以其它方式修改本发明的应用。而且,可在考虑以上元件之前、期间或之后着手一定数目的步骤。因此,以上描述不限制本发明的范围。
[0052]如本文所描述,来自图像的图形对象是OCR的目标,且可包含(但不限于)一个或一个以上符号、字母数字字符、字、标志、数字或文本。举例来说,图像中的图形对象可为任何语言的字或句子。字可表示为一些语言的符号。类似地,一种语言或文化的句子可简单地使用另一种语言或文化的符号来表示。在另一实例中,图形对象可为例如STOP、YIELD等街道标志。可在不同地区中、以不同语言或文化使用不同图形对象来表示相同含义。另外,还可从图像中识别图形说明。图形说明可包含对象(例如,文本文字、符号等)的姿势或图形表示。举例来说,苹果的图像是字“苹果”的图形说明。一股来说,图形说明辅助改进图形对象的OCR结果。
[0053]如本文中所描述,图形对象群组可包括通过共同特性而彼此相关联的多个图形对象。在一个实施例中,图形对象群组表示字典。在另一实施例中,图形对象群组表示字典的精炼。在又一实施例中,图形对象群组可为分组在一起的共享一个或一个以上特性的对象的索引。在本文中所描述的方法中,出于说明性目的而使用字典来描述一些实施例;然而,在这些实施例中使用字典不以任何方式具有约束性,且可利用任何图形对象群组。
[0054]在一个实施方案中,对图形对象群组的分组可预先确定且预先分类。举例来说,可将图形对象预先分类为不同地区和不同语言。在另一实施方案中,对图形对象群组的分组可实时地或几乎实时地执行。可使用链接列表、阵列、数据库或任何其它合适手段来组织和实施所述分组。
[0055]图2A和2B描绘具有使用用于背景敏感OCR的移动装置获得的图像的示范性表示的图。背景敏感OCR通过收窄针对OCR而选择的图形对象群组而实现更准确和更快速的OCR结果。在一个方面中,图形对象群组可为符号或字的字典。一旦执行0CR,便可使用检测到的背景来产生或选择一定数目的合适字。可使OCR结果与可用的字典匹配以找出检测到的背景的正确字。背景敏感OCR可单独地或彼此结合地使用本文中所描述的本发明的众多不同实施例来为OCR选择最合适的字典或字典的精炼。
[0056]图2A是来自韩国餐馆的菜单。举例来说,移动装置的用户的位置可通过耦合到移动装置的GPS元件或麦克风而获得,且可帮助识别语言,且可能还帮助识别特定餐馆。文档的结构、照明、来自相机镜头的菜单的文本的焦距以及日时全部可帮助确定用户正集中在正餐菜单。此允许移动装置尽可能窄地选择字典或进一步精炼字典。使背景信息匹配会增加OCR的准确性和速度,且还可潜在地降低OCR所需的处理能力。此外,在图2A中,还以英语以更小的字体描述菜单项目。本发明的各方面还可对图像的英语部分执行OCR、将英语OCR结果翻译为韩语,且将来自韩语OCR和英语OCR的潜在候选者进行比较以选择韩语OCR的最佳匹配。
[0057]类似地,图2B是日本快速客运系统的图像。文档的位置、语言、照明、结构、环境、噪声条件以及许多其它类似输入可帮助确定背景且为用户加速用于辨识图像中的文本和标志的OCR过程。
[0058]图3是流程图,其说明使用背景信息来选择OCR的图形对象群组的非限制性示范性决策树。图形对象群组可为字典或字典的精炼。在关于图3所描述的实施例中,字典从最宽准则收窄为最窄或最集中的准则。在其它实施例中,可在实现对背景和相关联的字典的选择的过程中使用仅一个源或传感输入。但是,在其它实施例中,在收窄对字典的选择的过程中所采用的决策序列可在次序上不同。方法300由包括硬件(电路、专用逻辑等)、软件(例如,运行在通用计算系统或专用机器上)、固件(嵌入式软件)或其任何组合的处理逻辑执行。在一个实施例中,方法300由图1的装置100执行。
[0059]参看图3,在框302处,移动装置可基于多种传感器输入(例如,来自麦克风的音频输入、地理位置或从图像辨识一些图形对象)来确定语言。确定语言允许OCR显著地收窄对用于产生OCR结果的正确字的搜索空间。
[0060]在框304处,移动装置可基于来自位置识别符的输入而确定位置。可使用来自移动装置上的GPS元件的输入、相对于小区电话塔的信号强度、用户的麦克风输入或手动选择而得到所述位置。可以不同粒度提供和使用所述位置信息。举例来说,所述位置可帮助确定一人是在城市还是在郊区。所述位置信息还可特定为餐馆或街道名称。作为一实例,如果移动装置确定所述位置是街道,那么可将含有那个特定城市的所有街道名称的字典或经精炼的字典用于更快速的OCR。
[0061]在框306处,选择图形对象群组的域。域可为背景的子分类。举例来说,一个位置可具有多个域。在框304处,如果位置是街道,那么域可为街道标志。类似地,如果位置是餐馆,那么域可为信用卡或正餐菜单。稍后更详细地描述的比如文档结构分析和内容语义分析等许多技术也可用于确定域。
[0062]在框308处,可通过发现域中的关注焦点来进一步收窄搜索。举例来说,信用卡上的关注焦点可为人名或信用卡号。用户可给出话音命令来选择关注焦点或可触摸图像中的文本来选择关注焦点。
[0063]在本发明的各种实施例中,可单独地或彼此结合地使用不同背景源来确定背景,并且选择OCR的最合适图形对象群组。背景源的一些实例可包含位置、用户、时钟、相机和用户模式。每一背景源可进一步与传感器输入装置相关联。举例来说,可使用移动装置中存在的GPS元件、相对于小区电话塔的信号强度或通过音频输入来确定位置。用户还可通过从移动装置上显示的菜单或通过对所述装置的口头命令来手动地选择背景或字典而提供背景源。此外,可使用用户行为模式来建构源自用户的背景。类似地,时钟和日期可提供关于夜晚或白天环境或季节的重要信息。相机也是重要的背景源,因为相机可提供距离、字符大小、光条件等的背景。除了相机之外,移动装置还可具有光传感器来更好地度量光条件。
[0064]应理解,图3中所说明的特定步骤提供根据本发明的实施例的在操作模式之间切换的特定方法。因此在替代性实施例中还可执行其它步骤序列。举例来说,本发明的替代性实施例可以不同次序执行上文概述的步骤。为了说明,用户可选择从第三操作模式改变为第一操作模式,从第四模式改变为第二模式,或其之间的任何组合。另外,图3中所说明的个别步骤可包含在对所述个别步骤适当时可在各种序列中执行的多个子步骤。此外,可取决于特定应用而添加或移除额外的步骤。所属领域的技术人员将认识和了解方法300的许多变化、修改和替代方案。
[0065]图4是流程图,其描述用于执行背景敏感OCR的方法的一示范性实施例。方法400由包括硬件(电路、专用逻辑等)、软件(例如,运行在通用计算系统或专用机器上)、固件(嵌入式软件)或其任何组合的处理逻辑执行。在一个实施例中,方法400由图1的装置100执行。
[0066]参考图4,在框402处获得图像。在一个实施例中,使用耦合到移动装置的相机来获得所述图像。一旦获得所述图像,在框404处,识别包括图形对象的图像的一部分。图像中的图形对象可包含(但不限于)一个或一个以上符号、字母数字字符、字、标志或数字。在一个实施方案中,在图形对象周围放置矩形文本框。在框406处,部分地或完全地辨识图形对象。在一个方面中,利用OCR来辨识图形对象。在框408处,识别图形对象群组(例如,一个或一个以上字典)。在一个方面中,图形对象群组可为基于图像的背景产生的字典或字典的精炼。
[0067]在一个实施例中,与处理图像并行地选择图像的背景,使得在来自OCR的结果就绪以查询图形对象群组之前,背景和图形对象群组就绪或更接近就绪。在框410处,背景选择器可基于来自不同传感器的输入和可能的用户输入来确定背景。所述背景可基于位置、相机输入、时间输入和历史,以及其它因素。在框412处,一旦选择正确的背景,可使适当的字典或字典的精炼与选定的背景相关联且前进到框408。在框408处,使用基于图像的背景而选择的字典或字典的精炼来执行搜索。在框414处,输出OCR结果。
[0068]在另一实施例中,可在确定文本的背景的过程中使用文本距相机镜头的距离和物理字符大小。标志距移动装置的距离的知识实现可用于收窄图形对象群组选择的角度。举例来说,街道上的标志在远处。餐馆中的菜单处于靠近范围中。文本与书本可能会更靠近。对于实施例的此实施方案,可能不需要文本距相机的确切距离。替代地,可将距离划分为更广的类别,例如靠近、房间大小和远。在另一示范性分类中,距离可近似为单独类别,例如在相机自动聚焦时的特写、正常和无限远。此外,对字的数目的分组还可帮助产生标的物的线索。举例来说,街道标志可具有约2到4个字。相比之下,文本-书本可具有20到30个字的更大分组。所投影的文本大小可帮助拘束OCR可能需要考虑的文本块大小。
[0069]应理解,图4中所说明的特定步骤提供根据本发明的实施例的在操作模式之间切换的特定方法。因此在替代性实施例中还可执行其它步骤序列。举例来说,本发明的替代性实施例可以不同次序执行上文概述的步骤。为了说明,用户可选择从第三操作模式改变为第一操作模式,从第四模式改变为第二模式,或其之间的任何组合。另外,图4中所说明的个别步骤可包含在对所述个别步骤适当时可在各种序列中执行的多个子步骤。此外,可取决于特定应用而添加或移除额外的步骤。所属领域的技术人员将认识和了解方法400的许多变化、修改和替代方案。
[0070]图5是流程图,其描述用于执行背景敏感OCR的方法的又一示范性实施例。方法500由包括硬件(电路、专用逻辑等)、软件(例如,运行在通用计算系统或专用机器上)、固件(嵌入式软件)或其任何组合的处理逻辑执行。在一个实施例中,方法500由图1的装置100执行。
[0071]参考图5,在框502处获得图像。在一个实施例中,使用耦合到移动装置的相机来获得所述图像。一旦获得所述图像,在框504处,识别包括图形对象的图像的一部分。图像中的图形对象可包含(但不限于)一个或一个以上符号、字母数字字符、字、标志或数字。在一个实施方案中,在图形对象周围放置矩形文本框。在框506处,部分地或完全地辨识图形对象。在一个方面中,利用OCR来辨识图形对象。在框508处,通过对图形对象执行OCR而产生一个或一个以上OCR候选者。在框510处,使用图形对象群组从多个OCR候选者中选择一 OCR候选者。举例来说,执行OCR可产生10个OCR候选者。同时,装置还可基于建构背景且基于所述背景来选择图形对象群组(例如,一个或一个以上字典)。在一个实施例中,可将与来自图形对象群组的图形对象中的一者匹配的最佳候选者或候选者视为OCR结果。
[0072]在一个实施例中,与处理图像并行地选择图像的背景,使得在来自OCR的结果就绪以查询图形对象群组之前,背景和图形对象群组就绪或更接近就绪。在框512处,背景选择器可基于来自不同传感器的输入和可能的用户输入来确定背景。所述背景可基于位置、相机输入、时间输入和历史,以及其它因素。在框514处,一旦选择正确的背景,可使适当的字典或字典的精炼与选定的背景相关联且前进到框510。在框510处,如上文所描述,使用图形对象群组来选择最佳候选者。在框516处,输出OCR结果。
[0073]应理解,图5中所说明的特定步骤提供根据本发明的实施例的在操作模式之间切换的特定方法。因此在替代性实施例中还可执行其它步骤序列。举例来说,本发明的替代性实施例可以不同次序执行上文概述的步骤。为了说明,用户可选择从第三操作模式改变为第一操作模式,从第四模式改变为第二模式,或其之间的任何组合。另外,图5中所说明的个别步骤可包含在对所述个别步骤适当时可在各种序列中执行的多个子步骤。此外,可取决于特定应用而添加或移除额外的步骤。所属领域的技术人员将认识和了解方法500的许多变化、修改和替代方案。
[0074]图6是流程图,其描述用于执行背景敏感OCR的方法的一示范性实施例。方法600由包括硬件(电路、专用逻辑等)、软件(例如,运行在通用计算系统或专用机器上)、固件(嵌入式软件)或其任何组合的处理逻辑执行。在一个实施例中,方法600由图1的装置100执行。
[0075]参看图6,在框602处,可使用本文中所描述的机制来推断图形对象的背景。一旦推断出OCR背景,在框604处,使用所推断的背景来改进OCR结果。另外,在框606处,可通过使用OCR结果进一步改进所推断的背景。
[0076]应理解,图6中所说明的特定步骤提供根据本发明的实施例的在操作模式之间切换的特定方法。因此在替代性实施例中还可执行其它步骤序列。举例来说,本发明的替代性实施例可以不同次序执行上文概述的步骤。为了说明,用户可选择从第三操作模式改变为第一操作模式,从第四模式改变为第二模式,或其之间的任何组合。另外,图6中所说明的个别步骤可包含在对所述个别步骤适当时可在各种序列中执行的多个子步骤。此外,可取决于特定应用而添加或移除额外的步骤。所属领域的技术人员将认识和了解方法600的许多变化、修改和替代方案。
[0077]图7是流程图,其说明用于基于在获得图像时的光条件来选择OCR的背景的本发明的实施例。方法700由包括硬件(电路、专用逻辑等)、软件(例如,运行在通用计算系统或专用机器上)、固件(嵌入式软件)或其任何组合的处理逻辑执行。在一个实施例中,方法700由图1的装置100执行。
[0078]参看图7,在一个实施例中,选择OCR的字典的背景是基于在获得图像时的光条件。字典是在描述图7时用于说明性目的的图形对象群组的实例。在框702处获得图像。在一个实施例中,使用耦合到移动装置的相机来获得所述图像。一旦获得所述图像,在框704处,识别包括图形对象(例如,字)的图像的一部分。图像中的图形对象可包含(但不限于)一个或一个以上符号、字母数字字符、字、标志或数字。在一个实施方案中,在图形对象周围放置矩形文本框。在框706处,部分地或完全地辨识图形对象。在一个方面中,利用OCR来辨识图形对象。在框708处,识别图形对象群组。在一个方面中,图形对象群组可为基于图像的背景产生的字典或字典的精炼。
[0079]在框710处,移动装置从光传感器接收输入。在一个实施方案中,可将光电池用作光传感器。基于来自光传感器的输入,移动装置可确定图片是在室外还是在室内取得。举例来说,可使用光传感器的输出来确定与多个光线相关联的亮度。在一个实施例中,如果阈值以下的亮度会产生在室内获得图像的推断,且阈值以上的亮度会产生在室外获得图像的推断。光线的亮度可指代明度、色温或两者。此外,在一些实施例中,为了增加决策的质量,移动装置还可检测不同于仅室内环境非常良好地照亮的阳光的性质。举例来说,可使用荧光灯来良好地照亮房间。在框712处,移动装置确定图像是在室内还是在外面俘获。通过知道在哪里俘获图像来显著地收窄对字典的选择。举例来说,在室内获得的图像的OCR将针对将一股具有较小的印刷(比如餐馆菜单或书本)的字典或字典的精炼。另一方面,图像的室外俘获的OCR将针对将一股具有较大的印刷且在外面发现(比如街道名称)的字典。在框714处,选择字典且将字典提供给框708。在框708处,从选定的字典选择适当的字。在框716处,输出OCR结果。
[0080]应理解,图7中所说明的特定步骤提供根据本发明的实施例的在操作模式之间切换的特定方法。因此在替代性实施例中还可执行其它步骤序列。举例来说,本发明的替代性实施例可以不同次序执行上文概述的步骤。为了说明,用户可选择从第三操作模式改变为第一操作模式,从第四模式改变为第二模式,或其之间的任何组合。另外,图7中所说明的个别步骤可包含在对所述个别步骤适当时可在各种序列中执行的多个子步骤。此外,可取决于特定应用而添加或移除额外的步骤。所属领域的技术人员将认识和了解方法700的许多变化、修改和替代方案。
[0081]图8是流程图,其展示其中选择OCR的字典的背景是基于来自麦克风的输入的一个实施例。方法800由包括硬件(电路、专用逻辑等)、软件(例如,运行在通用计算系统或专用机器上)、固件(嵌入式软件)或其任何组合的处理逻辑执行。在一个实施例中,方法800由图1的装置100执行。
[0082]参考图8,在框802处获得图像。在一个实施例中,使用耦合到移动装置的相机来获得所述图像。一旦获得所述图像,在框804处,识别包括图形对象的图像的一部分。图像中的图形对象可包含(但不限于)一个或一个以上符号、字母数字字符、字、标志或数字。在一个实施方案中,在图形对象周围放置矩形文本框。在框806处,部分地或完全地辨识图形对象。在一个方面中,利用OCR来辨识图形对象。
[0083]在框810处,麦克风通过麦克风接收音频输入且记录音频。在框812处,移动装置对音频记录执行语音辨识。在一些实施例中,用户可能够口头地选择在框802中俘获的图像的背景。举例来说,用户可指定应从其选择字典的语言。在其它实施例中,用户还可口头地选择用户从图像感兴趣的特定字段。举例来说,用户可选择可在图像中看见的适当名称或数字,或用户可给出更特定的口头命令来选择信用卡号或项目的成本来用于OCR处理。在框814处,在一个实施例中,可从所辨识的音频模式检测关键字。在另一实施例中,基于所辨识的音频模式来推断背景。在框808处,来自框814的所检测的关键字和所推断的背景可进一步用于改进OCR结果的过程中。在一个实施例中,在框808处,显示覆盖由用户在屏幕上选择的字。在框816处,可输出OCR结果。
[0084]应理解,图8中所说明的特定步骤提供根据本发明的实施例的在操作模式之间切换的特定方法。因此在替代性实施例中还可执行其它步骤序列。举例来说,本发明的替代性实施例可以不同次序执行上文概述的步骤。为了说明,用户可选择从第三操作模式改变为第一操作模式,从第四模式改变为第二模式,或其之间的任何组合。另外,图8中所说明的个别步骤可包含在对所述个别步骤适当时可在各种序列中执行的多个子步骤。此外,可取决于特定应用而添加或移除额外的步骤。所属领域的技术人员将认识和了解方法800的许多变化、修改和替代方案。
[0085]图9是流程图,其描述使用手动输入来用于背景敏感OCR的实施例。方法900由包括硬件(电路、专用逻辑等)、软件(例如,运行在通用计算系统或专用机器上)、固件(嵌入式软件)或其任何组合的处理逻辑执行。在一个实施例中,方法900由图1的装置100执行。
[0086]参考图9,在框902处获得图像。在一个实施例中,使用耦合到移动装置的相机来获得所述图像。一旦获得所述图像,在框904处,识别包括图形对象的图像的一部分。图像中的图形对象可包含(但不限于)一个或一个以上符号、字母数字字符、字、标志或数字。在一个实施方案中,在图形对象周围放置矩形文本框。在框906处,部分地或完全地辨识图形对象。在一个方面中,利用OCR来辨识图形对象。
[0087]图9中的实施例可结合本文中所论述的其它实施例来使用。在一个实例中,可使用不同的背景源来选择不同的字典,且呈现给用户以进行最终选择。在又一实施例中,用户可通过移动装置所提供的用户接口由用户手动地选择将用于背景中的字典。在框910处,来自各种源的候选字典被选择且呈现给用户以进行最终选择。在框912处,用户选择字典。在框914处,在选择字典的过程中考虑到来自用户输入的反馈。在一些实施例中,用户可选择字典的背景而非字典本身。在其它实施例中,用户可选择字典的分组或类别。在框908处,基于用户选择来辨识图形对象且输出OCR的最终结果(框916)。
[0088]应理解,图9中所说明的特定步骤提供根据本发明的实施例的在操作模式之间切换的特定方法。因此在替代性实施例中还可执行其它步骤序列。举例来说,本发明的替代性实施例可以不同次序执行上文概述的步骤。为了说明,用户可选择从第三操作模式改变为第一操作模式,从第四模式改变为第二模式,或其之间的任何组合。另外,图9中所说明的个别步骤可包含可在对所述个别步骤适当各种序列中执行的多个子步骤。此外,可取决于特定应用而添加或移除额外的步骤。所属领域的技术人员将认识和了解方法900的许多变化、修改和替代方案。
[0089]图10是流程图,其论述用于使用俘获图像的位置来进行背景敏感OCR的方法的另一实施例。举例来说,如果用户在特定餐馆内,那么所选择的字典可为那个餐馆特有的。方法1000由包括硬件(电路、专用逻辑等)、软件(例如,运行在通用计算系统或专用机器上)、固件(嵌入式软件)或其任何组合的处理逻辑执行。在一个实施例中,方法1000由图1的装置100执行。
[0090]参考图10,在框1002处获得图像。在一个实施例中,使用耦合到移动装置的相机来获得所述图像。一旦获得所述图像,在框1004处,识别包括图形对象的图像的一部分。图像中的图形对象可包含(但不限于)一个或一个以上符号、字母数字字符、字、标志或数字。在一个实施方案中,在图形对象周围放置矩形文本框。在框1006处,部分地或完全地辨识图形对象。在一个方面中,利用OCR来辨识图形对象。
[0091]在框1010处,获得数据的位置。在一个实施例中,可使用移动装置中的GPS元件来断定俘获图像的人的位置。或者,可使用相对于小区塔的信号的强度或通过比如WiFi等无线接入点连接或任何其它合适手段来确定用户位置。在框1012处,移动装置处理位置数据以确定位置的细节。位置的粒度还可确定所选择的字典的粒度。在框1014处,选择基于位置的字典。如果在框1012中选择的位置是国家或国家的特定地区,那么可在框1014处选择那个地区的适当的语言字典。举例来说,对于韩国的用户,可选择韩语。
[0092]通过在框1012处所断定的位置的粒度的增加,可在框1014处选择进一步精炼的字典。在另一实施例中,移动装置可接入网络以获取关于某一位置的更多信息。举例来说,在一个实施例中,一旦获得移动装置的GPS坐标,移动装置可查询本地或远程定位的数据库以断定与位置相关联的细节。在一个实例中,在框1012处,特定位置的GPS坐标与希腊餐馆相关联。在框1014处,为OCR选择的字典可为那个餐馆特有的。如果那个餐馆特有的字典不可得,那么可选择与希腊食物相关的更多一股字典。在框1008处,基于来自框1014的位置背景从图形对象群组中选择所识别的图形对象。在框1018处,可输出选定的OCR图形对象。
[0093]在框1016处,麦克风传感器还可在框1012处提供位置信息以用于确定特定位置。在一个实例中,餐馆可具有与那个位置相关联的签名音调。移动装置记录并分析所述音调且在本地在移动装置上或在远程服务器上确定与所述音调相关联的位置。第12/898,647号相关专利申请案“使用环境信息的移动装置位置估计(Mobile device locationestimation using environmental information) ”专利申请案更详细地描述了用于确定餐馆的此实施例。
[0094]应理解,图10中所说明的特定步骤提供根据本发明的实施例的在操作模式之间切换的特定方法。因此在替代性实施例中还可执行其它步骤序列。举例来说,本发明的替代性实施例可以不同次序执行上文概述的步骤。为了说明,用户可选择从第三操作模式改变为第一操作模式,从第四模式改变为第二模式,或其之间的任何组合。另外,图10中所说明的个别步骤可包含在对所述个别步骤适当时可在各种序列中执行的多个子步骤。此外,可取决于特定应用而添加或移除额外的步骤。所属领域的技术人员将认识和了解方法1000的许多变化、修改和替代方案。
[0095]图11是流程图,其描述使用麦克风来辨识环境以选择背景敏感OCR的图形对象群组的另一示范性实施例。字典是在描述图11时用于说明性目的的图形对象群组的实例。方法1100由包括硬件(电路、专用逻辑等)、软件(例如,运行在通用计算系统或专用机器上)、固件(嵌入式软件)或其任何组合的处理逻辑执行。在一个实施例中,方法1100由图1的装置100执行。
[0096]参考图11,在框1102处获得图像。在一个实施例中,使用耦合到移动装置的相机来获得所述图像。一旦获得所述图像,在框1104处,识别包括图形对象的图像的一部分。图像中的图形对象可包含(但不限于)一个或一个以上符号、字母数字字符、字、标志或数字。在一个实施方案中,在图形对象周围放置矩形文本框。在框1106处,部分地或完全地辨识图形对象。在一个方面中,利用OCR来辨识图形对象。
[0097]在方框1110处,麦克风从周围环境接收输入。在方框1112处,分析从框1110接收的音频输入。基于所述视频输入来辨识用户的环境。举例来说,在框1112处,移动装置可确定所述环境是餐馆、街道或办公室。在框1114处,移动装置可基于使用来自麦克风的音频输入所检测到的环境来选择适当的字典,且将所述字典提供给框1108。在框1108处,基于所推断的背景从字典选择适当的图形对象且在框1116处输出。第61/449,475号相关临时专利申请案“在本地装置和服务器上辨识环境(Recognizing environmental sound onlocal device and server)专利申请案更详细地描述了用于检测环境因素的此实施例。”
[0098]应理解,图11中所说明的特定步骤提供根据本发明的实施例的在操作模式之间切换的特定方法。因此在替代性实施例中还可执行其它步骤序列。举例来说,本发明的替代性实施例可以不同次序执行上文概述的步骤。为了说明,用户可选择从第三操作模式改变为第一操作模式,从第四模式改变为第二模式,或其之间的任何组合。另外,图11中所说明的个别步骤可包含在对所述个别步骤适当时可在各种序列中执行的多个子步骤。此外,可取决于特定应用而添加或移除额外的步骤。所属领域的技术人员将认识和了解方法1100的许多变化、修改和替代方案。
[0099]图12是流程图,其描述使用内容分析来进行背景识别的实施例。在此实施例中,最终的OCR结果考虑到文档结构分析、内容语义分析和传统的OCR结果,之后输出OCR结果。方法1200由包括硬件(电路、专用逻辑等)、软件(例如,运行在通用计算系统或专用机器上)、固件(嵌入式软件)或其任何组合的处理逻辑执行。在一个实施例中,方法1200由图1的装置100执行。
[0100]参考图12,在框1202处获得图像。在一个实施例中,使用耦合到移动装置的相机来获得所述图像。一旦获得所述图像,在框1204处,识别包括例如文本等图形对象的图像的一部分。图像中的图形对象可包含(但不限于)一个或一个以上符号、字母数字字符、字、文本、标志或数字。文本是在描述图12时用于说明性目的的图形对象的实例;然而,可结合类似的方法使用任何图形对象。另外,还可在框1204处识别图形说明。图形说明可包含对象(例如,文本文字、符号等)的姿势或图形表示。举例来说,苹果的图像是字“苹果”的图形说明。一股来说,图形说明辅助改进图形对象的OCR结果。在一个实施方案中,在文本周围放置矩形文本框。一旦在框1204处检测到文本区,可在框1206处并行地开始对文本区的文档结构分析和内容语义分析。
[0101]文档结构分析开始于框1208处。文档结构分析集中于例如文本等图形对象的结构和布局,以及任何所识别的图形说明,以确定图形对象的背景。举例来说,餐馆处的正餐菜单具有与书本封面显著不同的文本布局。文档结构分析可集中于文本区的一元特征,比如字体高度,且还集中于文本区之间的二元特征。二元特征可包含特殊布置的分析,比如共线性以及水平和垂直重叠的程度。
[0102]一旦检测到具有文本的部分,对文档的内容语义分析也可开始。在框1210处,执行初步的OCR。从OCR输出的所辨识的文本(框1212)用于内容语义分析。举例来说,一旦使用OCR部分辨识出一些字,那么可实施使用那些字来推断背景的各种方案(框1214)。在一个实施例中,在使用属于最频繁检测到的类别的字来建构背景的情况下,使用多数表决方案。在另一实施例中,可基于背景来推断域专有的背景。在一些实施例中,内容语义分析与文档结构分析结合工作来推断背景。举例来说,在餐馆菜单中,食物名称和价格一起出现。类似地,在书本标题中,人名以相对小的字体出现。
[0103]在框1216处,使用来自文档结构分析和内容语义分析的背景来精炼字典。字典是在图12中用于说明性目的的图形对象群组的实例;然而,可利用使用任何图形对象群组的其它方法。在框1218处,执行另一 OCR。来自OCR的结果使用在框1216处产生的来自文档结构分析和内容语义分析的经精炼字典。一旦在框1206处检测到文本区,在框1218处,OCR可与文档结构分析和内容语义分析并行地开始。在框1220处,产生背景敏感OCR的输出文本。
[0104]应理解,图12中所说明的特定步骤提供根据本发明的实施例的在操作模式之间切换的特定方法。因此在替代性实施例中还可执行其它步骤序列。举例来说,本发明的替代性实施例可以不同次序执行上文概述的步骤。为了说明,用户可选择从第三操作模式改变为第一操作模式,从第四模式改变为第二模式,或其之间的任何组合。另外,图12中所说明的个别步骤可包含在对所述个别步骤适当时可在各种序列中执行的多个子步骤。此外,可取决于特定应用而添加或移除额外的步骤。所属领域的技术人员将认识和了解方法1200的许多变化、修改和替代方案。
[0105]图13是流程图,其描述通过分析图像的结构布局来进行背景识别的实施例。在一个实施例中,最终的OCR结果考虑到文档结构分析以及传统的OCR结果,之后输出OCR结果。方法1300由包括硬件(电路、专用逻辑等)、软件(例如,运行在通用计算系统或专用机器上)、固件(嵌入式软件)或其任何组合的处理逻辑执行。在一个实施例中,方法1300由图1的装置100执行。
[0106]参考图13,在框1302处获得图像。在一个实施例中,使用耦合到移动装置的相机来获得所述图像。一旦获得所述图像,在框1304处,识别包括例如文本等图形对象的图像的一部分。图像中的图形对象可包含(但不限于)一个或一个以上符号、字母数字字符、字、文本、标志或数字。文本是在描述图13时用于说明性目的的图形对象的实例;然而,可结合类似的方法使用任何图形对象。另外,还可在框1304(未图示)处识别图形说明。图形说明可包含对象(例如,文本文字、符号等)的姿势或图形表示。举例来说,苹果的图像是字“苹果”的图形说明。一股来说,图形说明辅助改进图形对象的OCR结果。在一个实施方案中,在图形对象周围放置矩形文本框。一旦在框1304处检测到具有图形对象和/或图形说明的图像的一个或一个以上部分,在框1308处,可并行地开始文档结构分析。
[0107]文档结构分析开始于框1308处。文档结构分析集中于例如文本等图形对象的结构和布局,以及任何所识别的图形说明,以确定图形对象的背景。举例来说,餐馆处的正餐菜单具有与书本封面显著不同的文本布局。文档结构分析可集中于文本区的一元特征,比如字体高度,且还集中于图形对象或图形对象和图形说明之间的二元特征。还可在产生文档结构分析的同时考虑文档的额外特征,例如空白和表格。二元特征可包含特殊布置的分析,比如共线性以及水平和垂直重叠的程度。
[0108]在框1310处,使用来自文档结构分析的背景来精炼字典。字典是在图13中用于说明性目的的图形对象群组的实例;然而,可利用使用任何图形对象群组的其它方法。在框1306处,识别来自图像的图形对象。可执行另一 OCR以用于识别图形对象。在识别图形对象的过程中,所述方法可使用在框1310处产生的来自文档结构分析的经精炼字典。在框1312处,产生背景敏感OCR的输出文本。
[0109]应理解,图13中所说明的特定步骤提供根据本发明的实施例的在操作模式之间切换的特定方法。因此在替代性实施例中还可执行其它步骤序列。举例来说,本发明的替代性实施例可以不同次序执行上文概述的步骤。为了说明,用户可选择从第三操作模式改变为第一操作模式,从第四模式改变为第二模式,或其之间的任何组合。另外,图13中所说明的个别步骤可包含在对所述个别步骤适当时可在各种序列中执行的多个子步骤。此外,可取决于特定应用而添加或移除额外的步骤。所属领域的技术人员将认识和了解方法1300的许多变化、修改和替代方案。
[0110]图14是流程图,其描述使用内容分析来进行背景识别的实施例。在一个实施例中,最终的OCR结果考虑到内容语义分析以及传统的OCR结果,之后输出OCR结果。方法1400由包括硬件(电路、专用逻辑等)、软件(例如,运行在通用计算系统或专用机器上)、固件(嵌入式软件)或其任何组合的处理逻辑执行。在一个实施例中,方法1400由图1的装置100执行。
[0111]参考图14,在框1402处获得图像。在一个实施例中,使用耦合到移动装置的相机来获得所述图像。一旦获得所述图像,在框1404处,识别包括例如文本等图形对象的图像的一部分。图像中的图形对象可包含(但不限于)一个或一个以上符号、字母数字字符、字、文本、标志或数字。文本是在描述图14时用于说明性目的的图形对象的实例;然而,可结合类似的方法使用任何图形对象。另外,还可在框1404处识别图形说明。图形说明可包含对象(例如,文本文字、符号等)的姿势或图形表示。举例来说,苹果的图像是字“苹果”的图形说明。一股来说,图形说明辅助改进图形对象的OCR结果。在一个实施方案中,在图形对象周围放置矩形文本框。一旦在框1404处检测到图形对象区,可在框1408处开始对文本区的内容语义分析。
[0112]一旦检测到具有图形对象的部分,可通过识别图形对象来开始对文档的内容语义分析(框1408)。在框1410处,可执行初步的OCR。在框1412处,从OCR输出的所辨识的图形对象(框1410)用于内容语义分析。举例来说,一旦使用OCR部分辨识出一些字,那么可实施使用那些字来推断背景的各种方案。在一个实施例中,在使用属于最频繁检测到的类别的字来建构背景的情况下,使用多数表决方案。在另一实施例中,可基于背景来推断域专有的背景。在一些实施例中,内容语义分析与文档结构分析结合工作来推断背景。举例来说,在餐馆菜单中,食物名称和价格一起出现。
[0113]在一个实施例中,在框1412处,分析内容语义是基于分析图形对象之间的共现的概率。在本发明的一个方面中,可基于图形对象(例如,在图像中找到的字)的关联来确定背景。举例来说,一意大利菜单项目常常与其它意大利菜单项目一起被看到。类似地,地铁站名称一起被看到。这些群组中的字之间的相关性相对很高。具有高相关性的字和文本块的共现矩阵可预先产生或通过训练装置而创建或更新。
[0114]在一个实施例中,可通过以下等式来表示共现矩阵的最大化的总共现率:
【权利要求】
1.一种用于执行OCR的方法,所述方法包括: 使用耦合到装置的相机来获得图像; 识别包括至少一个图形对象的所述图像的一部分; 推断与所述图像相关联的背景; 基于与所述图像相关联的所述背景来选择图形对象群组;以及 使用所述图形对象群组来改进所述至少一个图形对象的OCR结果。
2.根据权利要求1所述的方法,其中改进所述OCR结果包括使用所述图形对象群组来执行OCR。
3.根据权利要求1所述的方法,其中改进所述OCR结果包括: 通过对所述至少一个图形对象执行OCR来产生所述至少一个图形对象的多个OCR候选者;以及 使用所述图形对象群组从所述多个OCR候选者中选择一 OCR候选者。
4.根据权利要求1所述的方法,其进一步包括使用所述OCR结果来改进所述所推断的进旦同ο
5.根据权利要求1所述的方法,其中所述至少一个图形对象包括符号、字符、字、标志和数字中的一者或一者以上。
6.根据权利要求1所述的方法,其中所述图形对象群组包括通过共同特性而彼此相关联的多个图形对象。
7.根据权利要求1所述的方法,其中所述图形对象群组表示字典。
8.根据权利要求1所述的方法,其中所述图形对象群组表示字典的精炼。
9.根据权利要求1所述的方法,其中所述图像的所述背景是非文本的。
10.根据权利要求1所述的方法,其中使用图形说明来推断所述背景,其中所述图形说明是来自包括对象的姿势和图形表示的群组的至少一者。
11.根据权利要求1所述的方法,其中使用传感器输入来推断所述图像的所述背景。
12.根据权利要求11所述的方法,其中通过所述相机、麦克风、光传感器、时钟和GPS元件中的一者或一者以上来提供所述传感器输入。
13.根据权利要求1所述的方法,其中推断所述背景包括: 估计所述相机与所述至少一个图形对象之间的距离;以及 基于所述相机与所述至少一个图形对象之间的所述所估计的距离来推断所述背景。
14.根据权利要求1所述的方法,其中推断所述背景包括: 检测与在其中获得所述图像的环境中的多个光线相关联的至少一个特性;以及 基于与所述多个光线相关联的所述至少一个特性来推断所述背景。
15.根据权利要求14所述的方法,其中与所述多个光线相关联的所述至少一个特性是亮度,其中阈值以下的亮度会产生在室内获得所述图像的推断,且所述阈值以上的亮度会产生在室外获得所述图像的所述推断。
16.根据权利要求1所述的方法,其中推断所述背景包括: 使用麦克风接收音频输入; 对所述视频输入执行模式辨识;以及 基于所述音频输入中的所辨识的模式来推断所述背景。
17.根据权利要求16所述的方法,其中所述所辨识的模式包括来自用户的话音命令。
18.根据权利要求16所述的方法,其中所述所辨识的模式包括所述相机在接收所述音频输入时的位置的指示。
19.根据权利要求1所述的方法,其中推断所述背景包括: 从用户接收背景相关信息;以及 基于来自所述用户的所述所接收的背景相关信息来推断所述背景。
20.根据权利要求1所述的方法,其中推断所述背景包括: 估计所述装置的位置;以及 基于所述装置的所述所估计的位置来推断所述背景。
21.根据权利要求20所述的方法,其中使用所述装置的GPS元件来估计所述装置的所述位置。
22.根据权利要求20所述的方法,其中使用相对于小区塔的信号的强度来估计所述装置的所述位置。
23.根据权利要求20所述的方法,其中使用来自麦克风的音频输入来估计所述装置的所述位置。
24.根据权利要求1所述的方法,其中推断所述背景包括基于分析所述图像的结构布局来推断所述背景。
25.根据权利要求24所述的方法,其中通过比较多个图形对象之间的关系来分析所述结构布局。
26.根据权利要求24所述的方法,其中通过比较至少一个图形对象与至少一个图形说明之间的关系来分析所述结构布局。
27.根据权利要求26所述的方法,其中所述至少一个图形说明包括来自包括对象的姿势和图形表示的群组的至少一者。
28.根据权利要求1所述的方法,其中推断所述背景包括分析与所述图像相关联的多个内容语义。
29.根据权利要求28所述的方法,其中分析所述多个内容语义是基于分析多个图形对象之间的共现的概率。
30.根据权利要求28所述的方法,其中分析所述多个内容语义是基于分析至少一个图形对象与至少一个图形说明之间的关系。
31.根据权利要求30所述的方法,其中所述至少一个图形说明包括来自包括对象的姿势和图形表示的群组的至少一者。
32.根据权利要求28所述的方法,其中基于多种语言来分析所述多个内容语义。
33.根据权利要求1所述的方法,其中推断所述背景包括 从多个图形对象中识别至少一个图形对象;以及 基于来自所述多个图形对象的所述至少一个所识别的图形对象来推断所述背景。
34.根据权利要求33所述的方法,其中推断所述背景包括: 使用来自至少一个传感器的输入来检测环境因素; 在存在类似环境因素期间检索用户的过去行为响应;以及 使用所述用户的过去行为响应来推断所述背景。
35.根据权利要求34所述的方法,其中环境因素包括时间、位置、声音以及所述图像的主体距所述用户的距离中的一者或一者以上。
36.根据权利要求32所述的方法,其中基于多种语言来分析所述多个内容语义包括: 识别包括呈第一种语言的第一图形对象和呈第二种语言的第二图形对象的所述图像的一个或一个以上部分,其中所述第一图形对象和所述第二图形对象具有类似含义; 识别所述第一图形对象的第一多个候选者以及所述第二图形对象的第二多个候选者;以及 从与所述第二多个候选者中的至少一者具有类似含义的所述第一多个候选者中选择图形对象。
37.根据权利要求36所述的方法,其中从所述第一多个候选者中选择所述图形对象包括: 将所述第二图形对象的所述第二多个候选者翻译为所述第一语言;以及从所述第一多个候选者中找出与所述经翻译的第二多个候选者具有所述类似含义的至少一个图形对象。
38.一种装置,其包括: 处理器; 用于获得图像的相机;以及 耦合到所述处理器的非暂时性计算机可读存储媒体,其中所述非暂时性计算机可读存储媒体包括可由所述处理器执行以用于实施方法的代码,所述方法包括: 使用耦合到所述装置的所述相机来获得图像; 识别包括至少一个图形对象的所述图像的一部分; 推断与所述图像相关联的背景; 基于与所述图像相关联的所述背景来选择图形对象群组;以及 使用所述图形对象群组来改进所述至少一个图形对象的OCR结果。
39.根据权利要求38所述的装置,其中改进所述OCR结果包括使用所述图形对象群组来执行OCR。
40.根据权利要求38所述的装置,其中改进所述OCR结果包括: 通过对所述至少一个图形对象执行OCR来产生所述至少一个图形对象的多个OCR候选者;以及 使用所述图形对象群组从所述多个OCR候选者中选择一 OCR候选者。
41.根据权利要求38所述的装置,其进一步包括使用所述OCR结果来改进所述所推断的背景。
42.根据权利要求38所述的装置,其中所述至少一个图形对象包括符号、字符、字、标志和数字中的一者或一者以上。
43.根据权利要求38所述的装置,其中所述图形对象群组包括通过共同特性而彼此相关联的多个图形对象。
44.根据权利要求38所述的装置,其中所述图形对象群组表示字典。
45.根据权利要求38所述的装置,其中所述图形对象群组表示字典的精炼。
46.根据权利要求38所述的装置,其中所述图像的所述背景是非文本的。
47.根据权利要求38所述的装置,其中所述背景是使用图形说明来推断,其中所述图形说明是来自包括对象的姿势和图形表示的群组的至少一者。
48.根据权利要求38所述的装置,其中所述图像的所述背景是使用传感器输入来推断。
49.根据权利要求48所述的装置,其中所述传感器输入是通过所述相机、麦克风、光传感器、时钟和GPS元件中的一者或一者以上来提供。
50.根据权利要求38所述的装置,其中推断所述背景包括: 估计所述相机与所述至少一个图形对象之间的距离;以及 基于所述相机与所述至少一个图形对象之间的所述所估计的距离来推断所述背景。
51.根据权利要求38所述的装置,其中推断所述背景包括: 检测与在其中获得所述图像的环境中的多个光线相关联的至少一个特性;以及 基于与所述多个光线相关联的所述至少一个特性来推断所述背景。
52.根据权利要求51所述的装置,其中与所述多个光线相关联的所述至少一个特性是亮度,其中阈值以下的亮度会产生在室内获得所述图像的推断,且所述阈值以上的亮度会产生在室外获得所述图像的所述推断。
53.根据权利要求38所述的装置,其中推断所述背景包括: 使用麦克风接收音频输入; 对所述视频输入执行模式辨识;以及 基于所述音频输入中的所辨识的模式来推断所述背景。
54.根据权利要求53所述的装置,其中所述所辨识的模式包括来自用户的话音命令。
55.根据权利要求53所述的装置,其中所述所辨识的模式包括所述相机在接收所述音频输入时的位置的指示。
56.根据权利要求55所述的装置,其中推断所述背景包括: 从用户接收背景相关信息;以及 基于来自所述用户的所述所接收的背景相关信息来推断所述背景。
57.根据权利要求38所述的装置,其中推断所述背景包括: 估计所述装置的位置;以及 基于所述装置的所述所估计的位置来推断所述背景。
58.根据权利要求57所述的装置,其中所述装置的所述位置是使用所述装置的GPS元件来估计。
59.根据权利要求56所述的装置,其中所述装置的所述位置是使用相对于小区塔的信号的强度来估计。
60.根据权利要求57所述的装置,其中所述装置的所述位置是使用来自麦克风的音频输入来估计。
61.根据权利要求38所述的装置,其中推断所述背景包括: 基于分析所述图像的结构布局来推断所述背景。
62.根据权利要求61所述的装置,其中所述结构布局是通过比较多个图形对象之间的关系来分析。
63.根据权利要求61所述的装置,其中所述结构布局是通过比较至少一个图形对象与至少一个图形说明之间的关系来分析。
64.根据权利要求63所述的装置,其中所述至少一个图形说明包括来自包括对象的姿势和图形表示的群组的至少一者。
65.根据权利要求61所述的装置,其中推断所述背景包括分析与所述图像相关联的多个内容语义。
66.根据权利要求65所述的装置,其中分析所述多个内容语义是基于分析多个图形对象之间的共现的概率。
67.根据权利要求65所述的装置,其中分析所述多个内容语义是基于分析至少一个图形对象与至少一个图形说明之间的关系。
68.根据权利要求67所述的装置,其中所述至少一个图形说明包括来自包括对象的姿势和图形表示的群组的至少一者。
69.根据权利要求65所述的装置,其中所述多个内容语义是基于多种语言来分析。
70.根据权利要求38所述的装置,其中推断所述背景包括: 从多个图形对象识别至少一个图形对象;以及 基于来自所述多个图形对象的所述至少一个所识别的图形对象来推断所述背景。
71.根据权利要求38所述的装置,其中推断所述背景包括: 使用来自至少一个传感器的输入来检测环境因素; 在存在类似环境因素期间检索用户的过去行为响应;以及 使用所述用户的所述过去行为响应来推断所述背景。
72.根据权利要求63所述的装置,其中环境因素包括时间、位置、声音以及所述图像的主体距用户的距离中的一者或一者以上。
73.根据权利要求67所述的装置,其中基于多种语言来分析所述多个内容语义包括: 识别包括呈第一种语言的第一图形对象和呈第二种语言的第二图形对象的所述图像的一个或一个以上部分,其中所述第一图形对象和所述第二图形对象具有类似含义; 识别所述第一图形对象的第一多个候选者以及所述第二图形对象的第二多个候选者;以及 从与所述第二多个候选者中的至少一者具有类似含义的所述第一多个候选者中选择图形对象。
74.根据权利要求73所述的装置,其中从所述第一多个候选者中选择所述图形对象包括: 将所述第二图形对象的所述第二多个候选者翻译为所述第一语言;以及从所述第一多个候选者中找出与所述经翻译的第二多个候选者具有所述类似含义的至少一个图形对象。
75.一种非暂时性计算机可读存储媒体,其耦合到处理器,其中所述非暂时性计算机可读存储媒体包括可由所述处理器执行以用于实施方法的代码,所述方法包括: 使用耦合到装置的相机来获得图像; 识别包括至少一个图形对象的所述图像的一部分; 推断与所述图像相关联的背景; 基于与所述图像相关联的所述背景来选择图形对象群组;以及 使用所述图形对象群组来改进所述至少一个图形对象的OCR结果。
76.根据权利要求75所述的非暂时性计算机可读存储媒体,其中改进所述OCR结果包括使用所述图形对象群组来执行OCR。
77.根据权利要求75所述的非暂时性计算机可读存储媒体,其中改进所述OCR结果包括: 通过对所述至少一个图形对象执行OCR来产生所述至少一个图形对象的多个OCR候选者;以及 使用所述图形对象群组从所述多个OCR候选者中选择一 OCR候选者。
78.—种用于执行OCR的设备,其包括: 用于使用耦合到装置的相机来获得图像的装置; 用于识别包括至少一个图形对象的所述图像的一部分的装置; 用于推断与所述图像相关联的背景的装置; 用于基于与所述图像相关联的所述背景来选择图形对象群组的装置;以及 用于使用所述图形对象群组来改进所述至少一个图形对象的OCR结果的装置。
79.根据权利要求78所述的设备,其中改进所述OCR结果包括用于使用所述图形对象群组来执行OCR的装置。
80.根据权利要求78所述的设备,其中改进所述OCR结果包括: 用于通过对所述至少一个图形对象执行OCR来产生所述至少一个图形对象的多个OCR候选者的装置; 用于使用所述图形对象群组从所述多个OCR候选者中选择一 OCR候选者的装置;以及 用于在改进所述OCR结果的过程中使用所述选定的OCR候选者的装置。
【文档编号】G06K9/03GK103765440SQ201280041851
【公开日】2014年4月30日 申请日期:2012年8月6日 优先权日:2011年8月29日
【发明者】黄奎雄, 太元·李, 金杜勋, 延奇宣, 真珉豪, 金泰殊, 朝玄默 申请人:高通股份有限公司