校正扫描书籍中的页面卷曲的制作方法

文档序号:7849793阅读:424来源:国知局
专利名称:校正扫描书籍中的页面卷曲的制作方法
技术领域
本发明涉及书籍数字化。更具体地说,本发明涉及校正卷曲页面(诸如,在书脊附近)的数字扫描数据或该页面的其他失真。
背景技术
印刷材料中包含大量信息。印刷材料可包括书籍以及报纸、期刊、杂志、小册子及其他期刊文献。然而,对此类材料的取用以及用于此类材料的存储空间经常受到限制。例如,归因于某一材料(诸如,一些较旧书籍及出版物)的稀有性以及(经常)易损性,保存所述材料的机构(诸如,图书馆、博物馆或私人拥有者)可能不愿意将书籍借给个人或其他机构。因此,希望取用此类材料的研究员或其他感兴趣的个人可能必须行进至所述材料的位置。即使如此,取用仍可能限于有限的时间段,或限于在特殊条件下查看。此外,一些出 版物(诸如,报纸或通俗杂志)可能快速地损坏。此外,机构处的存储空间可能受到限制。因此,已有更多的兴趣数字化稀有书籍以及其他印刷材料的内容。然后可将材料的数字化版本提供给比取用原始书籍的人多得多的人。此外,对以数字形式使绝版的多种书籍及出版物可为公众取得非常感兴趣。(下文中,待数字化的印刷材料将被称作“书籍”,而不管其实际形式。)在数字化中,扫描书籍的每个页面或每对页面以获取所述页面的一系列数字化后的图像。可接着以数字格式保存数字化后的图像。可使书籍的数字化后的图像以数字文件的形式或如以书籍的传真版的形式重印而可为公众取得。所获取的数字化后的图像可经进一步处理以提取书籍的文本内容。例如,可将光学字符识别(OCR)技术应用于扫描的页面以便建立书籍的文字内容的文本文件。因此可以以文本文件的形式使书籍的内容可为公众取得。对旧书籍的节省成本的数字化的常见障碍是页面图像归因于页面弯曲或卷曲(bending or curling)而造成的失真。取决于装订(bound)书籍的方式,书籍可能未平放地(flat)翻开。在此情况下,在装订件附近的页面的末端可能卷曲或弯曲。当使用旨在主要用于扫描平放对象的扫描仪来扫描时,页面的卷曲末端的数字化后的图像可能呈现失真。页面的卷曲部分上的文字可能相对于扫描仪的视线而倾斜。文字的符号或字母可能失真,使得其可能难以阅读。此外,字母的失真可致使标准OCR技术不可识别所述字母。经常地,各种考虑事项排除拆卸书籍的装订或对书籍施加压力以便使页面平放。使用特殊相机或扫描技术以便围绕页面的曲率扫描可显著增加数字化书籍所需的时间及花费。此时间及花费的增加可严重地阻碍在数字化整个图书馆及稀有书籍的集合中的进展。

发明内容
根据本发明的各实施例,提供一种用于校正具有内容的页面的图像中的失真的计算机实现的方法。所述方法包括标识包括在具有与该页面的该内容相关的内容的一个或多个页面的一个或多个图像的未失真区域中的至少一个高质量字的一组高质量字;标识该页面的该图像中的至少一个失真字,所述至少一个失真字中的每个失真字对应于来自所述一组高质量字的一个高质量字;生成用于应用于该页面的该图像的全局变换函数,以便基本上将所述至少一个失真字中的失真字变换成其对应高质量字;以及将所述全局变换函数应用于该页面的该图像的各像素。根据本发明的各实施例,还提供一种存储在非暂时性有形计算机可读存储介质上的计算机程序产品,其用于校正具有内容的页面的图像中的失真。所述计算机程序产品包括用于进行以下操作的代码标识包括在具有与该页面的该内容相关的内容的一个或多个页面的一个或多个图像的未失真区域中的至少一个高质量字的一组高质量字;标识该页面的该图像中的至少一个失真字,所述至少一个失真字中的每个失真字对应于来自所述一组高质量字的一个高质量字;生成用于应用于该页面的该图像的全局变换函数,以便基本上将所述至少一个失真字中的失真字变换成其对应高质量字;以及将所述全局变换函数应用于该页面的该图像的各像素。
根据本发明的各实施例,还提供一种数据处理系统,其包括处理器;计算机可用介质,其连接至处理器,其中所述计算机可用介质含有用于校正具有内容的页面的图像中的失真的一组指令。所述处理器被设计为执行一组指令以执行以下操作标识包括在具有与该页面的该内容相关的内容的一个或多个页面的一个或多个图像的未失真区域中的至少一个高质量字的一组高质量字;标识该页面的该图像中的至少一个失真字,所述至少一个失真字中的每个失真字对应于来自所述一组高质量字的一个高质量字;生成用于应用于该页面的该图像的全局变换函数,以便基本上将所述至少一个失真字中的失真字变换成其对应高质量字;以及将所述全局变换函数应用于该页面的该图像的各像素。在第一方面,本发明提供了一种用于校正页面的图像中的失真的方法,所述方法包括标识包括在具有与该页面的内容相关的内容的一个或多个页面的一个或多个图像的未失真区域中的至少一个未失真字的一组未失真字;标识该页面的该图像中的至少一个失真字,所述至少一个失真字中的每个失真字对应于来自所述一组未失真字的一个未失真字;生成用于应用于该页面的该图像的全局变换函数,以便基本上将所述至少一个失真字中的失真字变换成其对应未失真字;及将所述全局变换函数应用于该页面的该图像的各像素。优选地,本发明提供了一种方法,其中所述至少一个失真字包括至少两个失真字,并且其中生成用于应用于该页面的该图像的全局变换函数包括生成至少两个局部变换函数,所述至少两个局部变换函数中的每个局部变换函数可应用于所述至少两个失真字中的对应失真字,以便基本上将所述对应失真字变换成其对应未失真字;以及使全局函数拟合于所述至少两个局部变换函数。优选地,本发明提供了一种方法,其中所述至少两个局部变换函数包括多项式函数。优选地,本发明提供了一种方法,其中所述全局变换函数包括多项式函数。优选地,本发明提供了一种方法,其中生成所述全局变换函数包括应用光流技术。优选地,本发明提供了一种方法,包括将该页面的该图像或一个或多个页面的所述一个或多个图像分段成字。优选地,本发明提供了一种方法,包括将二进制化技术应用于该页面的该图像或应用于一个或多个页面的所述一个或多个图像。在另一方面,本发明提供了一种用于校正页面的图像中的失真的数据处理系统,所述系统包括用于标识包括在具有与该页面的内容相关的内容的一个或多个页面的一个或多个图像的未失真区域中的至少一个未失真字的一组未失真字的部件;用于标识该页面的该图像中的至少一个失真字的部件,所述至少一个失真字中的每个失真字对应于来自所述一组未失真字的一个未失真字;用于生成用于应用于该页面的该图像的全局变换函数的部件,以便基本上将所述至少一个失真字中的失真字变换成其对应未失真字;以及用于将所述全局变换函数应用于该页面的该图像的各像素的部件。优选地,本发明提供了一种数据处理系统,其中所述至少一个失真字包括至少两个失真字,并且其中用于生成用于应用于该页面的该图像的全局变换函数的指令包括用于生成至少两个局部变换函数的部件,所述至少两个局部变换函数中的每个局部变换函数 可应用于所述至少两个失真字中的对应失真字,以便基本上将所述对应失真字变换成其对应未失真字;以及用于使全局函数拟合于所述至少两个局部变换函数的部件。优选地,本发明提供了一种数据处理系统,其中所述至少两个局部变换函数包括多项式函数。优选地,本发明提供了一种数据处理系统,其中所述全局变换函数包括多项式函数。优选地,本发明提供了一种数据处理系统,其中用于生成所述全局变换函数的指令包括用于应用光流技术的指令。优选地,本发明提供了一种数据处理系统,包括用于将该页面的该图像或一个或多个页面的所述一个或多个图像分段成字的指令。优选地,本发明提供了一种数据处理系统,包括用于将二进制化技术应用于该页面的该图像或应用于一个或多个页面的所述一个或多个图像的指令。在另一方面,本发明提供了一种包括计算机程序代码的计算机程序,当所述计算机程序被载入计算机系统并执行时,所述计算机程序代码执行上述的方法的所有步骤。


现在将仅通过实例的方式参考附图描述本发明的一个优选实施例,这些附图是图I示出根据本发明的各优选实施例的用于校正书籍的页面的失真图像的系统的示意性横截面图像;图2示出使用图I中示出的系统扫描的页面的图像的一个实例;图3是根据本发明的各优选实施例的校正失真页面图像的方法的流程图;以及图4是失真矩阵的示意图。
具体实施例方式所属技术领域的技术人员知道,本发明的各方面可以体现为系统、方法或计算机程序产品。因此,本发明的各方面可以具体实现为以下形式,即,可以是完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、或者本文一般称为“电路”、“模块”或“系统”的软件部分与硬件部分的组合。此外,本发明的各方面还可以采取体现在一个或多个计算机可读介质中的计算机程序产品的形式,该介质中包含计算机可用的程序码。可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质,计算机可读存储介质例如可以是-但不限于-电的、磁的、光的、电磁的、红外线的、或半导体的系统、装置、器件或传播介质、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPR0M或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或前述各项的任何适当的组合。在本文语境中,计算机可读存储介质可以是任何含有或存储供指令执行系统、装置或器件使用的或与指令执行系统、装置或器件相联系的程序的有形介质。计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的带有计算机可读程序代码的数据信号。这样一种传播信号可以采取任何适当的形式,包括-但不 限于-电磁的、光的或其任何适当的组合。计算机可读信号介质可以是不同于计算机可读存储介质的、可以传达、传播或传输供指令执行系统、装置或器件使用的或与指令执行系统、装置或器件相联系的程序的任何一种计算机可读介质。包含在计算机可读介质中的程序代码可以采用任何适当的介质传输,包括-但不限于-无线、有线、光缆、射频等、或上述各项的任何适当组合。用于执行本发明的操作的计算机程序码,可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++之类,还包括常规的过程式程序设计语言-诸如“C”程序设计语言或类似的程序设计语言。程序码可以完全地在用户的计算上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何种类的网络-包括局域网(LAN)或广域网(WAN)-连接到用户的计算机,或者,可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。以下参照按照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。要明白的是,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得通过计算机或其它可编程数据处理装置执行的这些指令,产生实现流程图和/或框图中的方框中规定的功能/操作的装置。也可以将这些计算机程序指令存储在能指令计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的制品。也可以将计算机程序指令加载到计算机、其它可编程数据处理装置或其他设备上,使得在计算机、其它可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而在计算机或其它可编程装置上执行的指令就提供实现流程图和/或框图中的方框中规定的功能/操作的过程。附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。根据本发明的各实施例,提议基于书籍的其他部分的未失真图像校正同一书籍的页面的图像的失真。通常,页面的失真可由平台扫描仪或类似平面扫描仪扫描该页面的卷曲部分引起。根据本发明的各实施例的校正应用可使得能够使用标准的现成扫描设备获得 弯曲页面的校正后的、整平后的图像。校正应用包括利用书籍的剩余部分中的所有或部分的未失真的扫描图像确定失真图像的至少一部分的可能内容。例如,校正应用可搜寻书籍的已扫描的页面,以寻找代表正扫描的书籍的内容的典型内容。例如,典型内容可包括在本文中的各点处重复出现的字、字的序列、字的群集或符号。校正应用可接着标识图像内容的呈现为典型内容的一个或多个项目的失真的项目。例如,校正应用可将文字区段标识为典型内容的字的失真版本。校正应用可基于图像内容的标识后的项目是典型内容的项目的失真版本的假定来建构局部变换。局部变换可描述典型内容的项目的失真以形成图像内容的标识后的项目。在确定了页面上的一个或多个局部变换后,校正应用可接着建构描述整个页面的变换的全局变换函数。例如,全局变换函数可描述弯曲页面的图像至具有等效内容的平放页面的图像的变换。因此,全局变换函数可将图像的失真内容转换成页面的假定真实内容。例如,校正应用可计算失真页面的图像与特定数学模型的最佳拟合。例如,校正应用可应用最小平方拟合算法以使失真内容拟合于多项式函数。备选地,校正应用可使失真内容拟合于基于翻开书籍的物理模型的模型。在确定了变换函数后,校正应用可将变换函数应用于页面的图像。将变换函数应用于页面的图像可生成页面的未失真图像。图I示出了根据本发明的各实施例的用于校正书籍的页面的失真图像的系统的示意性横截面图像。系统10包括扫描仪16及处理器20。扫描仪16可包括压板22。例如,可翻开书籍12以便与压板22相抵而按压曝露的页面14。书籍12包括用于将书籍12的页面装订在一起的装订件24。装订件24可约束当书籍12翻开时书籍12的页面的形状。例如,装订件24可以以使得当翻开书籍12时页面14的最接近装订件24的近端区段14b弯曲的方式固持书籍12中的曝露的页面14。因此,近端区段14b的至少一部分可与压板22隔开一距离,且与压板22成一倾斜角。通常,页面14的远离装订件24的另一远程区段14a可与压板22相抵而基本上平放。在扫描期间,扫描仪16通常沿着压板22移动扫描仪头18,以便扫描曝露的页面14的各部分。通常,扫描仪头18在垂直于其运动方向(由图I中的箭头表示)且垂直于所述图的平面的方向上伸长。例如,当在扫描仪头位置18a处时,扫描仪头18可使曝露的页面14的基本上平放的远程区段14a成像。类似地,当在扫描仪头位置18b处时,扫描仪头18可使曝露的页面14的失真近端区段14b成像。处理器20可包括用于控制扫描仪16的操作的编程。例如,处理器20可控制扫描仪头18的移动以及扫描仪头18对扫描数据的获取。处理器20可包括用于自扫描仪16接收扫描数据以及用于分析、处理及输出扫描结果的编程。例如,处理器20可表示扫描仪16中内置的处理器、与扫描仪16通信的计算机或彼此且与扫描仪16通信的各种处理器的组

口 ο图2示出使用图I中示出的系统扫描的页面的图像的一个实例。页面图像26包括与曝露的页面14的远程区段14a(图I)的图像对应的未失真图像区域26a。类似地,页·面图像26包括与曝露的页面14的近端区段14b (图I)的图像对应的失真图像区域26b。在处理器20(图I)上运行的校正应用可应用本领域中公知的技术来标识图像内的个别图像内容组件,诸如,个别字、符号或符号的群集。在下文中,个别图像内容组件将被称作字,而不管组件的内容。此类技术在(例如)OCR技术中是公知的且被应用。例如,一种技术可通过标识将字彼此分开的空间来标识个别字。例如,校正应用可标识未失真图像区域26a中的未失真字28a及29a。类似地,校正应用可标识失真图像区域26b中的失真字28b 及 29b ο图3是根据本发明的各实施例的校正失真页面图像的方法的流程图。根据本发明的各实施例的校正应用使用一组适当的页面扫描图像作为输入(步骤30)。所输入的一组页面扫描图像通常包括具有相关或大致均匀内容的一组已扫描页面的图像。例如,一组输入可包括书籍的所有页面。在其他情况下,一组输入可包括书籍的页面图像的子集。例如,已扫描的书籍的不同区段可能以不同语言书写,可能以不同字体印刷,或可能具有非常不同的样式(例如,大部分由方程式组成的数学区段及主要包括旁白的另一区段)。在此情况下,校正应用输入可限于具有大致均匀内容的一个或多个区段。例如,所述应用的使用者可指示将所述图像用作输入。备选地,校正应用可包括用于标识含有大致均匀内容的此类区段的准则。所述校正应用可接着生成一组输入中所存在的字的列表(步骤32)。例如,校正可包括应用OCR的已知字分段技术以将每个图像分段成单独字(例如,通过标识将字彼此分开的空间)。例如,对页面图像26 (图2)操作的校正应用可标识字28a、28b、29a及29b (连同其他字)。校正应用可分析所生成的字列表以便校正页面失真。通常,校正应用可假定字为双调(例如,在亮背景上的均匀暗文字)。印刷的褪色或变色、页面的变暗或变色或其他效应可妨碍界定字的边缘。为了消除已扫描的图像中的任何灰度或其他着色,校正算法可对所述字应用标准二进制化技术。典型的二进制化技术可对图像应用一个或多个固定或可适配阈值以便将两个值中的一个(例如,指示黑的值或指示白的值)分派给图像的每个像素。此外,校正应用可应用低通空间滤波器(例如,高斯3X3滤波器)以消除高空间频率分量,从而进一步界定字或字符的边缘。分析可包括标识所述字列表内的一组高质量(HQ)字(步骤34)。HQ字是可标识为基本上未失真的字。例如,将标准OCR技术应用于字可生成具有高置信度的字的OCR解译。校正应用可接着确定所解译的字是HQ字。此类技术可限于已知语言或以已知字体印刷的字。备选地,校正应用可对字应用标准基线确定技术以便确定字的总体形状。校正应用可确定具有基本上直的基线的字为HQ字。例如,对页面图像26 (图2)操作的校正应用可标识HQ字28a及29a (连同其他HQ字)。另一方面,所述校正应用可将字28b及29b标识为非HQ字。分析还可包括创建合成字(步骤36)。例如,组成字的字母的语言或字体可为已知的,或可从所述字列表提取。校正应用可接着使用所述字体的字母创建字。例如,校正应用可将合成字用于稍后与失真字的比较(在以下描述)。校正应用可接着匹配类似字,并将它们排列成多组等效字(步骤38)。例如,校正应用可以直接方式将已知形状分析或OCR技术应用于HQ字,以便标识类似字。对于由于字的整体平移或旋转而稍微未对准的字,校正应用可首先应用一个或多个已知对位技术。此类技术可包括(例如)使一个或多个距离测量最小化或使字之间的相关性最大化。
校正应用可应用用于将失真或其他非HQ字与HQ或合成字相匹配的额外分析。例如,校正应用可试图将失真字与HQ字相比较。例如,校正应用可将失真字的总尺寸或其他大体特征与字列表中的HQ字的总尺寸或其他大体特征相比较。作为比较的结果,校正应用可标识失真字可为失真版本的候选字。在标识了候选字的列表后,校正应用可应用各种技术以试图将失真字与候选字中的一个或多个相匹配。例如,校正应用可应用如上所述的已知对位技术以便使失真字与候选HQ字的对准最大化。此外,校正应用可应用如本领域中公知的一个或多个(非刚性)弹性对位技术。弹性对位技术可试图修改失真字的形状以便匹配候选HQ字的形状。例如,校正应用可应用诸如运动估计技术之类的光流(optical flow)技术。在应用运动估计技术中,校正应用生成失真矩阵。失真矩阵描述当应用于HQ字时使图像扭曲以便获得失真字(或反之亦然)的变形。失真矩阵包括分配给HQ字的每个像素的位移向量。每个位移向量描述待应用于HQ字的每个像素以便使图像扭曲以便形成失真字的运动(距离及方向)。通常,校正应用通过应用变分(variation)技术来生成失真矩阵,使得所生成的失真矩阵描述最佳对应性。通常,校正应用选择失真矩阵,使得描述HQ字的各像素与失真字之间的对应度的准则量被最大化或最小化。无法获得在预定义值范围内的准则量的值可指示HQ字与失真字之间缺乏对应性。图4是失真矩阵的示意图。失真矩阵50的每个箭头52表示分配给像素的位移向量。备选地,校正应用可通过失真函数近似得出失真矩阵。例如,校正应用可使多项式或其他合适的变换函数拟合于HQ字,以便使HQ字失真为类似于失真字的图像。通常,拟合可包括两个多项式函数,每个多项式函数描述两个正交方向(例如,X及y方向)中的一个方向上的失真。例如,校正应用可使多项式函数拟合于失真矩阵。校正应用可基于失真矩阵或失真函数将校正(诸如,失真矩阵或失真函数的逆矩阵或反函数)应用于失真字以便获得校正后的图像。因此,校正应用可计算用于将失真字变换成未失真字的基于字的校正变换(步骤40)。因此,校正应用可针对所扫描书籍的每个页面生成对应于字列表中的已知字的一组失真字。每个失真字可具有相关联的失真矩阵或失真函数。例如,对页面图像26(图2)操作的校正应用可将失真字28b标识为未失真字28a的失真,及将失真字29b标识为未失真字29a的失真。基于校正变换,校正应用可计算发现失真字的页面的区段的局部变换(步骤42)。例如,校正可生成描述在失真字处的局部失真的局部多项式函数。通常,所述函数可包括两个多项式函数,每个多项式函数描述两个正交方向(例如,X及y方向)中的一个方向上的失真。校正应用可使用与单个页面关联的一组局部变换函数来生成描述该页面的全局失真的函数(步骤44)。例如,校正应用可生成描述整个页面或该页面的含有失真的区段的全局失真的多项式函数。校正应用可使单个多项式函数(在两个正交方向中的每个方向上)拟合于一组局部多项式函数。例如,校正应用可应用最小平方技术以生成最佳拟合。 备选地,根据本发明的各实施例的校正应用可使用替代技术以便生成全局失真函数以描述页面的全局失真。例如,针对已翻开书籍的页面的表面形状,可存在物理模型。例如,可存在用于具有参数(具有在预定范围内的值)的书籍的通用模型。此类参数可包括(例如)书籍的总尺寸、页数、书籍翻开至的页面、装订的类型、纸张厚度及书籍的年代。通用模型可包括一个或多个参数,可通过使页面上的失真字的变换函数拟合于未失真字而确定所述一个或多个参数的值。校正应用可接着自页面的关联全局失真函数得出用于页面的全局校正函数,并将全局校正函数应用于该页面(步骤46)。例如,全局校正函数可为全局失真函数的反函数。全局校正函数的应用可产生校正后的页面图像。全局校正函数可减少或消除页面上的所有失真字的失真而不管是否与局部失真函数相关联。校正后的页面图像的进一步处理可包括(例如)保存校正后的页面的图像或将OCR应用于该页面的内容。重复应用此过程可增加准确性。例如,在应用全局失真校正后,将OCR应用于校正后的页面可帮助标识先前遗漏的额外字。将额外标识的字添加至字列表并使用扩展的字列表重复此过程可导致更准确的失真校正。
权利要求
1.一种用于校正页面的图像中的失真的方法,所述方法包括 标识包括在具有与该页面的内容相关的内容的一个或多个页面的一个或多个图像的未失真区域中的至少一个未失真字的一组未失真字; 标识该页面的该图像中的至少一个失真字,所述至少一个失真字中的每个失真字对应于来自所述一组未失真字的一个未失真字; 生成用于应用于该页面的该图像的全局变换函数,以便基本上将所述至少一个失真字中的失真字变换成其对应未失真字;及 将所述全局变换函数应用于该页面的该图像的各像素。
2.如权利要求I的方法,其中所述至少一个失真字包括至少两个失真字,并且其中生成用于应用于该页面的该图像的全局变换函数包括 生成至少两个局部变换函数,所述至少两个局部变换函数中的每个局部变换函数可应用于所述至少两个失真字中的对应失真字,以便基本上将所述对应失真字变换成其对应未失真字;及 使全局函数拟合于所述至少两个局部变换函数。
3.如权利要求2的方法,其中所述至少两个局部变换函数包括多项式函数。
4.如权利要求I的方法,其中所述全局变换函数包括多项式函数。
5.如权利要求I的方法,其中生成所述全局变换函数包括应用光流技术。
6.如权利要求I的方法,包括将该页面的该图像或一个或多个页面的所述一个或多个图像分段成字。
7.如权利要求I的方法,包括将二进制化技术应用于该页面的该图像或应用于一个或多个页面的所述一个或多个图像。
8.一种用于校正页面的图像中的失真的数据处理系统,所述系统包括 用于标识包括在具有与该页面的内容相关的内容的一个或多个页面的一个或多个图像的未失真区域中的至少一个未失真字的一组未失真字的部件; 用于标识该页面的该图像中的至少一个失真字的部件,所述至少一个失真字中的每个失真字对应于来自所述一组未失真字的一个未失真字; 用于生成用于应用于该页面的该图像的全局变换函数的部件,以便基本上将所述至少一个失真字中的失真字变换成其对应未失真字;及 用于将所述全局变换函数应用于该页面的该图像的各像素的部件。
9.如权利要求8的数据处理系统,其中所述至少一个失真字包括至少两个失真字,并且其中用于生成用于应用于该页面的该图像的全局变换函数的指令包括 用于生成至少两个局部变换函数的部件,所述至少两个局部变换函数中的每个局部变换函数可应用于所述至少两个失真字中的对应失真字,以便基本上将所述对应失真字变换成其对应未失真字 '及 用于使全局函数拟合于所述至少两个局部变换函数的部件。
10.如权利要求9的数据处理系统,其中所述至少两个局部变换函数包括多项式函数。
11.如权利要求8的数据处理系统,其中所述全局变换函数包括多项式函数。
12.如权利要求8的数据处理系统,其中用于生成所述全局变换函数的指令包括用于应用光流技术的指令。
13.如权利要求8的数据处理系统,包括用于将该页面的该图像或一个或多个页面的所述一个或多个图像分段成字的指令。
14.如权利要求8的数据处理系统,包括用于将二进制化技术应用于该页面的该图像或应用于一个或多个页面的所述一个或多个图像的指令。
15.一种包括计算机程序代码的计算机程序,当所述计算机程序被载入计算机系统并执行时,所述计算机程序代码执行根据权利要求I至7中的任一权利要求的方法的所有步骤。
全文摘要
本发明涉及校正扫描书籍中的页面卷曲。提供了一种用于校正页面的图像中的失真的计算机实现的方法,包括标识在具有与该页面的内容相关的内容的多个页面的一个或多个图像的未失真区域中的一组高质量(HQ)字。标识该页面的该图像中的至少一个失真字,使得每个失真字对应于所述一组高质量字中的一个高质量字。生成用于应用于该页面的该图像的全局变换函数,以便将所述失真字变换为其对应高质量字。将所述全局变换函数应用于该页面的该图像的各像素。
文档编号H04N1/387GK102918548SQ201180025555
公开日2013年2月6日 申请日期2011年6月3日 优先权日2010年6月8日
发明者A·查多克, V·克卢兹纳, E·瓦拉赫 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1