专利名称::根据硬拷贝表单自动生成表单定义的制作方法
技术领域:
:本发明总体上涉及表单处理系统,并且具体涉及用于自动生成表单定义的方法和系统。
背景技术:
:很多机构和企业将表单用作其业务过程的部分。在自动处理表单的领域中,多种方法和系统是公知的。例如,美国专利5,228,100描述了一种用于接受对表单显示的输入数据的系统。该系统使用扫描仪来扫描表单文档的图像,并产生表单图像。处理器识别表单图像中的字符和线图案,并产生文档的物理和逻辑结构数据。处理器基于逻辑结构数据自动地产生用于向表单显示输入数据的程序。系统包括用于呈现由物理结构数据定义的表单显示的屏幕、数据输入装置、以及用于基于填有数据的表单显示来产生打印文档的打印
发明内容因此,根据本发明的一个方面,提供了一种用于表单生成的计算机实现的方法。该方法包括自动地处理捕获的硬拷贝表单图像,以标识图像中的表单字段以及与每个表单字段相关联的文本字符。向字段中输入信息。对文本字符应用光学字符识别(OCR),以标识表单字段名称。确定表单字段名称与对应的数据对象的对象名称段的数据对象的对象名称相结合,以生成表单定义。5根据本发明的一个实施方式,该方法进一步包括响应于所确定的表单定义中的关联,自动地从数据存储库读取数据对象的值;以及输出已经将值填入表单字段的填写区域的表单副本。根据本发明的另一实施方式,输出表单副本包括以下至少一个打印副本,通过传真发送副本,'以及通过电子邮件发送副本。根据本发明的又一实施方式,数据存储库包括企业资源规划(ERP)系统的数据库。根据本发明的一个实施方式,由第一ERP系统产生硬拷贝的表单,并且表单定义是替代第一ERP系统的第二ERP系统的部分。根据本发明的另一实施方式,自动处理图像包括提取硬拷贝表单的与布局有关的特征,并将该特征包括在表单定义中。根据本发明的该实施方式,与布局有关的特征包括以下至少一个标志、标题、边框、角、浓淡模式(shadingpattern)以及线。根据本发明的一个实施方式,填写区域包括以下至少一个文字填写区域以及复选框。根据本发明的另一实施方式,确定关联包括自动地对表单字段名称与数据对象的对象名称进行匹配。根据本发明的第二方面,提供一种表单生成系统。该系统包括处理器,其被布置用于自动地处理从硬拷贝表单捕获的图像,以标识图像中的表单字段以及与每个表单字段相关联的文本字符;确定定义各个填写区域的表单字段的几何坐标,所述填写区域用于向表单字段中输入信息;对文本字符应用光学字符识别(OCR),以标识表单字段名称;确定表单字段名称与对应的数据对象的对象名表单字段的数据对象的对象名称相结合,以生成表单定义。该表单生成系统还可以包括图像捕获设备,其被布置用于捕获硬拷贝表单的图像。根据本发明的第三方面,提供一种用于表单生成的计算机软件产品。该产品包括其中存储有程序指令的计算机可读介质,当计算机读取该指令时,其使得计算机接受硬拷贝表单的捕获图像;自动地处理图像,以标识图像中的表单字段以及与每个表单字段相关述填写区域用于向表单字段中输入信息;对文本字符应用光学字符识别(OCR),以标识表单字段名称;确定表单字段名称与对应的数据对象的对象名称之间的关联;以及将表单字段的填写区域的几何坐标与对应于该表单字段的数据对象的对象名称相结合,以生成表单定义。根据下文结合附图对本发明实施方式的详细描述,将更为全面地理解本发明,其中图1是示意性地示出了根据本发明中一个实施方式的表单处理系统的框图2是示意性地示出了根据本发明中一个实施方式的用于根据硬拷贝表单生成表单定义的方法的流程图3是示意性地示出了根据本发明中一个实施方式的用于打印已填写表单的方法的流程图4A是示出了根据本发明中一个实施方式的硬拷贝表单的摘录(excerpt)的图示;图4B是示出了根据本发明中一个实施方式的打印的硬拷贝表单的摘录的图示;图5A是示出了根据本发明中一个实施方式的硬拷贝表单的另一摘录的图示;以及图5B是示出了根据本发明中一个实施方式的打印的已填写表单的另一摘录的图示。具体实施例方式本发明的实施方式提供了用于基于已有的硬拷贝表单来自动生成表单定义的方法和系统。这些方法和系统例如可以在从一个企业资源规划(ERP)系统切换到另一个时使用,或者在其他数据处理应用中使用,这将在下文进一步描述。在改变ERP系统时,需要在新的ERP系统中定义机构所使用的表单。对表单内容和布局进行人工定义(有时在图形编辑器的辅助下)是枯燥、耗时、易错的过程,尤其是在机构使用大量的复杂表单时。因此,期望将表单定义过程自动化,以便最小化人工参与,并降低定义时间。在多数情况下,先前ERP系统的硬拷贝表单是可获得的。本发明的实施方式使用可获得的硬拷贝表单来定义可以在新ERP系统中使用的等同表单。在一些实施方式中,首先扫描已有的硬拷贝表单,以产生计算机可读的图像。表单生成器分析图像的布局,并标识表单的字段。对于每个表单字段,通常使用光学字符识别(OCR)过程来提取字段名称。而且,对字段的填写区域(也即,输入信息的空白区域)的几何坐标加以标识。在一些实施方式中,还从图像中提取与布局有关的表单特征,诸如标志、边框和其他对象。表单生成器继而将已标识的表单字段与适当的数据对象进行链接,诸如与ERP数据库中的字段链接。例如,表单生成器可以尝试在数据库中找到与从图像中提取的表单字段名称相匹配的对象名称。附加地或者备选地,用户可以在表单字段与数据对象之间人工执行关联。用户可以验证自动关联的结果和/或在表单生成器定位匹配对象名称失败时被要求手动执行关联。在关联过程结束后,每个表单字段与ERP数据库中的相应数据对象相关联。表单生成器产生表单定义,其包括已标识的表单字段名称和填写区域位置、以及在每个表单字段与对应的数据对象之间找到的可以通过根据表单定义从数据库的适当数据字段获取数据来填入和打印表单。8图1是示意性地示出了根据本发明中一个实施方式的表单处理系统20的框图。系统20包括企业资源规划(ERP)系统24,其特别地处理信息并打印出已填写的表单(也即,已经填入了信息的表如发票、收据、订单、报价表和报告。尽管下文的描述涉及对一种类型表单的处理,但系统20通常支持多种表单类型。可以填入表单的信息存储于数据存储库,例如ERP数据库28。要填写和打印的每个表单例如对应于数据库28中保存多个数据对象的记录,或者对应于保存在不同记录中的数据对象的结合。数据对象包含将出现在不同表单字段中的信息。数据库28中的每个数据对象具有对象名称,其可以附加地包括简短文字描述和/或描述数据字段的一个或多个关键词。ERP系统根据表单定义或模板来产生和打印表单。在一些实施方式中,表单定义规定了表单的物理布局和表单内容二者。表单定义规定了不同的表单字段。定义通常规定了每个表单字段与布局有关的属性,诸如表单上字段标题和填写区域的位置坐标和/或将用于打印字段标题和内容的字体。定义还可以规定与字段有关的图形对象(诸如边框、角、浓淡模式和线)以及整个表单的属性(诸如标志和表单标识符)。特别地,表单定义规定了将表单字段链接至ERP数据库28中的相应数据对象(其保存将要填入表单字段的信息)的关联或者链接。由此,为了打印出已填写表单,ERP系统24按照表单定义中的关联的规定,通过查询数据库28中的适当数据对象,从而获取将要单,并且特别地,将获取的数据库信息插入到表单字段的适当填写区域中。系统使用输出设备32(诸如,打印机)来输出已填写表单36。备选地,系统可以作为图像文件来产生已填写表单,并使用电子邮件将其发送到其目的地。进一步备选地,输出设备32可以包括传真表单定义是从已有的硬拷贝表单40得出的。通过捕获设备44将表单40转换为计算机可读的图像(称为表单图像)。捕获设备44可以包括扫描仪、传真机或者用于将硬拷贝表单转换为计算机可读图像的其他适当设备。表单图像由表单生成器48来处理。表单生成器处理表单图像并与数据库28交互,还可以经由用户工作站56与用户52交互,以产生表单定义。将表单定义提供乡合ERP系统24,其使用表单定义来打印出已填写表单。通常,表单生成器48包括通用计算机,其通过软件编程以执行在此描述的功能。软件例如可以通过网络以电子形式下载到计算机,或者备选地,可以在诸如CD-ROM的有形介质上将其提供给计算机。在一些实施方式中,将表单生成器作为与ERP系统24共享相同计算平台的软件过程来实现。备选地,表单生成器48和ERP系统24可以使用分离的计算平台。图2是示出了根据本发明实施方式的用于自动生成表单定义的方法的流程图。该方法开始于捕获步骤60,在该步骤,捕获设备44将硬拷贝表单40转换为计算机可读的表单图像。在布局分析步骤62,表单生成器48分析表单图像的布局。表单生成器提取与布局有关的不同表单特征,诸如标志、标题、边框、角和线。另外,表单生成器标识图像中的文字区域(也即,包含文本字符的区域),并使用光学字符识别(OCR)来解码文本。(尽管下文的描述涉及的硬拷贝表单40为尚未填写的表单,但是在此描述的方法和系统也可以应用于硬拷贝的已填写表单。例如,可以将OCR软件配置为区分表单字段名称与已填写内容)。在字段定义步骤64,表单生成器48使用从表单图像提取的信息来标识不同的表单字段,并在表单定义中定义其属性。具体地,表单生成器标识每个已标识表单字段的表单字段名称以及填写区域的坐标。填写区域例如可以包括用于输入文字信息的空白区域和复选10框。在关联步骤66,表单生成器将每个表单字段与数据库28中的相应数据对象进行关联。在一些实施方式中,表单生成器使用在上面的步骤62中使用OCR提取的表单字段名称。通常,对象名称在一定程度上类似适于表单字段名称,这是因为它们描述类似的实体。由此,表单生成器可以通过匹配其名称来将表单字段与数据对象进行关联。如上所述,对象名称可以包括附加的文本或者关键字,其可以增加成功匹配的可能性。备选地,用户52可以使用工作站56来将表单字段与数据对象进行人工关联。备选地或者附加地,用户可以验证由表单生成器确定的自动关联的结果。应当注意,即使是在用户执行人工关联时,相对于全手工表单定义过程而言,表单定义时间也明显降低。在定义输出步骤68,表单生成器48产生表单定义。表单定义包括每个表单字段的定义。具体地,表单定义包括表单字段与数据库28中的数据对象之间的关联。表单生成器将表单定义提供给ERP系统24。图3是示意性地示出了根据本发明中一个实施方式的用于打印已填写表单36的方法的流程图。该方法开始于数据库查询步骤80,在该步骤,ERP系统24根据表单定义中规定的关联获取适当的数据对象。在表单构建步骤82,ERP系统使用所获取的信息来构建已填写表单。ERP系统根据表单定义中规定的与布局有关的字段属性来安排表单布局。系统将从适当数据对象获取的信息输入到每个表单字段的填写区域中。在输出步骤84,ERP系统继而使用输出设备32来打印已填写表单。图4A是示出了根据本发明中一个实施方式的硬拷贝表单的摘录88的图示。在本例中,该摘录是健康保险申报表的一部分。该摘录包括5个表单字段用于输入患者的街道和门牌号、城市、州、邮编和电话号码。在分析摘录88时,表单生成器48标识这5个字段。在每个字段中,表单生成器标识包含表单字段名称的文本区域92以及填写区域96。表单生成器使用OCR来提取文本区域92中的文本,并且确定填写区域96的坐标。表单生成器产生以下表单字段名称和坐标<table>tableseeoriginaldocumentpage12</column></row><table>在本例中,ERP数据库中特定患者的记录包括以下数据对象和数据名称<table>tableseeoriginaldocumentpage12</column></row><table>注意,表单字段名称和对象名称是不一样的。尽管如此,表单生成器可以将表单字段名称"Patient—Address—NoStreet"与对象名称"NoStreet"相关联,因为字符串"NoStreet"在两个名字中都出现了。可以针对其他字段来确定类似的关联。图4B是示出了根据本发明中一个实施方式的打印的已填写表单的摘录100的图示。该已填写表单是使用上文所述方法基于图4A的硬拷贝表单产生的。为了产生摘录100,ERP系统24从数据库28获取期望的患者记录,并按照表单定义来安排表单布局。具体地,系统按照关联的规定将记录的数据项插入适当的填写区域。图5A是示出了根据本发明中一个实施方式的硬拷贝表单的摘录104的图示。在用于输入患者个人状态的字段的本例中,表单生成器将单个表单字段视为具有文字区域108和填写区域112的6个子字段。在本例中,填写区域包括复选框。在分析表单图像之后,表单生成器48标识以下表单字段名称和坐标<table>tableseeoriginaldocumentpage13</column></row><table>图5B是示出了根据本发明中一个实施方式的、基于图5A的硬拷贝表单的打印的已填写表单的摘录112的图示。在摘录112中,ERP系统24基于从数据库28获取的信息勾选了适当的复选框。尽管在此描述的实施方式主要涉及表单处理应用,但是本发明的原理也可以用于诸如以下的应用恢复丢失的或损坏的表单定义,或者将表单定制或者重新定义为新的布局。在此描述的方法和系统还可以用于设计和/或修改新的表单。例如,可以扫描纸质表单,并填入从已有用户简档中自动提取的信息。因此,应该理解,上文描述的实施方式是以示例方式记载的,本发明不限于上文具体示出和描述的内容。相反,本发明的范围包括上文所述的各种特征以及在阅读上文描述之后对本领域技术人员易见的、并且现有技术未公开的变形和修改的组合和子组合二者。权利要求1.一种用于表单生成的计算机实现的方法,包括自动地处理捕获的硬拷贝表单图像,以标识所述图像中的表单字段以及与每个所述表单字段相关联的文本字符;确定定义各个填写区域的所述表单字段的几何坐标,所述填写区域用于向所述字段中输入信息;对所述文本字符应用光学字符识别(OCR),以标识表单字段名称;确定所述表单字段名称与对应的数据对象的对象名称之间的关联;将所述表单字段的所述填写区域的所述几何坐标与对应于所述表单字段的所述数据对象的所述对象名称相结合,以生成表单定义。2.根据权利要求1所述的方法,还包括响应于在所述表单定义中所确定的关联,自动地从数据存储库中读取所述数据对象的值;单副本。3.根据权利要求2所述的方法,其中输出所述表单副本包括以下至少一个打印所述副本,通过传真发送所述副本,以及通过电子邮件发送所述副本。4.根据权利要求2所述的方法,其中所述数据存储库包括企业资源规划(ERP)系统的数据库。5.根据权利要求1所述的方法,其中所述硬拷贝表单是由第一ERP系统产生的,并且其中所述表单定义是替换所述第一ERP系统的第二ERP系统的部分。6.根据权利要求1所述的方法,其中自动处理所述图像包括提取所述硬拷贝表单的与布局有关的特征,以及将所述特征包括到所述表单定义中。7.根据权利要求6所述的方法,其中所述与布局有关的特征包括以下至少一个标志、标题、边框、角、浓淡模式和线。8.根据权利要求1所述的方法,其中所述填写区域包括以下至少一个文字填写区域和复选框。9.根据权利要求1所述的方法,其中确定所述关联包括自动地将所述表单字段名称与所述数据对象的所述对象名称进行匹配。10.—种表单生成系统,包括处理器,其被布置用于自动地处理捕获的硬拷贝表单图像,以标识所述图像中的表单字段以及与每个所述表单字段相关联的文填写区域用于向所述表单字段中输入信息;对所述文本字符应用光学字符识别(OCR),以标识表单字段名称;确定所述表单字段名称与对应的数据对象的对象名称之间的关联;以及将所述表单字段的所述填写区域的所述几何坐标与对应于所述表单字段的所述数据对象的所述对象名称相结合,以生成表单定义。11.根据权利要求IO所述的系统,其中所述处理器被布置用于响应于在所述表单定义中所确定的关联,自动地从数据存储库中读取所述数据对象的值;并且包括输出设备,其被布置用于输出其中本。12.根据权利要求11所述的系统,其中所述输出设备包括以下至少一个打印机,传真机和电子邮件连接。13.根据权利要求11所述的系统,其中所述数据存储库包括企业资源规划(ERP)系统的数据库。14.根据权利要求10所述的系统,其中所述硬拷贝表单是由第一ERP系统产生的,并且其中所述处理器被布置用于向替换所述第一ERP系统的第二ERP系统提供所述表单定义。15.根据权利要求IO所述的系统,其中所述处理器被设置用于从所述表单图像中提取所述硬拷贝表单的与布局有关的特征,以及将所述特征包括到所述表单定义中。16.根据权利要求15所述的系统,其中所述与布局有关的特征包括以下至少一个标志、标题、边框、角、浓淡模式和线。17.根据权利要求10所述的系统,其中所述填写区域包括以下至少一个文字填写区域和复选框。18.根据权利要求10所述的系统,其中所述处理器被布置用于通过对所述表单字段名称与所述数据对象的所述对象名称进行比较来确定所述关联。19.一种用于表单生成的计算机软件产品,所述产品包括其中存储有程序指令的计算机可读介质,在所述指令由计算机执行时,其使得所述计算机执行根据权利要求1到9中任一权利要求所述的步骤。全文摘要一种用于表单生成的计算机实现的方法,包括捕获硬拷贝表单图像,以及自动地处理所述图像,以标识所述图像中的表单字段以及与每个所述表单字段相关联的文本字符。确定定义各个填写区域的表单字段的几何坐标,所述填写区域用于向所述表单中输入信息。对文本字符应用光学字符识别(OCR),以标识表单字段名称。确定所述表单字段名称与对应的数据对象的对象名称之间的关联。将所述表单字段的所述填写区域的所述几何坐标与对应于所述表单字段的所述数据对象的所述对象名称相结合,以生成表单定义。文档编号G06K9/20GK101523413SQ200780037832公开日2009年9月2日申请日期2007年11月7日优先权日2006年11月16日发明者A·肖特兰德,Y·纳冯申请人:国际商业机器公司