用于对可变位置的数据进行数据提取的机制的制作方法

文档序号:6577951阅读:240来源:国知局
专利名称:用于对可变位置的数据进行数据提取的机制的制作方法
技术领域
本发明一般的涉及打印系统领域。更具体地,本发明涉及在打印之前识
别资源。
背景技术
打印系统包括展示结构,该展示结构被用于以一种数据格式来展示文 件,其中所述数据格式与用来捕获或创建所述文件的方法无关。在这里举一
个示例性展示系统的例子,这个例子是由国际商用机器(IBM)公司开发的 高级功能展示(AFP )系统。根据该AFP系统,文件可以在包括以与装置 和分辨率无关的格式的文字、图像、图形、和/或条形码对象的组合。文件还 可以包括和/或参考字体、覆盖图(overlay)、以及其它在展示时间对数据进 行正确展示所需要的资源对象。
另外,文件还可以包括其它资源对象,诸如支持对文件数据的搜索和导 航的文件索引和标签元素以用于多种应用目的。总的来讲,用于以打印的格 式对文件进行展示的展示结构使用展示数据流。为了增加灵活性,该数据流 还可被划分为与装置无关的应用数据流和与装置无关的打印机数据流。数据 流是遵循给定的正式定义的数据元素和对象的连续排序流。应用程序可以生 成指定到展示装置、存档库、或另一应用程序的数据流。
另外,所述AFP结构对基于内容的标签制定提供标签逻辑元素结构化 字段(fidd)。 TLE中的索引信息应用到包含它们的页面或页面组。如果可 变数据的内容是可以预测的,例如如果地址的邮编总是位于数据的相同行, 则TLE将是有效的。然而,如果数据的位置并不总是一样,TLE就不能有 效地工作了。例如,虽然地址块的邮编部分通常位于地址块的最后一行,但它所占据的行数却是可以变化的。
当前存在两种用于定义这样的TLE的机制。第一种方法包括查看n整 页数据。第二种方法包括使用阈值来定义所述数据的位置,其中所述数据位 于所述阈值附近。这两种方法都是不可靠的。

发明内容
在一种实施方式中,公开了一种方法。该方法包括在高级功能展示 (AFP)文件的页面中的可变位置处生成一个或多个标签逻辑元素(TLE)。 在另一种实施方式中,公开了打印系统。该打印系统包括打印应用程序,该 打印应用程序用于使用户能够在AFP文件的页面中的可变位置处生成一个 或多个TLE。在又一种实施方式中,所述打印应用程序包括图形用户界面 (GUI),该GUI通过在数据块周围绘制框并在所该框中指定一行或多行来 使用户能够生成所述TLE,其中所述一行或多行被用于提取所述一个或多个 TLE。


根据以下结合附图给出的具体描述,能够对本发明的内容有更加清楚的
认识,其中
图1示出了打印系统的一种实施方式;
图2是生成TLE的一种实施方式的流程图3示出了 TLE生成用户界面的一种实施方式的截屏;
图4示出了TLE生成用户界面的另一种实施方式的截屏;以及
图5示出了 TLE生成用户界面的又一种实施方式的截屏。
具体实施方式
这里对数据提取机制进行描述。在下面的描述中,为了能够进行清楚地 解释,对大量的特定细节进行了描述,以便提供对本发明的彻底理解。但是, 本发明能够在不实施其中的某些特定细节的情况下进行实现对本领域技术 人员来说是显然。另外,以框图的形式示出了公知的结构和装置,以避免本 发明的根本原理模糊不清。
本说明书中所提到的"一种实施方式"或"实施方式"意味着与这种实 施方式相结合进行描述的特性、结构、或特征被包括在本发明的至少一种实 施方式中。出现在说明书的不同位置的短语"在一种实施方式中"并不需要 是同一实施方式。
图1示出了高级功能展示(AFP)打印系统100的一种实施方式。打印 系统100包括打印应用程序(printapplication) 110、服务器120、控制单元 130和打印引擎(engine) 160。打印应用程序110发出打印文件的请求。在 一种实施方式中,打印应用程序110向打印服务器120提供混合对象文件内 容结构(MO:DCA)数据流。
在另一种实施方式中,打印应用程序110还可以提供PostScript (P/S) 和PDF文件来进行打印。在对P/S和PDF文件进行打印时,首先要使它们 通过预处理器(未示出),该预处理器创建资源分离和页面独立,以使得所 述P/S或PDF文件在被传递到打印服务器120之前能够被转化成AFP MO:DCA数据流。
根据一种实施方式,所述AFP MO:DCA数据流是面向对象的数据流, 其中包括数据对象、页面对象、和资源对象。在另一种实施方式中,AFP MO:DCA数据流包括被指定在第一页之前、AFP文件的开始处的资源环境 组(REG)。当所述AFPMO:DCA数据流被打印服务器120处理时,首先会 遇到所述REG结构,这会使所述打印机对尚未存在于打印机中的任何所识 别的资源进行下载。这将在为工作的第一页而移动纸张之前发生。当需求复杂资源的页面最终被处理时,不会进一步为这些资源消耗其它的下载时间。
打印服务器120处理混合了所有一般能在展示文件中找到的元素的输出 页面,例如使用印刷字体的文字、电子表格、图形、图像、线条、框、和条 形码。所述AFP MO:DCA数据流由所组建或构造的用于描述这些元素中的 每一个的字段构成。
在一种实施方式中,打印服务器120经由智能打印机数据流(IPDS)同 控制单元130进行通信。所述IPDS数据流与所述AFP数据流相似,但它是 为目标打印机特别创建的,以集成每个打印机的特定功能和命令集,并使所 述打印服务器12和所述打印机之间的交互对话更加便利。所述IPDS数据流 可以在展示时间被动态地创建,例如实时快速(ontheflyinrealtime)。这样, IPDS数据流是根据与装置相关的双向命令/数据流而被提供的。
根据一种实施方式,控制单元130对从打印服务器接收到的对象进行处 理和移交,并向打印引擎160提供用于打印的图页(sheet map)。对象被捕 获并被存储在打印机捕获存储器180中。
在一种实施方式中,打印系统100的用户可以在打印应用程序110处生 成TLE。特别的,应用程序110提供允许定义TLE的过程的用户界面,该 TLE描述数据的定义区域内的数据的位置。在这样的实施方式中,可以在所 述区域的中间区域或最后几行中对TLE进行定义。
为了举例说明,将会参考美国(US)地址块对TLE定义过程进行描述。 然而,该过程也可以被用来在任何数据挖掘应用中定义TLE,其中文字处于 页面特定区域的可变位置。举例来讲,US地址块一般包括长度在3-5行之 间的数据。这些行的位置在不同的陈述(statement)中可以不同,但地址块 通常位于陈述的定义区域内。因此,地址数据未被置于该区域外,同时也没 有非地址被置于该区域中。
打印应用程序110的用户可能会希望从这样的地址块中创建邮编TLE和可选的城市/州TLE。另外,用户可能会喜欢针对所有中间行定义TLE。 AFP文件中的TLE—般是根据页面上的明显数据(TRN)来创建的。例如, 如果社会安全编号(SSN)的值总是位于页面的固定位置,那么TRN可被 用于可靠地创建SSNTLE。
然而,这样的过程将不会对像邮编一样的TLE起作用,这是由于邮编 TRN的位置能够根据地址行的数目而发生改变。即使这样,仍然能够保证邮 编总是出现在地址块的最后一行或倒数第二行等等。
根据一种实施方式,打印应用程序iio使围绕数据块的框的产生更加便
利,并允许指定边框中的一行或多行以用于提取一个或多个TLE。例如,边 框(bounding box)可以在地址数据块的周围生成,并且可以指定特定行以 提取邮编。
图2是生成TLE的一种实施方式的流程图。在处理块210,在选定框的 数据周围绘制边框。在处理块220,生成了第一TLE。根据一种实施方式, 所述第一 TLE通过在边框中选定特定行而生成以被用作所述TLE。图3示 出了 TLE生成用户界面350的一种实施方式的截屏,该界面350被用于在 页面300的US地址块的周围生成边框310并生成第一 TLE。
特定的,图3示出了在地址块周围绘制的边框310。另外,用户界面350 被用于选择所述用于提取邮编的该框中的最后一行。在一种实施方式中,边 框310足够大,以至于能够容纳地址块的最大行数。例如,边框中有能够容 纳5行数据的空间,尽管当前地址块中只存在3行。
再参见图2,在决定步骤230中,确定用户是否希望生成后续TLE。如 果还要生成另一个TLE,控制回到处理块220,并在此生成另一个TLE。然 而,如果不需要生成另一个TLE,则在处理步骤240中,页面(连同TLE 一起)经由打印服务器120和控制单元130被发送,以在打印引擎160处进 行打印。图4示出了用于从边框310中的地址块中生成另一个TLE用户界面350 的一种实施方式的截屏。如图所示,相似的步骤被用来创建城市/州TLE或 任何其它TLE。如果所述TLE文字出现在不同于最后一行的其它行中,则 可以以最后一行为参考点来选择这一行。
图5示出了用于生成中间TLE的用户界面350的又一实施方式的截屏。 针对地址块中的中间行的TLE可以通过设定第一和最后一行来进行创建。 例如,第一行可以包括接收方的名称,最后一行可以包括城市、州、邮编。 这样,每个中间行被提取并被置于称作地址n的TLE中,其中n介于1和 当前地址块的中间行的行数之间。
上述数据提取机制提供了一种对数据位置进行清楚定义的方法。由此, 所述定义是清楚无歧义的,其发生错误的几率要比现有方法小的多。
本发明的实施方式可以包括如上所述的多个步骤。这些步骤可以被包括 在可被机器执行的指令中。这些指令可被用于引起通用或专用处理器执行特 定步骤。可替换地,这些步骤可以由特定硬件组件或由被编程的计算机组件 和定制硬件组件来执行,其中所述特定硬件组件包括用于执行这些步骤的硬 件连接逻辑。
本发明的元素还可以作为用于存储可被机器执行的指令的机器可读介 质而被提供。所述机器可读介质可以包括但不限于软盘、光盘、CD-ROM、 和磁-光盘、ROM、 RAM、 EPROM、 EEPROM、磁或光卡、传输媒介或其 它类型的可用于存储电子指令的媒介/机器可读介质。例如,本发明可以作为 计算机程序被下载,该计算机程序可以以包含在载波中的数据信号的形式或 其它经由通信链路(例如调制解调器或网络连接)的传输媒介的形式从远程 计算机(例如服务器)传输到请求计算机(例如客户端)。
在上述描述中,为了能够进行清楚地解释,对大量的特定细节进行了描 述,以便提供对本发明的彻底理解。但是,对本领域技术人员来讲,本发明 显然能够在不实施其中的某些特定细节的情况下进行实现。
权利要求
1.一种方法,该方法包括在高级功能展示文件的页面中的可变位置处生成一个或多个标签逻辑元素。
2. 根据权利要求1所述的方法,其中所述生成的过程包括 在数据块周围绘制框;以及指定所述框中的一行或多行,所述一行或多行被用于提取所述一个或多 个标签逻辑元素。
3. 根据权利要求2所述的方法,该方法还包括生成对应于所述框中的 数据的第一行的第一标签逻辑元素。
4. 根据权利要求3所述的方法,该方法还包括 确定是否要生成另外的标签逻辑元素;以及如果确定要生成另外的标签逻辑元素,则生成对应于所述框中的数据的 另一行的另一标签逻辑元素。
5. 根据权利要求4所述的方法,该方法还包括如果确定不要生成另外 的标签逻辑元素,则发送所述高级功能展示文件和所述一个或多个标签逻辑 元素,以进行打印处理。
6. 根据权利要求2所述的方法,其中所述框被绘制的足够大,以便能 够容纳所述数据块的最大行数。
7. 根据权利要求2所述的方法,其中所述数据块是地址块。
8. 根据权利要求7所述的方法,其中所述第一标签逻辑元素是邮编标签逻辑元素,以及所述另一标签逻辑元素是城市/州标签逻辑元素。
9. 一种打印系统,该打印系统包括打印应用程序,用于使用户能够在高级功能展示文件的页面中的可变位 置处生成一个或多个标签逻辑元素。
10. 根据权利要求9所述的打印系统,其中所述打印应用程序包括图形用户界面,该图形用户界面通过在数据块周围绘制框并在该框中指定一行或 多行来使用户能够生成所述标签逻辑元素,其中所述一行或多行被用于提取 所述一个或多个标签逻辑元素。
11. 根据权利要求IO所述的打印系统,其中所述图形用户界面使得所述用户能够选择所述框中的数据的第一行,以生成第一标签逻辑元素。
12. 根据权利要求11所述的打印系统,其中如果所述用户选择生成另 外的标签逻辑元素,则所述图形用户界面使得所述用户能够选择所述框中的 数据的另一行,以生成另一标签逻辑元素。
13. 根据权利要求9所述的打印系统,该打印系统还包括用于从所述打 印应用程序接收打印请求的打印服务器。
14. 根据权利要求13所述的打印系统,该打印系统还包括用于对从所 述打印服务器所接收的对象进行处理和移交的控制单元。
15. 根据权利要求14所述的打印系统,该打印系统还包括用于从所述 控制单元接收用于打印的图页的打印引擎。
16. —种打印应用程序,该打印应用程序包括图形用户界面,该图形用户界面用于通过在数据块周围绘制框并在该框 中指定一行或多行来使用户能够在高级功能展示文件的页面中的可变位置 处生成所述标签逻辑元素,其中所述一行或多行被用于提取所述一个或多个 标签逻辑元素。
17. 根据权利要求16所述的打印应用程序,其中所述图形用户界面使 得所述用户能够选择所述框中的数据的第一行,以生成第一标签逻辑元素。
18. 根据权利要求17所述的打印应用程序,其中如果所述用户选择生 成另外的标签逻辑元素,则所述图形用户界面使得所述用户能够选择所述框 中的数据的另一行,以生成另一标签逻辑元素。
19. 根据权利要求17所述的打印应用程序,其中所述框被绘制的足够 大,以便能够容纳所述数据块的最大行数。
20. 根据权利要求16所述的打印应用程序,该打印应用程序还包括用 于在所述用户生成标签逻辑元素已完成时立即发送所述高级功能展示文件 和所述一个或多个标签逻辑元素,以进行打印处理的机制。
全文摘要
公开了一种用于对可变位置的数据进行数据提取的机制,包括在高级功能展示(AFP)文件的页面中的可变位置处生成一个或多个标签逻辑元素(TLE)。
文档编号G06F17/30GK101582017SQ20091013646
公开日2009年11月18日 申请日期2009年5月8日 优先权日2008年5月8日
发明者C·D·布罗斯曼, K·V·卡迪亚拉 申请人:普驰信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1