专利名称:文档处理设备的制作方法
技术领域:
本发明涉及读取、翻译和输出文档的文档处理设备。
背景技术:
为了能够有效地使用外语文档,已开发了机器翻译和输出文档的设备。
在该设备中,可以仅仅翻译文档的一部分用作文档的摘要或索引。然而,由于略去了包括在所提取部分之前或之后的信息,所以当照原样进行翻译时,翻译的结果可能难于理解。
鉴于上述情况作出了本发明,本发明提供了一种文档处理设备,该文档处理设备即使在只翻译文档的一部分的情况下,也能够提供含义可理解的译文。
发明内容
为了解决上述问题,在一个方面,本发明提供了一种文档处理设备,该文档处理设备具有翻译部件,其翻译原稿的指定区域中包括的字符数据;和替换部件,当经翻译的字符数据中包含有引用了该经翻译的字符数据中没有指明的对象语的指示语时,该替换部件将该经翻译的字符数据中的该指示语替换为存在于所述指定区域以外的原稿区域中的该对象语的译文。
利用根据本发明的文档处理设备,即使只指定一部分文档并进行翻译工作时,也可以自动地搜索需要的信息并且输出具有高度完整性的经翻译的文档。
将基于附图详细说明本发明的实施例。
图1是示出了根据本发明的实施例的文档处理设备的配置的框图;图2是说明指示语数据库的内容的表;图3是示出了文档处理操作的特定示例的视图;图4是示出了根据本发明的实施例的文档处理设备的操作的流程图。
具体实施例方式
下面是参照附图对本发明实施例的说明。图1是示出了根据本发明的实施例的文档处理设备的配置的框图。为该文档处理设备配有读取部件10,其读取要发送的文档并输出图像数据;区域提取部件12,提取图像数据中应当进行文档处理的区域;字符识别部件14,执行字符识别并提取所提取区域的图像数据的字符数据;翻译部件16,将从所述字符识别部件14输出的字符数据从翻译源语言翻译到翻译目标语言,所述源语言和目标语言的每一个都是预先指定的;内容检查部件18,检查翻译结果的内容并且判断其中是否存在任何意思不明确的指示语;和输出部件20,其在翻译被检查之后将经翻译的文档输出到适当的设备。这里,“指示语”是指引用另一个词语的词语,其可以像代词一样替换其引用的词语。
读取部件10,例如是一种公知的技术,当文档沿着读取设备的读取面(reading face)移动时,其将该文档的各部分的亮度转换成二进制图像数据,并且通常包括被称作扫描仪的具有自动给纸机构的硬件部分。所述区域提取部件12提取以某种形式反映用户的意图的部分图像数据。在该实施例中,提供了用户界面22,用于由人向所述区域提取部件12提供指令。这例如可以由区域提取部件12在显示器上显示读取部件10获得的图像数据,并且用户使用鼠标等在显示器上进行区域指定来执行。用户界面22可以采用合适的配置,例如键盘、触摸屏等,并且如果在文档处理设备中存在现有的配置,也可以应用。
此外,例如也可以由用户直接地在文档中划出边界而指示提取区域。在这种情况下,通过使区域提取部件12具有直接判断该边界的功能,可以无需用户界面22。因为当用户拿着原始文档的复件并且在该复件内写出边界时,以后设备将自动处理该文档,所以这种方法很方便地节省了处理大量文档所需的时间。
所述字符识别部件14以预先指定的源文档语言进行图像数据的字符识别,并且生成该文档的字符数据。所述翻译部件16是查阅字典数据库(翻译源语言和翻译目标语言的对照表)的常规翻译部件,用于进行翻译。输出部件20可以适当地选择打印机、显示器或存储部件。当源文档除文本之外还包括图像信息(例如图像、照片等)时,该输出部件20可以将翻译结果与图像信息合并,并输出合并的数据。
所述内容检查部件18从翻译结果的内容中检索指示语。该内容检查部件18具有指示语数据库,其中这些类型的指示语以如图2所示的表形式事先存储。在这个表TBL中,将指示语设定在左栏,将对应于这些指示语的对象语的候选设置在中间栏,将搜索方向设置在右栏。因为通常没有对应于单个指示语的单个对象语,所以设定了多个相应的候选词语。
在如图2所示的表TBL的搜索对象语栏中的候选词语不是直接搜索的词语,而是设置为具有这样的特征的主体的词语组。例如,将概念“人”和“普通人”设置为指示语“他”的对象语。此外,像合并到词语“人”中的词语,适用于“人的名字”“指定人的名词”,“从事人一般地从事的职业的人”的词语都被包括。这些从属于“人”的概念语也存储在表TBL中。也可以将从属概念语存储在翻译部件16的字典中,而不存储在表TBL中。例如,如果采用了层次结构以致从属概念语对应于作为对象语说明的关键字“人”,可以使用字典数据库检索对象语。
此外,如果当执行搜索时出现了多个候选,通过预先确定的规则选择这些候选的其中之一。将这个规则确定为检索最接近于指示语的位置(在文本段中的位置)的词语等。此外该规则可以与参照每个词语发生的频率并建立优先权的规则联合使用,等等。
可以将例如“多个人”、“多个对象”和“多个动物”的概念语设置为如图2所示的“they(他们)”的对象语。在这种情况下,例如也将“人名和人名(连续表达人的名字的部分)”的定义设置为“多个人”的从属概念语。
下面将说明这个实施例的操作。图3是使用示例句子显示文档处理的流程的图。D1表示用日语写的原始句子,D2表示该句子照原样的英文翻译,D3表示根据本发明的实施例对该句子的翻译。下面,将参照如图4所示的流程图说明如图3所示的文档处理设备的操作。
由读取部件10读取原稿(步骤1),区域提取部件12检查是否具有指定部分(步骤2)。当通过标记原稿而指定了一部分时,判断图像数据有无指定部分。在用户对图像数据进行个别指定的系统中,在显示器等上打开文档图像数据,提示用户指定区域,并且根据用户的响应判断指定。当没有指定部分时,字符识别部件14和翻译部件16像往常一样操作,翻译整个区域(步骤3)并且输出部件20输出结果(步骤4)。
当在步骤2判断具有指定部分时,所述区域提取部件12提取指定区域(步骤5),并进行字符识别和翻译(步骤6)。接下来,内容检查部件18检查翻译结果中是否具有指示语(步骤7)。这参照图2所示的表的左栏执行。如果这些词语没有出现在指定的区域中,则照原样输出该结果(步骤4)。在步骤7,当发现了指示语时,则判断在指定区域是否具有对应于这些指示语的对象语。
在如图3所示的实施例中,因为如图2所示指示语是“they(他们)”,则按照(1)多个人;(2)多个物体;(3)多个动物等的顺序搜索对象语。在表TBL中搜索方向被指定为“前面”方向,就是在指示语之前。并且,当该指定区域具有对象语时,则照原样输出指示语(步骤4)。这样处理的原因是如果对应于指示语的对象语在该指定区域的文本段落中,则由于这样的事实,即在该区域中指示语表示的词语可以清楚地对应于对象语,所以无需用对象语替换指示语就可以理解意思。另一方面,如果没有发现对应于指示语的词语,则在搜索方向的相同方向向前扩大翻译区域(步骤9)。以适当的文本量为单位执行翻译区域的扩大,并且此处以段落为单位进行。对所述扩大部分进行翻译(步骤10),并且在该区域再次搜索对象语(步骤11)。
在步骤11,如果在所述扩大的区域中具有对象语,则翻译该部分,用对象语的翻译替换对应的指示语的翻译(步骤12),并且将结果输出(步骤4)。在如图3所示的示例中,“人名和人名(该部分中人的名字被连续的表示)”的定义作为词语包括在概念“多个人”中,并且在初始扩大部分具有这样的适用词语。因此,在步骤12,如图3所示的D3,“他们”被“Mr.Tanaka和Mr.Matsui(田中先生和松井先生)”替换。通常,指示语的对象语是最近的,因此在搜索方向上最先发现的词可以被选为对象语,但是当具有多个候选时作为选择标准,除了距离上的接近外,还可以考虑内容上的接近,基于发生频率预先规定优先权等。
在步骤11,当扩大区域中没有对象语时,判断进一步扩大的可能性(步骤13),当可扩大时,进程返回到步骤9,并且直到步骤11的步骤被重复。当在原稿中没有空间去扩大时,指示语不变地输出结果(步骤4)。在这种情况下,可以输入附带有评论的结果,该评论说明指示语的内容不清楚,并且通过单独的方法(例如通过显示部件显示或使用语音合成设备的声音指导)对这个效果提供警告。用户响应于这样的警告可以采取将前面的页提供给读取部件等的策略。而且,当以这种方式指定了部分并且翻译时,因为在指定部分之前和之后的页可能具有需要的信息,所以当读取文档时最初可以包括指定部分之前和之后的页。
在上面的实施例中,指示语是代词,并且在文本中搜索稍早提到的词语,但是在指示语中也具有像“如以下说明的X”那样在指示语之后解释对象语的情况。在这样的情况下,被搜索的词语是“X”自身,并且当替换搜索结果时,替换也包括该说明。
在这个实施例中,在翻译之后检查是否具有指示语,但是也可以在原始文本中进行检查。在该情况下,内容检查部件18的所有工作(包括图4的替换步骤12)都以翻译源的语言进行,并随后执行步骤3的翻译工作。
如上所述,本发明的一个方面提供了一种文档处理设备,其具有翻译部件,其翻译原稿的指定区域中包括的字符数据;和替换部件,当该经翻译的字符数据中包含有引用了该经翻译的字符数据中没有指明的对象语的指示语时,该替换部件将该经翻译的字符数据中的该指示语替换为存在于所述指定区域以外的原稿区域中的该对象语的译文。
如上所述,本发明的一方面还提供了一种文档处理设备,其具有替换部件,当包括在原稿的指定区域的字符数据中包含有引用了该字符数据中没有指明的对象语的指示语时,该替换部件将该字符数据中的指示语替换为存在于所述指定区域以外的原稿区域中的该对象语;和翻译部件,其翻译包括在该指定区域的字符数据。
根据本发明的上述实施例之一,所述指定区域可以通过原稿上的进行标记来指定。根据本发明的上述实施例之一,该文档处理设备还可以包括用于用户指定所述指定区域的输入部件。
根据本发明的上述实施例之一,当没有指明对象语时,可以输出包含对象语没有被指明的消息的经翻译的字符数据。根据本发明的上述实施例之一,该文档处理设备还可以具有警告部件,其在没有指明对象语时向用户提供警告。而且,根据本发明的上述实施例之一,可以使用定义了对象语与指示语之间的对应的表来指明对象语。
本发明的一个方面还提供了一种处理字符数据的方法,该方法具有翻译步骤,翻译原稿的指定区域中包含的字符数据;和替换步骤,当经翻译的字符数据中包含有引用了该经翻译的字符数据中没有指明的对象语的指示语时,将该经翻译的字符数据中的该指示语替换为所述指定区域以外的原稿区域中的该对象语的译文。
本发明的一方面还提供了一种处理字符数据的方法,该方法具有替换步骤,当包括在原稿的指定区域的字符数据中包含有引用了在该字符数据中没有指明的对象语的指示语时,将字符数据中的该指示语替换为存在于所述指定区域以外的原稿区域中的该对象语;和翻译步骤翻译包括在该指定区域的字符数据。
本发明的一方面还提供了一种计算机可读记录介质,其记录了使得计算机执行上述方法之一的程序。
前面对本发明实施例的描述是出于例示和说明目的的,并不是排他性的,也不是为了将本发明限制到所公开的确切形式。显然,对于本领域的普通技术人员,很多修改和变型是显而易见的。选择并说明这些实施例是为了最好地说明本发明的原理及其实际应用。从而使得本领域的其他技术人员能够理解用于各种实施例的本发明以及本发明适于特殊使用目的的变型。旨在本发明的范围由所附权利要求及其等同物来限定。
在此以引用的方式并入2005年3月25日提交的日本申请第2005-090174号的全部公开内容,包括说明书、权利要求书、附图和摘要。
权利要求
1.一种文档处理设备,包括翻译部件,其翻译原稿的指定区域中包含的字符数据;和替换部件,当经翻译的字符数据中包含有引用了经翻译的所述字符数据中没有指明的对象语的指示语时,所述替换部件将经翻译的字符数据中的所述指示语替换为存在于所述指定区域以外的原稿区域中的所述对象语的译文。
2.一种文档处理设备,包括替换部件,当包括在原稿的指定区域的字符数据中包含有引用了所述字符数据中没有指明的对象语的指示语时,所述替换部件将所述字符数据中的指示语替换为存在于所述指定区域以外的原稿区域中的所述对象语;和翻译部件,其翻译包括在指定区域的字符数据。
3.根据权利要求1所述的文档处理设备,其中通过在原稿上进行标记来指定所述指定区域。
4.根据权利要求2所述的文档处理设备,其中通过在原稿上进行标记来指定所述指定区域。
5.根据权利要求1所述的文档处理设备,还包括用于用户指定所述指定区域的输入部件。
6.根据权利要求2所述的文档处理设备,还包括用于用户指定所述指定区域的输入部件。
7.根据权利要求1所述的文档处理设备,其中当没有指明对象语时,输出包含对象语没有被指明的消息的经翻译的字符数据。
8.根据权利要求2所述的文档处理设备,其中当没有指明对象语时,输出包含对象语没有被指明的消息的经翻译的字符数据。
9.根据权利要求1所述的文档处理设备,还包括警告部件,其在没有指明对象语时向用户提供警告。
10.根据权利要求2所述的文档处理设备,还包括警告部件,其在没有指明对象语时向用户提供警告。
11.根据权利要求1所述的文档处理设备,其中使用定义了对象语与指示语之间的对应的表来指明所述对象语。
12.根据权利要求2所述的文档处理设备,其中使用定义了对象语与指示语之间的对应的表来指明所述对象语。
13.一种处理字符数据的方法,所述方法包括翻译步骤,翻译包括在原稿的指定区域的字符数据;和替换步骤,当经翻译的字符数据包含有引用了所述经翻译的字符数据中没有指明的对象语的指示语时,将所述经翻译的字符数据中的所述指示语替换为存在于所述指定区域以外的原稿区域中的所述对象语的译文。
14.一种处理字符数据的方法,所述方法包括替换步骤,当包括在原稿的指定区域的字符数据包含有引用了所述字符数据中没有指明的对象语的指示语时,将字符数据中的所述指示语替换为存在于所述指定区域以外的原稿区域中的所述对象语;和翻译步骤,翻译包括在所述指定区域的字符数据。
15.一种计算机可读记录介质,其记录使得计算机执行如下步骤的程序翻译步骤,翻译包括在原稿的指定区域的字符数据;和替换步骤,当经翻译的字符数据包含有引用了所述经翻译的字符数据中没有指明的对象语的指示语时,将经翻译的字符数据中的所述指示语替换为所述指定区域以外的原稿区域中的所述对象语的译文。
16.一种计算机可读记录介质,其记录使得计算机执行如下步骤的程序替换步骤,当包括在原稿的指定区域的字符数据中包括有引用了所述字符数据中没有指明的对象语的指示语时,将所述字符数据中的所述指示语替换为存在于所述指定区域以外的原稿区域中的所述对象语;和翻译步骤翻译包括在指定区域的字符数据。
全文摘要
本发明提供了一种文档处理设备,其具有翻译部件,其翻译包括在原稿的指定区域的字符数据;和替换部件,当经翻译的字符数据包含有引用了在经翻译的字符数据中没有指明的对象语的指示语时,该替换部件将该经翻译的字符数据中的该指示语替换为存在于所述指定区域以外的原稿区域中的所述对象语的翻译。
文档编号H04N1/32GK1838714SQ200510102520
公开日2006年9月27日 申请日期2005年9月8日 优先权日2005年3月25日
发明者恩田昌德, 系乘胜彦, 足利英昭, 木村俊一, 佐竹雅纪, 加藤雅弘, 吉村宏树 申请人:富士施乐株式会社