机器翻译系统及方法

文档序号:6650378阅读:290来源:国知局
专利名称:机器翻译系统及方法
技术领域
本发明涉及一种机器翻译系统及方法。
背景技术
在一个使用计算机将用第一语言(源语言)书写的句子翻译成用第二语言(目标语言)书写的句子的机器翻译系统中,首先,输入句子通过语素分析或句子结构分析被划分为预定的翻译单元(例如词语和短语)。随后,在处理单元中对翻译词典进行搜索以确定要应用的翻译规则,从而确定相应的译文词语(短语)。被确定的词语(短语)按照一个预定的翻译规则被连接,从而获得与输入句子对应的译文。
在一个具有诸如表格结构或其中词语或句子按顺序排列的列举结构等结构的文档中,如果对表格结构或列举结构进行翻译,则将表格的每个单元格中的词语或句子,或被列举的词语或句子提取出来,并输入到一个如上所述的机器翻译系统进行翻译。
例如那些规则地排列为结构元素的表格的单元格中的句子或列举的句子,很可能不具有语法上正确的结构,也很可能非常短。因此,上述逐一从表格结构或列举结构提取句子并进行机器翻译的方法,不提供许多对于翻译的分析或从可能的句子中进行选择来讲非常关键的信息,这导致翻译准确性的降低。
当翻译标准句子时,利用了在句子中和上下文中共同出现的信息(参见,例如日本专利申请特开平NO.3-175573)。但是,如果将这种方法直接应用到对表格结构或列举结构的数据的翻译,那么由于共同出现的方式会依赖于句子在结构中的排列而变化,所以很难输出固定的翻译结果。
具体来说,例如以下的例子,一个列举结构为(イ)月、(口)火、(ハ)水…,日文字符(イ),(口)和(ハ)属于“次序”类别。因此,日文字符(イ),(口)和(ハ)最好分别翻译为数字(1),(2)和(3),或者字母(a),(b),和(c)。月,火,水是日文词语。月的意思为星期一(Getsu)或月亮(Tsuki),火的意思为星期二(Ka)或火(Hi),水的意思为星期三(Sui)或水(Mizu)。有一个类似的列举结构为(ア)月、(イ)火、(ウ)水…。在这种情况下,日文字符(ア),(イ)和(ウ)最好被分别翻译为数字(1),(2)和(3),或者字母(a),(b)和(c)。因此,在前一个例中,日文字符(イ)应该被翻译为(1)或(a),但在后一个例子中,同样的日文字符(イ)应该被翻译为(2)或(b)。此外,甚至可能出现列举结构包含在嵌套结构中的情况,其中很可能出现两个或两个以上的多义字符,如上述字符(イ)。在使用共同出现的信息的传统翻译中,由于列举结构的规则,不能执行翻译,根据该规则,字符被有规则地排列。因此,如上述字符(イ)的多义字符会被错误地翻译,这降低了翻译的质量。此外,包含在列举结构中的日文字符(词语)月(Getsu)、火(Ka)、水(Sui)……的集合表明这些词语实际上都属于“一周中的某天”这一类别。因此,这些词语应该被分别翻译为“Monday”、“Tuesday”、“Wednesday”,……。但是,日文词语月、火、水……还分别表示“moon”、“fire”、“water”,……。在现有翻译技术中,其中,由于如上所述的列举结构的规则(在该规则下词语有规则地排列),不能执行翻译,词语月、火、水……就很可能被分别翻译为“moon”、“fire”、“water”等标准(缺省)的译文词语。
对表格结构来说也一样。具体来说,当在表格结构中时,在每一列(行)的索引行(列)上存在存储日文词语月、火、水……的单元格,这些词语就应该被翻译为“Monday”、“Tuesday”、“Wednesday”、……,因为词语月、火、水……的集合表明这些词语属于“一周中的某天”这一类别。但是,在现有的技术中,正如列举结构的情况一样,因为由于表格结构的行(列)方向的规则(根据该规则词语被有规则地排列)而不能进行翻译,词语月、火、水……很可能被分别翻译为“moon”、“fire”、“water”等标准(缺省)译文词语。如果利用共同出现的信息的翻译方法被应用于表格的翻译,那么对于某一单元格的翻译可能会被表格中其他同该单元格具有较少关联度的单元格(例如位于斜上方或斜下方的单元格)影响。因此,可靠的翻译仍然很困难。
如上所述,现有技术不能正确地翻译具有表格结构或列举结构地文档,在所述文档中词语或句子有规则地排列。

发明内容
根据本发明的第一方面,提供了一种机器翻译系统,包括存储单元,被配置为存储多个解释数据项,每一个解释数据项包括第一表示元素,它代表第一语言的第一表示,词语集合元素,它包括第一表示和代表第二语言的第二表示的第二表示元素,第一表示将被翻译为第二表示,第一表示和第二表示属于一个类别;获取单元,被配置为获取第一语言的预定表示,该预定表示被包含在具有结构的待翻译文本中;检测单元,被配置为从解释数据项中检测其中每个解释数据项包括代表预定表示的表示元素的多个解释数据项;选择单元,被配置为从被检测的解释数据项中选择包含词语集合元素的解释数据项,该词语集合元素在结构中对应于相同属性或等同的位置关系;翻译单元,被配置为利用选中的数据项将预定的表示翻译成第二语言。
根据本发明的第二方面,提供了一种机器翻译方法,包括配备存储单元,它被配置为存储多个解释数据项,每个数据项包括第一表示元素,它代表第一语言的第一表示,词语集合元素,它包括第一表示和代表第二语言的第二表示的第二表示元素,第一表示将被翻译为第二表示,第一表示和第二表示属于一个类别;获取第一语言的预定表示,该预定表示被包含在具有结构的待翻译文本中;从解释数据项中检测多个解释数据项,每个解释数据项包括代表预定表示的表示元素;从检测的解释数据项中选择包括词语集合元素的解释数据项,该词语集合元素在结构中对应于相同属性或等同的位置关系;利用选中的解释数据项将预定的表示翻译成第二语言。
附图简述

图1是说明根据本发明实施例的机器翻译系统的结构实例的框图;图2是说明具有例如表格结构的文档的视图;图3是说明图2的表格的每个单元格中的数据实例的视图,其存储在内部结构数据存储单元;图4是说明存储在内部结构解释数据库中的解释数据的具体实例的视图;图5是用于解释图1的机器翻译系统的操作的流程图;图6是说明具有例如表格结构的文档的视图;图7是说明在图6的表格的每个单元格中的数据实例的视图,其存储在内部结构数据存储单元;以及图8是说明存储在内部结构解释数据库中的解释数据的具体实例的视图。
具体实施例方式
以下将参照附图详细描述本发明的实施例。
考虑到上述问题,开发了本发明的实施例,其目的是提供用于高度准确并可靠地翻译具有表格结构或列举结构的文档的机器翻译系统。提供一种在机器翻译系统中使用的机器翻译方法也是它的一个目的。
本发明的实施例能高度准确并可靠地翻译具有表格结构或列举结构的文档。
图1是说明根据本发明实施例的机器翻译系统的结构实例的框图。
如图所示,输入单元1获取文档(原始文档)的电子数据(以下简称为“文档”)作为翻译对象,并将它输出到控制器2。输入单元1由例如键盘,鼠标等构成,用户对其操作以输入文档。输入单元1可以由用于从计算机可读介质读取数据的读取单元构成,例如一个光学字符阅读器(OCR),软盘,磁带,磁盘或光盘。输入单元1将这样读取的文档提供给控制器2。此外,输入单元1用于向控制器2提供各种命令。
输出单元3输出由控制器2提供的翻译结果。此外,例如,输出单元3在控制器2的控制下,在显示单元(未示出)的屏幕上显示翻译结果。输出单元3以声音的形式输出翻译结果,并且显示出控制器2对某个命令所作的响应。
输出单元3也可以由各种类型的显示单元、打印单元、用于向计算机可读介质输出数据的输出单元、用于向其它介质传送文档的传输单元构成,所述计算机可读介质是例如光学字符阅读器(OCR)、软盘、磁带、磁盘或光盘。
翻译单元4在控制器2的控制下,使用稍后描述的翻译词典5,对从输入单元1输入的原始文档执行翻译处理,以及将翻译结果输出给控制器2。
翻译词典5存储词汇词典(未示出),以及翻译处理所需的各种规则。例如,翻译词典5存储词语/成语词典,语素分析规则,结构/含义分析规则,译文转换规则,译文生成规则等。
控制器2在待翻译的文档中检测结构,在结构中词语或句子(表示元素)被规则地排列,例如表格结构,列举结构,或诸如章/节这样的层次结构。具体来说,当在待翻译的文档中检测到章或节时,包括通常被包含在章或节的标题句中的字符串(例如“第一章”,“第二章”,……,“Ch”,“Sec”等)的字符串被确定为章或节的标题句。从而,章或节被检测出来。类似地,当检测表格结构时,在文档中检测到格线,并且确定该格线是否定义了一个矩形,以及该矩形是否包含被其它格线分割的区域。对于列举结构的情况,可以基于每个句子头部的缩进或一个附加的符号检测。此外,如果待翻译文档是带有如HTML或XML等标记的结构化的文档,则可以通过检测标记来容易地检测。
当在待翻译文档中检测到例如表格结构或层次结构的结构时,控制器2将包括在待翻译文档中的整个检测到的结构传送给文档结构分析单元6。文档结构分析单元6分析结构,并从结构中提取出作为结构的组成部分而排列的词语、短语或句子(表示元素)的集合(在下文中简称为“词语集合元素(表示集合元素)”)。
内部结构数据存储单元7存储包含在所检测的结构中并被文档结构分析单元6提取出来的词语集合元素。存储的数据在适当的时间被擦除,例如当所检测的结构已被完全翻译时。
如果待翻译的结构是嵌套的结构,则文档结构分析单元6可以对整个结构进行搜索,并将所有的词语集合元素存储到内部结构数据存储单元7中,或者可以例如以反馈的方式来进行结构分析,以实现在包含在结构中的小结构单元中的处理。在这种情况下,如果内部结构数据存储单元7利用例如栈结构这样的数据结构,则能以反馈的方式存储包含在结构中的词语集合元素。每当以反馈方式进行的结构分析处理完成时,可以进行存储数据的擦除。
内部结构解释数据库8存储多个解释数据项。这些数据项包括了指示结构中容易被错误解释的词语或句子的数据,以及与待翻译词语或句子属于相同域的词语集合元素。数据项还指示了技术,该技术关于如果词语集合元素与待翻译词语或句子具有相同的属性或与待翻译的词语或句子在结构上具有等同的关系,则应该如何翻译(解释)待翻译词语或句子,所述词语集合元素与待翻译词语或句子属于相同(领)域。每一个解释数据项可以还包括一个条件,在该条件下进行与其中包含的词语集合元素的匹配。例如,条件指示匹配的最小数量,对包含在词语集合元素中的词语的出现顺序的限制,或关于是否需要完全匹配还是允许非完全匹配的判断。
在翻译的过程中,翻译单元4查询内部结构解释数据库8以确定数据库8中是否包含可用于内部结构数据存储单元7中存储的每个词语集合元素的解释数据。在这种情况下,当解释数据包含上述条件时,内部结构解释数据库8使用所述条件来判断结构中的词语集合元素是否和解释数据中的一样。如果没有可用的解释数据,则报告给翻译单元4,进行标准的翻译处理。如果检测到可用的解释数据,它被发送至翻译单元4,其中,关于每个待翻译词语的解释被解释数据的解释替代,从而进行翻译处理。
参见图5所示的流程,以具有图2所示的表格结构的文档的翻译作为例子,对图1的机器翻译系统的操作进行更加详细的描述。
当具有图2所示的表格结构的文档数据作为原始文档数据被输入至输入单元1时,输入单元1将文档数据传输到控制器2。控制器2确定输入的原始文档数据是否由标准的句子或具有结构的句子构成。如果确定输入的句子具有结构,则确定结构的类型,即,确定该结构是否是例如表格结构,列举结构,或章/节结构。在本例中,由于输入文档是表格,所以图2的整个表格被发送至文档结构分析单元6(步骤S1)。
文档结构分析单元6分析所收到的表格结构数据。在本例中,确定数据为图2所示的7行3列的表格,从而提取包含在每个单元格中的词语集合元素并将其发送到内部结构数据存储单元7(步骤S2)。
内部结构数据存储单元7存储了被文档结构分析单元6所提取出的表格数据。此时,表格数据被存储以便能够区别它的列数据和行数据。例如,数据可以被存储于一个一维表格,所以词语和包含在7行3列表格中的单元格之间的关系就会很清楚。图3显示了这个例子。如图所示,指示图2的表格是由7行3列所构成的信息被存储,以一维的方式,通过分割号“/”连接图2中从第一行第一列的单元格到第七行第三列的单元格中的词语。如果按顺序查询被“/”所分隔的词语,就可以检测到每个词语位于哪行哪列。或者,关于例如(m×n)单元格中的词语的信息,例如坐标(m,n)的信息可以被附加到每个单元格的词语上,带有信息的词语被单独存储。
控制器2从图2所示的表格的单元格逐一地读取词语,并将读入的词语连同例如每个单元格的坐标信息发送到翻译单元2(步骤S3)。翻译单元4接下来利用翻译词典5中存储的知识(词语/字汇词典,语素分析规则,结构/含意分析规则,转换规则,生成规则),开始将从控制器2发送来的每个原始词语翻译为目标语言的相应词语。这时,翻译单元4将指示当前翻译的原始词语的信息,以及从控制器2发送的坐标信息,发送到内部结构解释数据库8,从而查询数据库8中是否存在可用的解释数据。
这里假设包含在图2的表格中第一列第二行的原始词语是日文词语“月“。在本例中,只有词语”月“可被作为原始词语发送。或者,可以对其进行语素分析,并发送词语及分析结果。类似地,结构分析结果,含意分析结果,转换结果和/或生成结果可与词语一同被发送。此外,由于原始词语位于第二行第一列,数据(2,1)可被作为坐标数据发送。
图4显示了存储于内部结构解释数据库8中的解释数据的实例。该解释数据对应于属于包含在第一语言(例如,日语)中的任意类别的词语或句子集合(表示集合元素)中的每个词语或句子,类别例如一周中的某天或日本的地区名。解释数据用来将如上所述的词语或句子翻译为属于第二语言(如英语)中相应类别的相应词语或句子。每个解释数据项都包含一个首词语,词性,译文,以及包含首词语且属于任意类别的词语或句子集合。在图4的例子中,词语集合元素中包含的词语由分隔符“/”所连接。如果包含在解释数据中的词语集合元素的词语的出现顺序是预定的,则词语按照预定的顺序进行排列。解释数据可以包括词语集合元素以及条件,该条件用于确定从原始文档数据中提取的词语集合元素和解释数据中包含的词语集合元素是相同的。条件指示例如,包含在从原始文档数据中提取出的词语中并且与包含在解释数据的词语集合元素中的词语等同的词语的最小数量。在英文词语集合元素的情况中,条件可以指示是否要区分大写和小写字符。条件也可以指示应该考虑词语出现(排列)的顺序。后面将更详细地描述这些条件。
从翻译单元4接收到有关待翻译的原始文档数据的信息以及坐标信息后,接着基于接收到的坐标信息,内部结构解释数据库8访问内部结构数据存储单元7以获取与当前处理的表格位于相同列或行的词语集合元素(S4)。在本例中,由于坐标是(2,1),从存储在内部结构数据存储单元7中的图3所示的数据获取对应于第二行的单元格的词语集合元素,以及对应于第一列单元格的词语集合元素。根据图3,第二行的词语集合元素是“月(Gutsu),月(Tsuki),関東(Kanto,意为Kanto地区,日本某个地区的名字)”(词语集合元素A)。类似地,第一列中的词语集合元素是”一周中的某天,月(Getsu,意为星期一),火(Ka,意为星期二),水(Sui,意为星期三),木(Moku,意为星期四),金(Kin,意为星期五),土(Do,意为星期六)”(词语集合元素B)。
从内部结构数据存储单元7中获取词语集合元素A和B之后,内部结构解释数据库8基于从翻译单元4获取的原始文档数据搜索解释数据。使用例如首词语“月“作为关键字,搜索图4所示的解释数据(步骤S5)。这里假定以下的两个解释数据项被获取“月;名词;Monday;月/火/水/木/金/土/日”“月;名词;Moon;月/地球/火星/水星/木星/金星/土星/太陽”这两个解释数据项分别包含词语集合元素“月(Getsu),火(Ka),水(Sui),木(Moku),金(Kin),土(Do),日(Nichi)”(词语集合元素C)以及“月(Tsuki,意为月亮),地球(Chikyu,意为地球),火星(Kasei,意为火星),水星(Suisei,意为水星,木星(Mokusei,意为木星),金星(Kinsei,意为金星),土星(Dosei,意为土星),太陽(Tasiyou,意为太阳)”(词语集合元素D)。这时,在词语集合元素C和D,以及从原始文档数据获取并存储在内部结构数据存储单元7中的词语集合元素A和B之间进行匹配(步骤S6)。对于该匹配,上述条件能被有效地使用。例如,为了判断包括在某个原始文档数据中的词语集合元素是否和包括在某个解释数据中的词语集合元素等同,可以采用这样一个条件,即,必须有k个或更多个包括在原始文档数据的词语集合元素中的词语和解释数据中的相同。或者,可采用这样一个条件,即,在原始文档数据和解释数据之间,词语集合元素的所有词语必需相同。类似地,可采用这样一个条件,即,在原始文档数据和解释数据之间,只有部分词语集合元素相同。此外,可采用这样一个条件,即,在原始文档数据和解释数据之间,词语集合元素的所有的词语甚至词语的排列顺序都必须相同。对这些条件的适当使用使得可以自由地控制匹配过程。
在上述的例子中,由于词语集合元素B和C之间的匹配度高,因此内部结构解释数据库8确定词语集合元素B和C彼此相同。因此,选择前一个解释数据项,即,“月;名词;Monday;月/火/水/木/金/土/日”(步骤S7)。根据解释数据项这一点是明显的,每个解释数据项包含诸如“词性”和“译文词语”等翻译所需的信息。在所选中的解释数据项的情况中,选择“Monday”作为图2的表格中第一列第二行的单元格中的日文词语“月”的翻译,并被发送到翻译单元4。
在从内部结构解释数据库8接收到解释结果后,接着,翻译单元4基于所收到的解释结果执行翻译处理,并将翻译的结果,即译文词语“Monday”发送到控制器2。
当接收到翻译结果后,接着,控制器2将它发送到输出单元3(步骤S8)。
从而,图1中的机器翻译系统能输出正确的翻译结果。通过与上述相同的方式,在图2的表格中第2列第2行的单元格中的日文词语“月”被翻译为“Moon”。也就是说,在同一行中出现但具有不同的含意的相同词语可以通过参考每一列中的每个词语被正确地翻译为对应于各自的含意的不同词语。此外,位于图2的表格的第5行第3列的日文词语“中国”很难被正确地翻译,它意味着包括中国在内的不同地区。但是,在图1的机器翻译系统中,通过参考图2表格的第3列中的、其中包括日文词语“中国”本身的那些词语,日文词语“中国”能被正确地翻译为“Chugoku”(日本的某一地区的名字)而不是,例如,中国。
当翻译对象具有列举结构或章/节结构时,即使在上述的处理流程中也是足够的,章或节的标题被设置为包含在第一列单元格的n行中的词语,并且执行与上述为表格结构的每个单元格执行的处理同样的处理。关于其他类型的层次结构,通过适当修改上述处理也可实现正确的翻译。
如上所述,在实施例中,当具有例如表格结构(例如图2中所示的)、列举结构、或者层次结构(例如章/节结构)等结构的文档数据被输入到文档结构分析单元6时,单元6从文档数据中提取词语或句子集合并将其存储到内部结构数据存储单元7(参见图3)。当从词语或句子集合选择词语或句子并翻译时,内部结构解释数据库8从内部结构数据存储单元7获取与所选词语或句子具有相同或等同属性的第一词语或句子集合(即,每个第一词语或句子集合包括按照某一规则与所选词语或句子一同排列的词语或句子作为其元素)。例如,如果选中的词语是位于图2的第2行第1列上的日文词语“月”,那么获取图2中第2行以及第1列的词语集合元素。之后,搜索将选中的词语作为首词语的解释数据项,并选择包括与第一词语集合元素中的一个相同的词语集合元素(根据包含在解释数据项中的条件,所述一个词语集合元素被认为是相同的)的解释数据项。基于所选的解释数据项,翻译单元4翻译选中的词语。
参照图5的流程图以及图6至8,以下将对另一个例子进行描述,其中,将具有表格结构的英语文档数据翻译为日语。
当如图6所示的具有表格结构的英文文档数据被作为原始文档数据输入到输入单元1时,输入单元1将文档数据传输给控制器2。在本例中,由于输入文档为一个表格,因此图6的整个表格被发送到文档结构分析单元6(步骤S1)。在步骤S1的其他操作类似于将日文翻译为英文的情况的步骤S1的那些操作。
文档结构分析单元6分析所收到的表格结构数据。在本例中,确定数据是一个如图6所示的表格,其具有3行,其中第1行中有6列,第2行中有7列,第3行中有6列(步骤S2)。
内部结构数据存储单元7存储由文档结构分析单元6所提取出的表格数据。图7示出了存储实例,其中,数据被存储在一维表格中。具体来说,从第1行第1列到第3行第6列的单元格中的数据项以一维的方式被分隔符‘/’顺序连接。如果顺序遍历用‘/’分隔开的词语,则可检测每一个词语所在的行和列。或者,对于例如在(m×n)单元格中的词语或句子,也可将例如坐标(m,n)等的信息附加到每个单元格的词语或句子上,这些带有信息的词语或句子被单独存储。在步骤S2的其他操作类似于将日文翻译为英文的情况中的步骤S2的那些操作。
控制器2从图6所示的表格的单元格中逐一地读取词语(或短语),并将所读取的词语(或短语)连同例如每个表格的坐标信息一起发送到翻译单元4(步骤S3)。在步骤S3的其他操作类似于将日文翻译为英文的情况中的步骤S3的那些操作。
这里假定包含在图6表格中第1行第5列的单元格中的原始短语是“Speaker Info”。在本例中,只有短语“Speaker Info”可以作为原始短语发送。或者,可以对其进行语素分析,并发送短语及分析结果。类似地,结构分析结果,含意分析结果,转换结果和/或生成结果可以与短语一同被发送。此外,因为原始短语位于第1行和第5列,数据(1,5)被作为坐标数据发送。
图8显示了存储于内部结构解释数据库8中的解释数据的实例。该解释数据对应于属于任意类别的词语或短语集合中的每个词语或短语,类别例如演讲信息,计算机相关的信息,用第一语言(本例中是英语)书写的网站术语。解释数据用于将如上所述的词语或短语翻译为属于第二语言(本例中是日语)中的对应类别的对应的词语或短语。每个解释数据项都包含一个首词语,条款,译文,以及一个包含首词语且属于任意类别的词语,短语或句子集合。在图8的例子中,词语集合元素中包含的词语或短语由分隔符”/”连接。如果包含在解释数据中的词语集合元素的词语或短语的出现顺序是预定的,则词语或短语按照预定的顺序排列。其余事项类似于参照图4描述的那些。
在从翻译单元4接收到有关待翻译的原始文档数据的信息以及坐标信息后,接着,基于接收到的坐标信息,内部结构解释数据库8访问内部结构数据存储单元7以获取位于与当前处理的表格中的行或列相同的行或列的词语集合元素(步骤S4)。在本例中,由于坐标是(1,5),那么从图7所示的数据获取对应于第1行的单元格的词语集合元素,以及对应于第5列的单元格的词语集合元素,并存储在内部结构数据存储单元7中。根据图7,第1行中的词语集合元素是“Overview、Agenda、Registration、Participants List、Speaker Info、Fees Info”(词语集合元素A′)。类似地,第5列的词语集合元素是“Speaker Info、Monitor、FAQ”(词语集合元素B′)。
在从内部结构数据存储单元7获取词语集合元素A′和B′之后,内部结构解释数据库8基于从翻译单元4获取的原始文档数据对解释数据进行搜索。例如,使用首词语“Speaker“作为关键字,搜索如图8所示的解释数据(步骤S5)。这里假定以下的两个解释数据项被获取“Speaker Info;名词;講演者情報;Overview/Agenda/Registration/Participants List/Speaker Info/Fees Info”“Speaker;名词;スピ一カ一;CPU/Chipset/Display/Drive/HDD/Memory/OS”这两个解释数据项分别包含词语集合元素“Overview、Agenda、Registration、Participants List、Speaker Info、Fees Info”(词语集合元素C′)以及词语集合元素“CPU、Chipset、Display、Drive、HDD、Memory、OS”(词语集合元素D′)。此时,在词语集合元素C′和D′,以及从原始文档数据中获取并存储于内部结构数据存储单元7中的词语集合元素A′及B′之间进行匹配(步骤S6)。对于该匹配,上述条件能被有效地使用。例如,为了确定包括在某一原始文档数据中的词语集合元素是否与包括在某一解释数据中的词语集合元素相同,可采用这样一个条件,即,必须有k个或更多个包括在原始文档数据的词语集合元素中的词语与解释数据的那些相同。或者,可采用这样一个条件,即,在原始文档数据和解释数据之间,词语集合元素的所有词语必须相同。类似地,可采用这样一个条件,即,在原始文档数据和解释数据之间,只有一部分词语集合元素相同。此外,可采用这样一个条件,即,在原始文档数据和解释数据之间,词语集合元素的所有词语甚至这些词语的排列顺序都相同。对这些条件的适当使用使得可以自由地控制匹配处理。
在上述例子中,由于A′和C′两者间的匹配度高,因此内部结构解释数据库8确定词语集合元素A′和C′相同。因此,选择前一个解释数据项,即,“Speaker Info;名词;講演者情報;Overview/Agenda/Registration/Participants List/Speaker Info/FeesInfo”(步骤S7)。根据解释数据项这点是明显的,每个解释数据项包含诸如“词性”和“译文词语”等翻译所需的信息。在选中的解释数据项的例子中,日文词语“講演者情報(Kouensha-Jouhou)”被选中作为原始文档数据的表格结构的第1行第5列的单元格中“Speaker Info”的译文,并被发送到翻译单元4。
在从内部结构解释数据库8接收到解释结果后,接着,翻译单元4基于所收到的解释结果进行翻译处理,并将翻译的结果,即译文词语“講演者情報”发送到控制器2。
在接收到翻译结果后,接着,控制器2将它发送到输出单元3(步骤S8)。
从而,图1的机器翻译系统就能输出正确的翻译结果。通过与上述相同的方式,在图6的表格的第2行第6列的单元格中的词语“Speaker”被翻译为日文词语“スピ一カ一(Supiikaa)”。也就是说,在同一表格中存在的但具有不同的含意的同样的词语通过参考每一列的每一个词语,可以被正确地译为对应于各自的含意的不同的词语。此外,图6表格的第3行第6列的单元格中的词语“Contact“,在脱离上下文的情况下很难被翻译为正确的日文词语,其也可通过参考第3行的单元格中的词语被正确地翻译为对应的日文词语“お問い合わせ(Otoiawase)“(而不是,例如,与前者不同的日文词语”接触“(Sesshoku)”)。
如上所述,在实施例中,当具有诸如表格结构(例如图6中所示)、列举结构、或者层次结构(例如章/节结构)这样的结构的文档数据,被输入到文档结构分析单元6时,单元6从文档数据中提取出词语集合元素并将其存储到内部结构数据存储单元7(参见图7)。当从词语集合元素选择出一个词语或短语并翻译时,内部结构解释数据库8从内部数据存储单元7中获取和所选的词语或短语具有相同或等同属性的第一词语集合元素(即,第一词语集合元素中的每一个包括词语或短语作为其元素,这些词语和短语根据某一规则与所选词语或短语一同排列)。例如,如果选中的短语是图6中第1行第5列的单元格中的“Speaker Info”,那么获取图6中第1行和第5列的词语集合元素。之后,搜索将选中的词语作为首词语的解释数据项,并选择包括与第一词语集合元素中的一个相同的词语集合元素(根据包含在解释数据项中的条件,所述一个词语集合元素被认为是相同的)的解释数据项。基于所选的解释数据项,翻译单元4翻译选中的词语。
如上所述,在实施例中,具有诸如表格结构、列举结构或章/节结构这样的结构的文档数据,能够根据结构中的属性、结构中的层次和/或位置关系等被翻译。因此,能够得到更为准确和可靠的翻译结果。
另外,如图5所示的图1中机器翻译系统所执行的操作可以存储在一个记录介质上,作为指导计算机完成操作的程序。记录介质是例如磁盘(软盘,硬盘,等),光盘(CD-ROM,DVD,等),或半导体存储器。
其它的优点和修改对本领域技术人员来讲是明显的。因此,在更广的方面,本发明并不局限于这里所显示并描述的具体细节和优选实施例。因此,在不脱离由附加的权利要求及它们的等同内容定义的一般发明概念的精神或范围的情况下,对其所作的各种修改都是可以的。
权利要求
1.一种机器翻译系统,包括存储单元,被配置为存储多个解释数据项,每个解释数据项包括代表第一语言的第一表示的第一表示元素、包括所述第一表示的词语集合元素、以及代表第二语言的第二表示的第二表示元素,所述第一表示将被翻译为所述第二表示,所述第一表示和所述第二表示属于一个类别;获取单元,被配置为获取所述第一语言的预定表示,所述预定表示被包含在具有结构的待翻译的文本中;检测单元,被配置为从所述解释数据项中检测其中每一个都包括代表所述预定表示的表示元素的多个解释数据项;选择单元,被配置为从所述检测到的解释数据项选择包括对应于所述结构中的相同属性或等同的位置关系的词语集合元素的解释数据项;翻译单元,被配置为利用所述选中的解释数据项将所述预定表示翻译成所述第二语言。
2.如权利要求1所述的系统,其中所述存储单元象包含所述解释数据项的全部或其中一些一样,包含用于选择包含所述词语集合元素的所述解释数据项的条件,该词语集合元素对应于所述结构中的相同属性或等同的位置关系;以及如果所述检测到的解释数据项包含所述条件并且代表所述预定表示的所述表示元素满足所述条件,那么所述选择单元选择包含所述词语集合元素的解释数据项,该词语集合元素对应于所述结构中的相同属性或等同的位置关系。
3,如权利要求1所述的系统,其中,所述词语集合元素具有表格结构,以及所述词语集合元素中的多个表示被按照行和列进行排列。
4,如权利要求1所述的系统,其中,所述词语集合元素具有列举结构,以及所述词语集合元素中的多个表示是被列举的表示。
5.如权利要求1所述的系统,其中,所述词语集合元素具有章/节结构,以及所述词语集合元素中的多个表示是章的标题与节的标题。
6.如权利要求1所述的系统,其中,所述存储的解释数据项包含对应于所述第一语言的表示、及词性的所述第二语言的表示。
7.如权利要求2所述的系统,其中,所述条件涉及下列条件中的至少一个,一个条件是用于确定在所述词语集合元素和包含在所述检测到的解释数据项中的每个词语集合元素之间,表示的数量是相同的条件,一个条件是用于确定在所述词语集合元素和包含在所述检测到的解释数据项中的所述每个词语集合元素之间,表示的顺序相同的条件。
8.一种机器翻译方法,包括配备存储单元,其被配置为存储多个解释数据项,每个解释数据项包括代表第一语言的第一表示的第一表示元素、包括所述第一表示的词语集合元素、以及代表第二语言的第二表示的第二表示元素,所述第一表示将被翻译为所述第二表示,所述第一表示和所述第二表示属于一个类别;获取所述第一语言的预定表示,所述预定表示被包含在具有结构的待翻译的文本中;从所述解释数据项中检测其中每一个都包括代表所述预定表示的表示元素的多个解释数据项;从所述检测到的解释数据项选择包括对应于所述结构中的相同属性或等同的位置关系的词语集合元素的解释数据项;利用所述选中的解释数据项将所述预定表示翻译成所述第二语言。
9.如权利要求8所述的方法,其中所述存储单元象包含所述解释数据项的全部或其中一些一样,包含用于选择包含所述词语集合元素的所述解释数据项的条件,该词语集合元素对应于所述结构中的相同属性或等同的位置关系;以及如果所述检测到的解释数据项包含所述条件并且代表所述预定表示的所述表示元素满足所述条件,那么选择包含所述词语集合元素的解释数据项,该词语集合元素对应于所述结构中的相同属性或等同的位置关系。
10.如权利要求8所述的方法,其中,所述词语集合元素具有表格结构,以及所述词语集合元素中的多个表示被按照行和列进行排列。
11.如权利要求8所述的方法,其中,所述词语集合元素具有列举结构,以及所述词语集合元素中的多个表示是被列举的表示。
12.如权利要求8所述的方法,其中,所述词语集合元素具有章/节结构,以及所述词语集合元素中的多个表示是章的标题与节的标题。
13.如权利要求8所述的方法,其中,所述存储的解释数据项包含对应于所述第一语言的表示、及词性的所述第二语言的表示。
14.如权利要求9所述的方法,其中,所述条件涉及下列条件中的至少一个,一个条件是用于确定在所述词语集合元素和包含在所述检测到的解释数据项中的每个词语集合元素之间,表示的数量是相同的条件,一个条件是用于确定在所述词语集合元素和包含在所述检测到的解释数据项中的所述每个词语集合元素之间,表示的顺序相同的条件。
全文摘要
机器翻译系统包括存储单元,被配置为存储多个解释数据项,每个数据项包括代表第一语言的第一表示的第一表示元素、包括第一表示的词语集合元素、以及代表第二语言的第二表示的第二表示元素,第一表示将被翻译为第二表示,第一表示和第二表示属于一个类别;获取单元,被配置为获取第一语言的预定表示,预定表示包含于具有结构的待翻译文本中;检测单元,被配置为从解释数据项中检测包括代表预定表示的表示元素的解释数据项;选择单元,被配置为从检测到的解释数据项中选择包括对应于结构中的相同属性或等同的位置关系的词语集合元素的解释数据项;翻译单元,被配置为利用选中的解释数据项将预定表示翻译成第二语言。
文档编号G06F17/28GK1770144SQ20051011935
公开日2006年5月10日 申请日期2005年11月2日 优先权日2004年11月2日
发明者铃木博和, 熊野明 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1