机器翻译装置和方法

文档序号:6376409阅读:267来源:国知局
专利名称:机器翻译装置和方法
技术领域
本发明涉及自动执行翻译单词学习的机器翻译装置和方法。
背景技术
近来,出现了一种自动将第一语言(源语言)的句子翻译成第二语言(目标语言)的句子的机器翻译系统。在机器翻译系统的翻译处理中,首先,通过词法分析或句子结构分析,输入源句被分成诸如单词(词组)之类的预定处理单元。紧接着,通过检索翻译字典,对每一处理单元确定可适用的翻译规则和相对应的翻译单词(翻译词组)。然后,每一翻译单词按预定规则被合并以产生翻译句子。用这种方法,获得对应于输入源句的翻译句。
为了实现在该机器翻译中的高正确率的翻译,使用适合于该翻译的词典是重要的。为了解决各种源句的翻译,对于相同语言的每一个源词,该词典通常具有多个翻译单词候选者。因此,用户必须从多个翻译单词候选者中选择一个适合于用户意图(喜好、领域或目的)的翻译单词。
如果机器翻译系统了解用户的选择操作,则之后,翻译单词的选择可能适合于用户的意图。在产生不适合于用户意图的翻译单词的情况下,执行翻译单词的学习操作。作为学习操作,用户从其它翻译单词候选者中再次选择他或她的适合的翻译单词,并且对该系统指示所选择的翻译单词。通过执行学习操作,之后,该翻译单词被优先选择。
用这种方法,通过学习操作选择适合于用户意图的翻译单词的功能被称做“翻译单词学习”。例如,对于“计算机”(英文)一词的可供选择的翻译单词有“Konpyuta”、“Konpyutah”、“Keisanki”(日文)。根据用户的喜好、领域(field)和使用目的,一个要被选择的翻译单词从这些翻译单词候选者中被确定。
在现有技术的机器翻译系统中,通过用户的学习操作,翻译单词的学习被实现。更具体地说,在相同源词具有多个翻译单词候选者的情况下,用户面前呈现多个翻译单词候选者,用户从多个翻译单词候选者中选择一个翻译单词。响应用户的选择,对应于源词的该翻译单词被存储在系统中。之后,在翻译源词的情况下,该系统优先选择所存储的翻译单词。(Kokai)第PH9-81572号日本专利公开文献“翻译装置和字典优先设置方法”和(Kokai)第PH8-101836号日本专利公开文献“机器翻译的学习方法”说明了该翻译单词的学习。在该方法中,如果该系统首先选择了大量的不适合的翻译单词,则用户学习操作的次数也随之增加。结果,给用户增加了负担。
因此,作为省去用户烦琐操作的翻译单词学习方法,通过诸如语言数据库之类的目标语言文件的统计信息,自动确定该翻译单词。在该翻译单词学习方法中,用户预先准备适合于用户意图的目标语言文件,并且可自动执行适合于用户意图的翻译单词学习。更具体地说,在目标语言文件中的每一单词的出现频率被预先计数,并且每一单词与出现频率被存储在表中。对于相同的源词,在产生多个可供选择的翻译单词的情况下,通过参照该表,在多个翻译单词候选者中出现频率最高的一个单词被选中。在文章“使用目标语言的单语言数据数据库的翻译单词学习方法”(刊登在第2002年第1卷的P276-280页的计算机语言联合会的第8次年会的会刊上)中和“(Kokai)第P2000-250914号日本专利公开文献”上的文章“机器翻译方法、装置和记录机器翻译程序的记录介质”中说明了该方法。
然而,如上所述,在该自动翻译单词的学习方法中,通过使用目标语言的一个文件,翻译单词被确定。因此,对于源词来说,不适合的翻译单词经常被选择。在这种情况下,如果通过使用目标语言的另一个文件进行翻译单词学习,则可选择该源词适合的翻译单词。然而,即使预先准备多个目标语言文件,用户也很难选择一个通过其确定适合的翻译单词的目标语言文件。例如,在用户准备多个目标语言文件(每一个目标语言文件的内容是相同的)的情况下,如果用户不能充分地理解每一目标语言文件的内容,则他/她就不能选择一个有用的目标语言文件。
简言之,在准备多个目标语言文件的情况下,即使用户指示一个适合他/她的意图的目标语言文件,有时也可能出现通过使用该指示的目标语言文件不适合的翻译单词被自动输出。因此,希望一种通过使用目标语言文件通常仅选择适合的翻译单词的方法。

发明内容
本发明针对的是通过使用目标语言文件通常选择适合于用户意图的翻译单词的机器翻译装置和方法。
根据本发明的一个方面,提供了一种包括多个目标语言文件数据库、用于将源语言翻译成目标语言的机器翻译装置,该机器翻译装置包括数据库控制单元,被配置用于对多个目标语言文件数据库的每一个分配优先程度,并且指示最高优先程度的目标语言文件数据库;翻译单词产生单元,被配置用于产生用于翻译的源词的多个翻译单词候选者;翻译单词学习单元,被配置用于通过使用由所述数据库控制单元指示的目标语言文件数据库,从多个翻译单词候选者中选择翻译单词。
根据本发明的另一个方面,也提供了一种在包括多个目标语言文件数据库用于将源语言翻译成目标语言的系统中的方法,该方法包括对多个目标语言文件数据库的每一个分配优先程度;指示最高优先程度的目标语言文件数据库;产生用于翻译的源词的多个翻译单词候选者;并且通过使用所指示的目标语言文件数据库从多个翻译单词候选者中选择翻译单词。
根据本发明的其它方面,也提供了一种计算机程序产品,其包括一种配备在所述产品中的计算机可读程序码,以使计算机通过使用多个目标语言文件数据库将源语言翻译成目标语言,所述计算机可读程序码包括第一程序码,用于对多个目标语言文件数据库的每一个分配优先程度;第二程序码,用于指示最高优先程度的目标语言文件数据库;第三程序码,用于产生用于翻译的源词的多个翻译单词候选者;第四程序码,用于通过使用所指示的目标语言文件数据库,从多个翻译单词候选者中选择翻译单词。


图1是根据本发明的实施例的示例性机器翻译系统的方框图。
图2是图1中的翻译单元4的方框图。
图3是图2中的翻译单词学习单元44的方框图。
图4是图1中的目标语言文件数据库产生单元的方框图。
图5是图1中的目标语言文件数据库存储器9的方框图。
图6是图1中的数据库控制单元6的方框图。
图7是存储在图6的控制数据库存储器63和64中的数据的一个示例的示意图。
图8是根据本发明的实施例的目标语言文件数据库的添加产生处理的流程图。
图9是根据本发明的实施例的目标语言文件数据库的新产生处理的流程图。
图10是根据本发明的实施例的数据库产生对话的显示示例的示意图。
图11是根据本发明的实施例的数据库新产生对话的显示示例的示意图。
图12是对根据本发明的实施例的控制单元2的用户的交互处理的流程图。
图13是根据本发明的实施例的目标语言文件数据库控制单元62的处理的流程图。
图14是根据本发明的实施例的数据库的选择处理的流程图。
图15是根据本发明的实施例的翻译单词学习的具体处理的流程图。
图16是在图15中的步骤S407的翻译单词的选择的具体处理的流程图。
图17是根据本发明的实施例的翻译数据库控制单元61的处理的流程图。
具体实施例方式
下面参照附图将说明本发明的各种实施例。
图1是根据本发明的实施例的典型机器翻译系统的方框图。在本发明的实施例中,在将源语言翻译成目标语言的情况下,用户可编制多个目标语言文件数据库以提高翻译单词学习的准确性。此外,对于每一目标语言文件数据库,用户可标识或设置翻译单词选择的一个或多个非应用单词。在该系统中,每一目标语言文件数据库的优先程度根据翻译单词选择非应用单词的数量被确定。结果,通过使用具有高优先程度的目标语言文件数据库,具有高准确性的翻译处理被执行。此外,利用目标语言文件数据库,源句数据被存储。通过利用目标文件数据库,翻译单词从该源句数据中被选择。在对输入源句的翻译单词学习的情况下,源句数据类似于输入源句的目标语言文件数据库被选择以用于翻译单词学习。结果,高准确性的翻译处理可被实现。最后,为用户执行支持目标语言文件数据库的选择的表示。因此,可大大地提高用户进行翻译单词学习的效率。
至于翻译单词选择非应用单词,可简化翻译单词的选择。在这种情况下,在翻译单词学习前所选择的翻译单词(默认翻译单词)被自动确定为翻译单词侯选者。对于每一目标语言文件数据库而言,翻译单词学习不必要的源词(源语言)被记录。这些单词适用于用于翻译的词汇数据库。简言之,不使用词汇数据库进行翻译的源词在词汇数据库中被设置或被表示。在这种情况下,抑制了使用词汇数据库所选择的不适合的翻译单词。在下文中,将对翻译单词学习来说不必要的源词和对使用词汇数据库翻译来说不必要的源词称作“翻译单词选择非应用单词(non-applied word of translation word’sselection)”。
如这里所使用的,本领域的技术人员将能够理解术语“单元”广义上可被定义为处理装置(像计算机、微处理器、微控制器、特定程序控制逻辑电路、具体应用的集成电路、离散电路等),该处理装置提供所述通信并且具有所需功能。当这样一种以硬件为基础的装置被清晰地描述和设想时,本领域的技术人员将很快地认识到“单元”可选择地被作为软件模块来实现,该软件模块与这种处理装置共同工作。
取决于实现上的限制,可使用这种软件模块或处理装置以实现这里所公开和所描述的一个以上的“单元”。当使用计算机或其它的处理装置实现本发明的实施例时,本领域的技术人员将熟悉适合使用的特殊和常规硬件。同样地,本领域的技术人员将熟悉不同种软件的可用性和熟悉适合于实现用做一个或多个软件模块的一个或多个“单元”的程序设计方法。
在图1中,输入单元1输入用做翻译对象的文件(源句)的电子数据(在下文,其被称作文件(document)),并且将该文件输出到控制单元2。例如,输入单元1可包括键盘或鼠标。通过输入单元1,根据用户输入操作的文件输入是能够实现的。此外,作为输入单元1,在另一实施例中可采用读取诸如OCR(光学字符阅读器)、软盘、磁带、磁盘或光盘之类的计算机可读介质的读取装置。输入单元1可将从读取装置的读出的文件提供到控制单元2。此外,输入单元1可将各种命令的输入提供到控制单元2。
输出单元3输出通过控制单元2提供的翻译结果。输出单元3通过控制单元2可将翻译结果输出在显示装置(在图1中未示出)的屏幕上,此外,输出单元3可以利用语音输出翻译结果,并且可显示的来自控制单元2的对各种指令响应。作为输出单元3,可采用诸如各种显示器之类的显示装置、打印机、输出到诸如软盘、磁带、磁盘、光盘之类的计算机可读介质的输出装置和将文件发送到另一介质的发送装置。
响应控制单元2的指示,翻译单元4通过使用翻译词典单元5和词汇数据库存储器8翻译来自输入单元1的输入源句,并且将该翻译结果输出到控制单元2。
翻译词典单元5存储词汇词典和翻译所必要的各种规则。例如,翻译词典单元5存储词法分析规则、结构·语义分析规则、翻译的转换规则和翻译句产生规则。词汇数据库存储器8存储单词·词组词典。
图2是在图1中的翻译单元4的具体组成的方框图。翻译单元4包括分析单元41、转换单元42和产生单元43。通过使用存储在翻译词典单元5的词法分析规则和存储在词汇数据库存储器8中的单词·词组词典,分析单元41进行词法分析,并且提供用于输入源句的查询词典。在获得翻译处理所必需的信息(部分语音、音调变化(inflection)和翻译单词)后,通过使用存储在翻译词典单元5中的结构·语义分析规则分析单元4进行结构·语义分析处理。转换单元42通过使用存储在翻译词典单元5中的转换规则将结构·语义分析的结果转换成目标语言的结构。产生单元43接收来自转换单元42的输出,通过使用存储在翻译词典单元5中的翻译句产生规则产生目标语言的句子,并且将该翻译结果输出到控制单元2。
产生单元43包括翻译单词学习单元44。如果控制单元2指示翻译单词学习,则翻译单词学习单元44执行翻译单词学习。如果控制单元2不指示翻译单词学习或指示非翻译单词学习,则翻译单词学习单元44不执行翻译单词学习。在执行翻译单词学习的情况下,如果在源语言中对于同一个单词来说存在多个翻译单词候选者,则通过使用存储在目标语言文件数据库9中的统计数据和复合词列表,翻译单词学习单元44可从多个翻译单词候选者中选择适合的翻译单词。
图3是图2中的翻译单词学习单元44的具体组成的方框图。在翻译单词学习单元44中,对源语言的每一个单词,翻译单词候选者存储器存储所有的翻译单词候选者。评估根据选择单元443确定翻译单词选择的评估根据(evaluation basis)。翻译单词选择非应用单词存储器444暂时存储翻译单词选择的非应用单词445。至于源词(除翻译单词选择非应用单词以外),通过使用由评估根据选择单元443所选择的评估根据和目标语言文件数据库446,翻译单词选择单元442从存储在翻译单词候选者存储器441中的多个翻译单词候选者中选择适合的翻译单词。至于翻译单词选择非应用单词,翻译单词选择单元442可自动确定翻译单词候选者(默认翻译单词)而不需要用户进行选择操作。
翻译单词学习单元44不仅具有使用目标语言文件数据库进行翻译单词学习的自动功能,也具有进行翻译单词学习的另一种功能。例如,如果用户指示适合的翻译单词,之后,对于相同的源词,该翻译单词被优先选择。此外,通过估计作为翻译对象的文件的区域,适合的翻译单词被自动确定。在该情况下,在翻译单词学习单元44中,实现一个翻译单词学习功能所必需的组成部分被准备。
根据数据库的用户指示和每一数据库的信息(优先程度等),数据库控制单元6从目标语言文件数据库存储器9选择用于翻译单词学习的目标语言文件数据库446,并且将目标语言文件数据库的名称发送到翻译单词学习单元44。
目标语言文件数据库产生单元7从由用户准备的任意目标语言文件可产生用于翻译单词学习单元44的目标语言文件数据库。数据库控制单元6在目标语言文件数据库存储器9中存储目标语言文件。
图4是图1中的目标语言文件数据库产生单元7的具体组成的方框图。目标语言文件分析单元71从词法上分析由用户准备的目标语言文件,将涉及文件中的单词的部分语音的信息加到目标语言文件上,并且输出该分析结果。复合词提取单元72从目标语言文件提取复合词,并且输出该提取结果。目标语言文件分析单元71的分析结果和复合词提取单元72的提取结果通过数据库控制单元6被提供到目标语言文件数据库存储器9。
图5是在图1中的目标语言文件数据库存储器9的具体组成的方框图。目标语言文件存储器91通过数据库控制单元6从目标语言文件分析单元71接收目标语言文件和部分语音,并且存储该信息。复合词列表存储器92从复合词提取单元72接收包括在目标语言文件中的复合词列表,并且存储该信息。目标语言文件数据库存储器9不限于上述组成,并且可根据实际使用情况存储各种信息(文件的大小、单词的意思·概念信息)。
图6是图1中的数据库控制单元6的具体组成的方框图。数据库控制单元6控制翻译单词选择非应用单词,并且根据翻译单词选择非应用单词和翻译单元4的优先程度,发送所确定的数据库名称。翻译数据库控制单元61管理存储数据的控制数据库存储器63(该存储数据与在词汇数据库存储器8中的词汇数据库相关),并且发送要被使用的词汇数据库的指示翻译单词选择非应用单词到翻译单元4。目标语言文件数据库控制单元62管理存储数据的控制数据库存储器64(该存储数据与在目标语言文件数据库9中的目标语言文件数据相关),并且发送要被使用的目标语言文件数据库的指示的翻译单词选择非应用单词到翻译单元4的翻译单词学习单元44。要被使用的翻译单词选择非应用单词、数据库的名称(目标语言文件数据库、词汇数据库)、每一数据库的优先程度,以及到目前为止由第一数据库处理的源句数据均被存储在控制数据库存储器63和64中。
图7是存储在图6的控制数据库存储器63和64中的每一个的数据格式(控制数据库)的一个示例的示意图。分别存储在控制数据库存储器63和64中的控制数据库包括优先程度、对应于每一数据库名称的翻译单词选择非应用单词和源句数据。每一数据库名称(图7中的A、B、C)表示词汇数据库或目标语言文件数据库的具体数据库。例如,当用户首先设置每一数据库的优先程度时,控制数据库被创建。之后,每当添加一个新的数据库时,每当设置翻译单词选择的新的非应用单词时,或每当执行翻译处理时,每一控制数据库的条目被更新。用这种方法,每一数据库的最新使用情况被存储在控制数据库存储器63和64中。
下面参照图8-17将说明本发明的机器翻译系统的详细处理。在本发明的实施例中,在翻译单词学习的处理之前,目标语言文件数据库通常被准备,目标语言文件数据库产生单元7根据先前由用户准备的目标语言文件或从由机器翻译系统输出的目标语言文件产生目标语言文件数据库。用户可使用存储在硬盘中或通过网络所获得的电子文件作为目标语言文件。在用户使用机器翻译用于商务或研究的情况下,用于商务或研究的目标语言文件经常存储在用户的计算机中。因此,获得这样一种目标语言文件一般比较容易。此外,就一般用户或不具有特殊电子文件的用户来说,用户可自由地获得用作目标语言文件的各种电子文件。因此,用户非常容易准备用于预定对象区域的电子文件。此外,与计算机中内存容量的改进成比例,用户可以保留大量的电子文件。通过使用由用户所收集或由用户先前保留的电子文件,用户专门使用的目标语言文件被标识或被产生。此外,源文件的翻译结果可被用做机器翻译系统输出的目标语言文件。通过再次使用作为目标语言文件的翻译结果,可构成适合于用户的目标语言文件数据库。
图8是目标语言文件数据库的产生处理(更新)的流程图。图9是新的目标语言文件数据库的产生处理的流程图。图10是当产生目标语言文件数据库时数据库产生对话的显示示例的示意图。图11是当产生新的目标语言文件数据库时新的数据库产生对话的显示示例的示意图。
首先,当用户通过输入单元1指示产生目标语言文件数据库时,控制单元2将显示数据库产生对话的指示发送到输出单元3。在这种情况下,输出单元3显示如图10中所示的数据库产生对话(S201)。在图10的数据库产生对话中,例如,选择现有目标语言文件数据库名称的栏和指示由用户准备的目标语言文件的输入栏被设置。此外,添加数据到现有目标语言文件数据库的选择按钮和新产生目标语言文件数据库的按钮被显示。控制单元2接收用户的选择操作。现在,假设通过操作在数据库产生对话中的选择按钮“新产生”用户指示新产生目标语言文件。控制单元2将该处理从S202进到S208和S209,并且执行目标语言文件数据库的新的产生处理。在这种情况下,控制单元2通过如图11所示的输出单元3显示数据库新产生的对话(S301)。在图11的数据库新产生的对话中,例如,指示由用户准备的目标语言文件数据库的输入栏和指示新目标语言文件数据库的名称的输入栏被设置。通过参照所显示的现有目标语言文件数据库的名称,用户输入新目标语言文件数据库的名称并且输入(选择)根据其产生新目标语言文件数据库的目标语言文件的名称。如果控制单元2在S302和S303确定新目标语言文件数据库的名称被输入,并且确定了根据其选择新目标语言文件数据库的目标语言文件,则控制单元2从词法上分析所选择的目标语言文件(S304)。
紧接着,控制单元2将对应于目标语言文件的输入名称的目标语言文件和部分语音信息(词法分析结果)存储在目标语言文件存储器91中(S305)。此外,如果控制单元2确定复合词包括在目标语言文件中(S306),则控制单元2从目标语言文件中提取所有的复合词,并且将对应于目标语言文件的输入名称的具有所有复合词的列表存储在复合词列表存储器92中(S307)。最后,在数据库控制单元6的控制数据库存储器64中,控制单元2记录目标语言文件数据库存储器9(目标语言文件存储器91和复合词列表存储器92)存储的信息(S308)。用这种方法,用户可将准备的目标语言文件添加到现有目标语言文件数据库,但也可产生新的目标语言文件数据库。因此,对于每一领域(field)构成目标语言文件数据库。
下面将说明现有目标语言文件数据库的添加数据的处理。在这种情况下,在图10中所示的数据库产生的对话中,用户从现有目标语言文件数据库选择要添加的一个数据库,输入要被分析的目标语言文件的名称,并且按“添加”按钮。如果控制单元2确定目标语言文件被指示在数据库产生对话上(S203),则控制单元2从语法上分析该目标语言文件(S204),并将部分语音信息作为分析结果添加到目标语言文件。然后,控制单元2将目标语言文件和部分语音信息添加到所选择的目标语言文件数据库,并且在目标语言文件存储器91中存储更新的目标语言文件数据库(S205)。此外,如果控制单元2确定复合词包括在目标语言文件中(S206),则控制单元2从目标语言文件提取所有的复合词,将所有的提取复合词添加到所选择的目标语言文件数据库的复合词列表上,并且在复合词列表存储器92中存储该更新列表(S207)。用这种方法,由用户准备的任意目标语言文件被自由地添加到现有目标语言文件数据库,并且适合用户的目标语言文件数据库的产生是可能的。在本发明的一个实施例中,例如,各种主题(领域)的目标语言文件数据库被事先准备,并且根据用户使用主题的翻译单词选择是可能的。此外,如果根据每一使用目的,各不相同地准备同一主题的目标语言文件数据库,则可执行适合于用户喜好的使用目的翻译单词学习。
图12是根据本发明的实施例的对用户的控制单元2的交互式处理的流程图。控制单元2控制对用户的交互处理所进行的翻译处理和翻译单词学习处理。更具体地说,当通过输入单元1输入源句时(S601),控制单元2指示显示源句(S602)。紧接着,当通过输入单元1输入用户的翻译指示时(S603),控制单元2将翻译执行的指示和源句数据发送到翻译单元4以开始翻译处理(S604)。另一方面,如果用户的输入操作不是翻译指示,则控制单元2确定用户的输入操作是否是指示产生目标语言文件数据库(S609)。在指示产生目标语言文件数据库的情况下,控制单元2将数据库产生的指示发送到目标语言文件数据库产生单元7。目标语言文件数据库产生单元7执行图8中所示的目标语言文件数据库的产生处理(S610)。产生的目标语言文件数据库被存储在目标语言文件数据库存储器9中。此外,当通过输入单元1输入用户的处理完成的指示时,控制单元2完成该处理。在其它输入的情况下,控制单元2执行对应于另一输入的处理(S612)。通过利用存储在翻译字典单元5中的诸如词法分析规则、结构·语义分析规则、对话规则、产生规则等之类的知识和通过使用存储在词汇数据库存储器8中的单词词组词典,翻译单元4执行目标语言的翻译处理。用这种方法,产生单元43产生对应于源句的每一单词的翻译单词。在翻译单词学习的指示未被输入的情况下,翻译单元4的产生单元43不执行翻译单词学习。在这种情况下,产生单元43的翻译结果被返回到控制单元2。控制单元2将翻译结果发送到输出单元3以显示给用户(S608)。
在产生单元43的翻译单词的产生处理中,假设控制单元2提供翻译单词学习的执行指令(S605)。如上所述,在本发明的实施例中,多个目标语言文件数据库可被产生,其中每一个目标语言文件数据库根据至少一个目标语言文件构成。通过选择适合于系统或用户翻译的目标语言文件数据库,翻译单词学习的效率被提高。具体地说,如果用于翻译单词学习的多个目标语言文件数据库被存储在目标语言文件数据库存储器9中,则从多个目标语言文件数据库中可选择一个数据库,并且可指示到翻译单词学习单元44(S606)。此外,要被使用的评估根据被指示到翻译单词学习单元44(S613)。翻译单词学习单元44执行翻译单词学习以通过使用所选择的目标语言文件数据库和评估根据从多个翻译单词候选者中选择适合的翻译单词(S607)。
在本发明的实施例中,在自动进行翻译单词学习的情况下,目标语言文件数据库被使用,在该目标语言文件数据库中用户可自由地设置认为是翻译单词学习不必要的单词,数据库控制单元6控制翻译单词选择非应用单词。此外,数据库控制单元6指示由翻译单元4中的产生单元43的翻译单词学习单元44所使用的目标语言文件数据库。简言之,数据库控制单元6控制翻译单词选择非应用单词,并且根据翻译单词选择非应用单词的信息和翻译单元4的优先程度,发送所确定的使用数据库的名称。
在一个示例中,假定多个目标语言文件数据库被存储在目标语言文件数据库存储器9中。此外,如图7中所示,假定存储在目标语言文件数据库存储器9中的每一目标语言文件数据库的名称、优先程度和翻译单词选择非应用单词预先被存储在控制数据库存储器64中。以相同的方法,假定多个词汇数据库被存储在词汇数据库存储器8中。此外,如图7中所示,假定存储在词汇数据库存储器8中的每一词汇数据库的名称、优先程度和翻译单词选择非应用单词被预先存储在控制数据库存储器63中。
首先,参照图13说明使用目标语言文件数据库的翻译单词学习的处理。图13是在数据库控制单元6中的目标语言文件数据库控制单元62的处理的流程图。在该示例中,假定用户对目标语言文件数据库的源句的预定单词进行翻译单词选择非应用单词指示操作。响应该操作,控制单元2将翻译单词选择非应用单词的指示提供到目标语言文件数据库控制单元62(S1401)。目标语言文件数据库控制单元62将指示的翻译单词选择非应用单词添加到存储在控制数据库存储器64中的目标语言文件数据库(S1402)。例如,在图7中,3个词“W1”、“W2”和“W3”作为翻译单词选择非应用单词被记录在“数据库A”中。此外,在图7中,到目前为止通过使用“数据库A”所处理的源句数据“文件1”和“文件2”对应于“数据库A”被记录。当每一数据库的翻译单词选择非应用单词的数量大于阈值或翻译单词选择非应用单词的数量与源句的所有单词的数量相比的比例大于另一阈值时,目标语言文件数据库控制单元62更新在控制数据库存储器64中的每一目标语言文件数据库的优先程度(S1403)。例如,每一数据库的优先程度可根据翻译单词选择非应用单词的数量确定。在图7中,“数据库A”的翻译单词选择非应用单词的数量为3,“数据库B”的翻译单词选择非应用单词的数量为2,“数据库C”的翻译单词选择非应用单词的数量为1。假定仅该3个数据库被存储在目标语言文件数据库存储器9中。数据库A、B、C的优先程度分别为“3、2、1”。在该示例中,优先程度的值越小,相比较而言优先程度越高。或者,优先程度可根据翻译单词选择非应用单词的数量大于阈值这一事实,或根据翻译单词选择非应用单词的数量与源句的所有单词的数量相比的比率大于另一阈值被确定。简言之,对于翻译单词选择非应用单词而言,翻译学习不被执行,并且使用设置了大量的翻译单词选择非应用单词的数据库的价值相对较低。因此,该数据库的优先程度被降低而另一数据库的优先程度被提高。在这种情况下,可准备通知用户改变优先程度和要求用户决定的装置。在这种情况下,没必要继续被迫使用设置了大量的翻译单词选择非应用单词的目标语言文件数据库,并且通过自动改变优先程度可灵活地选择数据库。通过应用现有技术,可多方面考虑改变优先程度的方法。
在本发明的实施例中,除了使用优先程度选择适当的目标语言文件数据库以外,可通过在设置到数据库的源句数据和要被翻译的源语言文件之间的相似程度,选择用于翻译单词选择的数据库。具体地说,当源语言文件通过输入单元1被输入和通过控制单元2被提供到翻译单元4时,源语言文件的翻译处理开始进行(S1404)。在这种情况下,目标语言文件数据库控制单元62确定源句数据是否被存储在控制数据库存储器64中(S1405)。如果源句数据已被存储,则目标语言文件数据库控制单元62确定所存储的源句数据和所输入的源句之间的相似程度。现有技术的各种方法可被用做相似程度的验证方法。例如作为相似程度的验证方法,文件可由包括在该文件中的其维(dimension)为单词的向量表示,并且相似程度由该“向量空间模型”构成。如果输入源句与存储的源句数据的至少一个相似(S1407),则目标语言文件数据库控制单元62选择对应于所确定的该源句数据的目标语言文件数据库,该目标文件数据库被确定为与用于翻译单词学习的数据库相似(S1408)。简言之,通过以前的翻译单词学习历史,要被使用的目标言文件数据库被确定,能够自动选择适合于要被翻译的输入源句的数据库。如果还未存储源句数据或如果在控制数据库存储器64中不存在与输入源句类似的源句数据,则目标语言文件数据库控制单元62选择具有最高优先程度的目标语言文件数据库作为用于翻译单词选择的数据库(S1409)。用这种方法,目标语言文件数据库控制单元62把在S1408或S1409所选择的目标语言文件数据库看作是该系统的数据库选择结果。
此外,在本发明的实施例中,除了由系统进行数据库选择以外,由用户进行目标语言文件数据库选择也是可以的。在步骤S1410中的处理A为通过在数据控制单元6和用户之间的交互处理进行的数据库选择处理。图14是根据本发明的实施例的该交互式处理的流程图。首先,数据控制单元6确定用户的数据库指示是否被输入(S1301)。用户可通过输入单元1指示要被用于翻译单词学习的目标语言文件数据库。数据库控制单元6通过控制单元2接收由用户指示的数据库名称(用户的数据库指示)。在输入用户的数据库指示的情况下,数据库控制单元6优先选择所指示的目标语言文件数据库。在这种情况下,如果作为该系统的数据库选择结果该目标语言文件数据库存在,则数据库控制单元6通过控制单元2将数据库的名称输出到输出单元3,以供用户使用该数据库(S1306)。
因为用户不理解目标语言文件数据库的详细内容,所以经常出现用户不能够有效地设置优先程度。因此,数据库控制单元6具有以比较方式提供使用每一目标语言文件数据库的翻译学习结果的功能。具体地说,当通过输入单元1用户的翻译结果参考指示被输入时(S1302),控制单元2指示数据库控制单元6将选择对象的所有数据库名称发送到翻译单元4。响应该指示,数据库控制单元6将选择对象的所有数据库名称和每一数据库的翻译单词选择非应用单词发送到翻译单元4。翻译单元4访问接收的数据库名称的每一数据库,并且将使用每一数据库和翻译单词选择非应用单词的翻译结果发送到输出单元3。输出单元3通过显示器向用户提供每一数据库的翻译结果(S1303)。通过比较每一数据库的翻译结果,用户可很容易地确定一个要被使用的数据库。用户指示的数据库在S1304中被选择,并且数据库和翻译单词选择非应用单词被发送到产生单元43的翻译单词学习单元44(S1307)。由系统在图13的S1408或S1409所选择的该数据库在S1305中被选择,并且该数据库和翻译单词选择非应用单词被发送到翻译单词学习单元44(S1307)。如果用户的翻译结果参考指示未被输入,则由数据库控制单元6选择的数据库被选择(S1305)。用这种方法,按优先程度、源句数据的相似性程度所选择的数据库或根据用户的指示所选择的数据库可被选择用于翻译单词学习。简言之,可选择适合于用户意图的目标语言文件数据库。
当数据库控制单元6根据翻译单元4的用户选择或系统选择指示数据库时,通过使用所指示的数据库翻译单元4执行翻译单词学习。图15是根据本发明的实施例的翻译单词学习的具体处理的流程图。在该示例中,假定源句通过输入单元被输入,该源句数据通过翻译单元4的分析单元41、转换单元42和产生单元43被翻译,并且产生用于输入源句的相同单词的多个翻译单词候选者。在这种情况下,翻译单词学习单元44通过翻译单词学习确定翻译单词。首先,控制单元2确定该目标语言文件数据库是否存在(S401)。如果该目标语言文件数据库不存在,则翻译单词学习不被执行,并且产生单元43选择当初选择的翻译单词(默认翻译单词)作为翻译单词候选者(S409)。紧接着,控制单元确定不使用目标语言文件数据库执行翻译单词选择的指示是否被输入(S402)。如果输入了该指示,则不执行翻译单词学习,并且产生单元43选择默认翻译单词作为翻译单词学习(S409)。如果多个目标语言文件数据库被存储在目标语言文件数据库存储器9中,则数据库控制单元6选择适合的目标语言文件数据库,并且将该数据库的名称和翻译单词选择非应用单词发送到翻译单元4。通过数据库发送的翻译单词选择非应用单词(图3中的445)被存储在翻译单词学习单元44的翻译单词选择非应用单词存储器444中。翻译单词选择单元442选择由数据库控制单元6指示的目标语言文件数据库(图3中的446)(S403)。另一方面,产生单元43将源词的每一翻译单词候选者作为翻译单词选择的对象存储在翻译单词候选者存储器441中。存储在翻译单词候选者存储器441中的翻译单词候选者被提供到翻译单词候选者单元442(S404)。翻译单词选择单元442访问目标语言文件存储器91的所选择的目标语言文件数据库,并且获得关于该目标语言文件的信息(S405)。此外,翻译单词选择单元442访问所选择的目标语言文件数据库的复合词列表存储器92,并且获得包括在目标语言文件中的复合词列表(S406)。根据复合词列表、包括在关于目标语言文件的信息中的“出现频率”和“共同出现密度”,翻译单词选择单元442可确定适合的翻译单词(S407)。
图16是在图15的步骤S407中翻译单词选择的具体处理的流程图。首先,翻译单词选择单元442检查由用户指示的翻译单词选择非应用单词(源词)(S506)。如果存在翻译单词选择非应用单词,则在翻译单词学习之前的源词的默认翻译单词作为高可靠性的翻译单词被选择(S507)。具体地说,如果与用于翻译单词选择非应用单词的默认翻译单词相同的翻译单词候选者包括在多个翻译单词候选者中,则该翻译单词候选者被添加到确定翻译单词列表中。在产生单元43中产生翻译句子的情况下,如果在源句中多个名词被连续配置并且相关联,则多个名词为复合词的可能性较大(S501)。在这种情况下,如果多个名词的至少1个名词存在多个翻译单词候选者,则产生每一名词的翻译单词候选者的每一组合(S502)。包括在目标语言文件数据库的复合词列表中的翻译单词候选者的1个组合被优先选择(S503)。通过这些处理,未确定的翻译单词的数量被降低并且整体上提高了翻译单词选择的准确性。此外,复合词大多取决于对象。因此,通过使用复合词的信息,能够找到用户所需要的翻译单词选择。
例如,在将英语复合词“计算机杂志(computermagazine)”翻译成日语复合词的情况下,从“Konpyutamagajin”或“Konpyuta Zassi”中选择哪一个翻译单词取决于用户的喜好等。要被选择的翻译单词根据用户的喜好、主题(subject)和使用的目的而不同。然而,在根据用户的指示所产生的目标语言文件数据库中,确定的翻译单词根据哪一个单词正在被使用而确定。简言之,由用户指示的目标语言文件反映了用户的喜好、主题(subject)和使用目的。此外,目标语言文件数据库的复合词列表反映了用户的喜好等。因此,在翻译单词学习中通过使用复合词的信息,性的翻译是可能的。
翻译单词选择单元442可将由语义规则所确定的翻译单词、用于源词的仅一个翻译单词候选者和由复合词列表所确定的翻译单词候选者的组合记录到确定翻译单词列表中(S504)。由语义规则所确定的翻译单词被记录到确定翻译词列表中的原因是因为通常由语义规则所确定的翻译单词非常受场合的限制,并且其对场合的依赖性很强。
紧接着,通过由评估根据选择单元443所指示的评估根据,翻译单词选择单元442从未确定的翻译单词候选者中选择翻译单词(S505)。当选择翻译单词时,可考虑包括各种成分(出现频率、交互信息量等)的多个评估根据。评估根据选择单元443响应用户的指示,从多个基数中选择一个有效的评估根据,或者可自动确定用于翻译单词选择的评估根据。例如,如果由评估根据选择单元443所选择的评估根据为“出现频率的优先程度(priority)”,则根据存储在目标语言文件存储器91的目标语言文件中的出现频率较高的单词,翻译单词选择被执行。此外,如果评估根据为“共同出现密度(intensity)的优先程度”,则根据在目标语言文件中共同出现的频率较高的两个单词,翻译单词选择被执行。上述的评估根据仅为一个示例,也可采用其它的评估根据。在这种情况下,除复合词列表以外的目标语言文件以及部分语音和信息可被存储在目标语言文件数据库存储器9中。
在由数据库控制单元6所选择的目标语言文件数据库446中,翻译单词选择单元442检索存储在翻译单词候选者存储器441中的每一个翻译单词候选者,根据指示的评估根据和翻译单词选择非应用单词确定翻译单词,并且将该翻译单词输出到产生单元443。产生单元443用新的翻译单词(在翻译单词学习之后)来代替翻译结果中以前的翻译单词(在翻译单词学习之前),并且将该翻译结果发送到控制单元2。控制单元2将翻译结果发送到输出单元3,并且完成一系列的翻译处理。对于翻译单词选择非应用单词,翻译单词选择单元442将产生单元43最初产生的翻译单词(默认翻译单词)设置为确定单词(S507)。因此,对于翻译单词选择非应用单词,默认翻译单词不被改变。
紧接着,在图15的步骤S408中,翻译单词学习单元44将由翻译单词选择单元442所选择的翻译单词输出到翻译单元4的产生单元43,并且翻译单词学习被完成。产生单元43使用输入的翻译单词产生翻译的句子,并且通过输出单元3输出作为翻译单词学习结果的翻译的句子。用这种方法,在本发明的实施例中,通过使用适合于用户意图的目标语言文件数据库,翻译单词学习被自动执行。因此,降低了用户进行翻译单词选择操作的次数,并且能够进行与用户需要相吻合的翻译。
紧接着,在图13中,当翻译处理被完成时(S1413),目标语言文件数据库控制单元62在控制数据库存储器64中存储输入的源句数据(S1414)。然后,确定新的目标语言文件数据库是否被添加到数据库控制单元6。在添加新的目标语言文件数据库的情况下,目标语言文件数据库控制单元62通过重新设置每一数据库的优先程度更新控制数据库存储器64的内容。在再次指示翻译单词选择非应用单词的情况下,从S1401处理被重复。
在图14中,说明了目标语言文件数据库控制单元62的处理。此外,翻译数据库控制单元61可执行图14的处理。在这种情况下,词典数据库的灵活自动选择是可能的。图17是翻译数据库控制单元61的处理的一个示例的流程图。在图17中,对于与图14相同的步骤,给出了相同的符号以省略该解释。在图17的流程图中,采用步骤S1308来代替图14的步骤S1307。在图17的步骤S1307中,翻译单词选择非应用单词被发送到翻译单词学习单元44的翻译单词选择非应用单词存储器444中。在这种情况下,翻译单词选择单元442不改变翻译单词选择非应用单词的默认翻译单词。另一方面,在图17的步骤S1308中,在翻译翻译单词选择非应用单词的情况下,不使用翻译单词选择非应用单词所设置到的所选择的词汇数据库,而根据每一数据库的优先程度有选择地使用另一词汇数据库。例如,假定所选择的词汇数据库为“数据库a”,其它的词汇数据库为“数据库b”和“数据库c”,每一数据库的优先程度为“a>b>c”,并且设置到“数据库a”的翻译单词选择非应用单词为“W”。在这种情况下,源词“W”不通过使用“数据库a”被翻译,而通过使用更高优先程度的另一数据库,源词“W”被翻译。在该示例中,源词“W”通过使用“数据库b”被翻译。如果源词“W”也被设置为“数据库b”的翻译单词选择非应用单词,则源词“W”通过使用“数据库c”被翻译。重复上述的处理,直到翻译单词确定为止。如果未发现要被使用的数据库,则使用高优先程度的数据库。用这种方法,除了自动改变词汇数据库的优先程度以外,通过翻译数据库控制单元61,通过使用不同的词汇数据库可翻译每一源词。
如上所述,在本发明的实施例中,根据由用户所收集的预定字段的目标语言文件,多个目标语言文件数据库被构成。通过用户设置每一数据库的翻译单词选择非应用单词,根据自动翻译单词学习的翻译单词的不必要的改变被抑制。根据翻译单词选择非应用单词的情况,每一目标语言文件数据库的优先程度被自动改变,并且通过使用优先程度目标语言文件数据库被有效地选择。此外,通过确定在输入源句和由每一数据库预先处理的源句数据之间的相似程度,适合于输入源句的目标语言文件数据库被选择,并且翻译的准确性被提高。此外,通过使用每一数据库比较地显示翻译单词学习结果,用户可很容易地选择该目标语言文件数据库。
通过根据每一目标语言文件数据库的翻译单词选择非应用单词设置优先程度,可实现自动选择适合于用户意图的翻译单词。
对于本发明的实施例来说,通过计算机可执行程序可完成本发明的处理,并且在计算机可读存储装置中该程序可被实现。
在本发明的实施例中,可使用诸如磁盘、软盘、光盘(CD-ROM、CD-R、DVD等)、光磁盘(MD等)之类的存储装置以存储用于使处理器或计算机执行上述处理的指令。
此外,根据从存储装置到计算机的安装程序指示,在计算机上操作的OS(操作系统)或诸如数据库管理软件或网络之类的MW(中间件软件)可执行每一处理的一部分以实现各实施例。
此外,存储装置不限于独立于计算机的装置。通过下载经LAN或因特网传输的程序,存储程序的存储装置被包括。此外,该存储装置不限于1个。在多个存储装置执行本实施例的处理的情况下,多个存储装置可被包括在该存储装置中。该装置的元件可任意构成。
在本发明的实施例中,计算机根据存储在存储装置中的程序执行实施例的每一处理步骤。计算机可以是诸如个人计算机或其中多个处理装置通过网络相连接的系统之类的装置。此外,在本发明中,计算机不限于个人计算机。本领域的技术人员将能够理解计算机包括信息处理器的处理单元、微处理器等。简单地说,可使用程序执行本发明的实施例中的功能的设备和装置统称作计算机。
根据这里所公开的本发明的说明和实际操作,对于本领域的技术人员来说,本发明的其它实施例将变得显而易见。应当理解本说明和示例仅是示例性的,本发明的真正精神和范围将在下列权利要求中表示。
权利要求
1.一种包括多个目标语言文件数据库、用于将源语言翻译成目标语言的机器翻译装置,该机器翻译装置包括数据库控制单元,被配置用于对多个目标语言文件数据库的每一个分配优先程度,并且指示哪一个目标语言文件数据库具有最高优先程度;翻译单词产生单元,被配置用于产生用于翻译的源词的多个翻译单词的候选者;和翻译单词学习单元,被配置用于通过使用由所述的数据库控制单元指示的目标语言文件数据库,从多个翻译单词侯选者中选择翻译单词作为翻译结果。
2.根据权利要求1的机器翻译装置,其中所述数据库控制单元根据用户的指示对每一目标语言文件数据库设置翻译单词选择非应用单词,翻译单词选择非应用单词为在源语言中的这样一种类型的单词,即当将源语言翻译成目标语言时,该类型的单词不需要用户选择翻译单词候选者。
3.根据权利要求2的机器翻译装置,如果对于翻译单词选择非应用单词,产生了多个翻译单词侯选者作为源词,则其中所述翻译单词学习单元确定多个翻译单词侯选者的一个默认侯选者作为翻译单词。
4.根据权利要求2的机器翻译装置,其中根据与目标语言文件数据库相关的翻译单词选择非应用单词的数量,所述数据库控制单元确定目标语言文件数据库的每一个的优先程度。
5.根据权利要求2的机器翻译装置,其中所述数据库控制单元包括控制数据库存储器,所述控制数据库存储器被配置用以为每一个目标语言文件数据库相应地存储目标语言文件数据库的名称、优先程度、翻译单词选择非应用单词和通过使用目标语言文件数据库选择的翻译单词的源句数据。
6.根据权利要求5的机器翻译装置,其中所述数据库控制单元计算在要被翻译的源语言文件和每一目标语言文件数据库的源句数据之间的相似程度,并且指示哪一个目标言文件数据库具有最高的相似程度。
7.根据权利要求1的机器翻译装置,其中所述数据库控制单元根据用户的指示确定每一个目标语言文件数据库的优先程度。
8.根据权利要求1的机器翻译装置,还包括目标语言文件数据库产生单元,该目标语言文件数据库产生单元被配置用以根据目标语言文件产生目标语言文件数据库中的至少一个。
9.根据权利要求8的机器翻译装置,其中所述目标语言文件数据库产生单元分析该目标语言文件,并且根据分析结果从目标语言文件提取复合词。
10.根据权利要求9的机器翻译装置,其中目标语言文件数据库的至少一个包括目标语言文件的每一个词,以及部分语音标识符和包括复合词的列表。
11.根据权利要求10的机器翻译装置,其中根据对特定目标语言文件数据库所设置的翻译单词选择非应用单词的数量,所述数据库控制单元更新在所述控制数据库存储器中的每一个目标语言文件数据库的优先程度。
12.根据权利要求10的机器翻译装置,其中所述翻译单词学习单元包括翻译单词侯选者存储器,被配置用以存储源词的多个翻译单词侯选者,评估根据侯选者,被配置用以存储用于选择翻译单词的评估根据,翻译单词选择非应用单词存储器,被配置用以存储翻译单词选择非应用单词,和翻译单词选择单元,被配置用以通过使用目标语言文件数据库中的至少一个、评估根据和翻译单词选择非应用单词,从多个翻译单词侯选者中选择翻译单词。
13.根据权利要求12的机器翻译装置,如果源词被配置并且与第二源词有关,则其中所述翻译单词选择单元使用源词和来自第二源词的每一个翻译单词侯选者创建多个组合,并且从包括目标语言文件数据库的复合词的列表中选择其中一个组合。
14.根据权利要求13的机器翻译装置,如果通过使用翻译单词选择非应用单词,从中翻译单词未被选择的多个翻译单词侯选者和复合词列表仍被存储在所述翻译单词侯选者存储器中,则其中所述翻译单词选择单元通过使用评估根据从多个翻译单词侯选者中选择翻译单词。
15.根据权利要求14的机器翻译装置,其中评估根据为在目标语言文件中的每一个单词的出现频率的优先程度和在目标语言文件中的单词中的至少两个的共同出现密度的优先程度的其中一个。
16.根据权利要求6的机器翻译装置,其中所述数据库控制单元响应用户对目标语言文件数据库的其中一个的指示,提供每一目标语言文件数据库的优先程度。
17.根据权利要求6的机器翻译装置,其中所述数据库控制单元响应用户的翻译结果参考的指示,提供根据每一目标语言文件数据库的翻译结果。
18.根据权利要求1的机器翻译装置,其中所述数据库控制单元对多个词汇数据库的每一个分配词汇优先程度,指示哪一个词汇数据库具有最高词汇优先程度,并且指示具有次最高优先程度的另一个词汇数据库以翻译设置到词汇数据库的翻译单词选择非应用单词。
19.一种系统中的方法,该系统包括多个目标语言文件数据库、用于将源语言翻译成目标语言,该方法包括对多个目标语言文件数据库的每一个分配优先程度;指示哪一个目标语言文件数据库具有最高优先程度;产生用于翻译的源词的多个翻译单词侯选者;和通过使用所指示的目标语言文件数据库的其中一个,从多个翻译单词侯选者中选择翻译单词作为翻译结果。
20.一种计算机程序产品,包括一种配备在所述产品中的计算机可读程序码,以使计算机通过使用多个目标语言文件数据库将源语言翻译成目标语言,所述计算机可读程序码包括第一程序码,用于对多个目标语言文件数据库的每一个分配优先程度;第二程序码,用于指示哪一个目标语言文件数据库具有最高优先程度;第三程序码,用于产生用于翻译的源词的多个翻译单词侯选者;和第四程序码,用于通过使用所指示的目标语言文件数据库的其中的一个,从多个翻译单词侯选者中选择翻译单词作为翻译结果。
全文摘要
一种包括多个目标数据库、用于将源语言翻译成目标语言的机器翻译装置。数据库控制单元对多个目标语言文件数据库的每一个分配优先程度,并且指示最高优先程度的目标语言文件数据库。翻译单词产生单元产生用于翻译的源词的多个翻译单词候选者。通过使用由数据库控制单元指示的目标语言文件数据库,翻译单词学习单元从多个翻译单词候选者中选择翻译单词。
文档编号G06F17/28GK1487449SQ0315435
公开日2004年4月7日 申请日期2003年8月21日 优先权日2002年8月22日
发明者鈴木博和, 木博和 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1