计算机辅助翻译方法与流程

文档序号:12484923阅读:2491来源:国知局
计算机辅助翻译方法与流程

本发明涉及计算机辅助翻译(CAT:Computer Aided Translation)方法。



背景技术:

目前,基于计算机实现的机器翻译(MT)技术有可分为基于规则的机器翻译(RBMT)、基于统计的机器翻译(SMT)、基于实例的机器翻译(EBMT)、基于模板的机器翻译(TBMT)的机器翻译技术等。另外,还存在以翻译记忆(translation memory,TM)技术为代表的计算机辅助翻译技术。

无论是机器翻译还是计算机辅助翻译,都是将待翻译语言(以下,有时记作第一语言)的语句翻译成目标语言(以下,有时记作第二语言)的语句。但在目前的计算机翻译(包括计算机机器翻译和计算机辅助翻译)产品中,在第一语言和第二语言之间的对应关系的显示方面存在许多问题。

例如,如图1所示,第一语言位于左侧,作为翻译结果的第二语言位于右侧。它们分别由多个语言片段(以下有时简称做片段)构成。所谓语言片段是指句子的各个组成部分,它们可大体分类为具有实际含义的词汇以及仅表示语法信息的元素(例如,日语等中的提示主语的“は”)等。例如,也可以将eated分为作为表示实际含义的片段部分“eat”和表示时态语法的片段部分“ed”。

如图1所示,在现有的翻译产品中,例如,如果将鼠标放置在第二语言的语句的某个语言片段上,则在第一语言的语句中以阴影的方法显示对应的语言片段。这种显示方法存在如下问题,首先,必须通过鼠标等切换到显示对应关系的模式,例如,在图1所示例子中,需要将鼠标放置在某个片段上,切换到显示对应关系的模型,才显示对应关系。如果鼠标不指示某个片段,则不显示两种语言的子元素之间的对应关系。

此外,例如如图1所示的例子那样,只能一个一个地显示对应关系。此外,不能显示语序的变化,例如,英语是典型的主谓宾(SVO)语序,而日语是SOV语序,图1所示的产品不能在第二语言中显示出子单位原来的语序位置,必须参考左侧的显示才能掌握原来的语序位置。此外,不能在第二语言中显示出已被隐藏的第一语言的语法元素等。例如,诸如apples中的“s”表示复数,而中文、日语等往往不使用复数,因此,仅参照第二语言中的“苹果”,则无法知晓苹果对应的是“apples”还是“apple”。



技术实现要素:

针对上述问题,本发明提供一种计算机辅助翻译方法,其由计算机执行,其中,

所述计算机辅助翻译方法包含如下处理:

预翻译处理,将第一语言的语句中的各个语言片段处理为第二语言的语言片段;以及

标记元素显示处理,在通过所述预翻译处理得到的作为第二语言的预翻译结果中,在与所述第一语言的语言片段相应的位置显示标记元素。

此外,所述计算机辅助翻译方法还包含如下标记元素清除处理:响应于用户做出的用于清除标记元素的指示,将所述标记元素清除。

此外,所述相应的位置可以包括调整语序之前的位置和调整语序之后的位置。

此外,所述相应的位置可以包括发生拆分的位置。

此外,所述标记元素可以是字符或图片。

一种计算机辅助翻译程序,其使计算机执行如下处理:

预翻译处理,将第一语言的语句中的各个语言片段处理为第二语言的语言片段;以及

标记元素显示处理,在通过所述预翻译处理得到的作为第二语言的预翻译结果中,在与所述第一语言的语言片段相应的位置显示标记元素。

此外,所述计算机辅助翻译程序还使计算机执行如下标记元素清除处理:响应于用户做出的用于清除标记元素的指示,将所述标记元素清除。

此外,所述相应的位置可以包括调整语序之前的位置和调整语序之后的位置。

此外,所述相应的位置可以包括发生拆分的位置。

此外,所述标记元素可以是字符或图片。

通过以上方式,可以在作为第二语言的翻译结果中,直观地表现出第二语言的片段与第一语言的片段之间的对应关系。

附图说明

图1示出了用于说明现有的翻译产品中显示对应关系的例子。

图2示出了辅助翻译程序P的组成结构。

图3示出了翻译模板的例子。

图4示出了与翻译模板对应的标记模板的例子。

图5示出了显示有标记元素的翻译结果的例子。

图6示出了在词典中附加标记元素的标记模板的例子。

图7示出了带有词性的词典的例子。

具体实施方式

实施方式1

本发明的计算机辅助翻译方法例如可由作为个人计算机的PC1执行辅助翻译程序P来实现。辅助翻译程序P例如存储于计算机可以访问的网络或者可读的介质例如CDROM等中。个人计算机PC1可以是通常的个人计算机,其具有处理器、存储器、显示器和鼠标键盘等。个人计算机PC1通过从网络下载或者从存储有辅助翻译程序P的CDROM介质中读取辅助翻译程序P并执行,来进行翻译处理。辅助翻译程序P构成为包括预翻译模块P1、标记元素显示模块P2和标记元素清除模块P3。

例如,用户通过键盘或鼠标指示辅助翻译程序P进行翻译处理。响应于该指示,在预翻译模块P1中,针对待翻译的第一语言的语句,基于现有的翻译方法进行预翻译。在预翻译中,将第一语言的语句中的各个语言片段处理为第二语言的语言片段,并对对语序进行调整。

例如,可以采用基于模板的机器翻译(TBMT)技术来进行预翻译。在基于模板的机器翻译中,模板是包含由源语(第一语言)和目标语(第二语言)这两种语言书写的、包含变量(具体语言片段)和变量(可变语言片段)的字符串。模板还示出了两种语言的字符串之间的对应翻译关系。

例如,如图3所示,在由文本文件实现的翻译模板库中保存有诸如“I like[A]→私は[A]が好きです”这样的翻译模板。该模板中的单词“I”和“like”为第一语言的常量片段(具体词语片段),[A]为第一语言的变量片段(可变词语片段)。该模板中的“私は”和“が好きです”为第二语言的常量片段(具体词语片段),[A]为第二语言的变量片段(可变词语片段)。该模板中的“→”示出两种语言之间的对应关系,即将“I like[A]”翻译为“私は[A]が好きです”。同样地,图3中的“I eat[A]”所示的模板表示将“I eat[A]”翻译为“私は[A]を食べる”。

例如,针对“I like apple”这样的待翻译语句,在预翻译模块P1中,首先从翻译模板库中选择近似度最高的模板。例如,可根据在待翻译语句中的出现常量个数来计算近似度,出现的常量个数越多则近似度越多。在图3所示的模板中,“I eat[A]”所示的模板仅“I”出现于待翻译语句,而“eat”未出现于待翻译语句,即近似度为1。与之相比,“I like”中的“I”和“like”均出现于待翻译语句,即近似度为2,因此“I like[A]”所示的模板与待翻译语句的相似度高于“I eat[A]”所示的模板,且“I”和“like”对应于模板中的常量,而“apple”对应于模板中的变量[A]。

因此,例如在翻译“I like apple”时,选择“I like[A]”所示的模板作为近似度最高的模板来进行翻译。根据模板所示的“I like[A]”与“私は[A]が好きです”之间的关系,将“I like apple”翻译为“私は[A]が好きです”。然后,针对与“apple”对应的变量[A],通过查找例如图7所示那样的词典等方法,得到apple的对应单词是“林檎”。将作为变量[A]置换为“林檎”,从而最终将“I like apple”翻译为“私は林檎が好きです”。

此外,为了便于在后续处理中显示标记元素,预翻译模块P1例如在内存中记录翻译结果中的各个常量和变量的开始位置和结束位置。例如,在以字符为单位的情况下,常量“私は”的开始位置和结束位置分别为1和2,与“林檎”对应的变量“[A]”的开始位置和结束位置分别为3和4,常量“が好きです”的开始位置和结束位置分别为5和9。

在标记元素显示模块P2中,针对预翻译的结果,基于标记模板来显示标记元素。例如,如图4所示,在由文本文件实现的标记模板库中保存有“I like[A]→私は<like>[A]が<好きです><like>”这样的标记模板。标记模板可以通过在翻译模板的基础上增加标记元素来得到的。标记模板分为如下三部分:“I like[A]”所示的左侧部分对应于翻译模板中的第一语言部分,其为模板的名称,可作为键来唯一标识模板;“私は<like>[A]が<好きです>”所示的中间部分是对翻译模板中的第二语言部分增加标记元素而得到的(与翻译模板同样,→示出第一语言部分与第二语言部分的对应关系);“<like>”所示的右侧部分用于在后述处理中清除标记元素。在存在多个要清除的标记元素的情况下,例如可以使用“|”等分隔符来分隔各个标记元素。

例如,在“I like apple”的情况下,由于在预翻译模块P1中所使用的翻译模板为“I like[A]”所示的模板,因此根据“I like[A]”来检索相应的标记模板,从而得到“私は<like>[A]が<好きです>”。其中,“<”和“>”所包围的部位为标记元素,在本例中,为<like>和<好きです>。它们分别表示在“<like>”和“<好きです>”所处的位置显示标记元素。

例如,可以用粗斜体来显示标记元素。这样,如图5所示,针对作为预翻译结果的“私は林檎が好きです”,根据预翻译模块P1所记录的各个常量和变量的开始位置和结束位置来显示标记元素,最终,“I like apple”的翻译结果在显示标记元素后成为“私はlike林檎が好きです”。

为了便于在后续处理中清除标记元素,标记元素显示模块P2可以保存标记元素的位置。例如,<like>所示的标记元素的开始位置和结束位置分别为3和6,<好きです>所示的标记元素的开始位置和结束位置分别为10和13。

由此,根据翻译模板,例如将第一语言的语序调整为第二语言的语序,且在作为第二语言的翻译结果中,分别在语言片段被调整语序之前的位置和被调整语序之后的位置显示标记元素,使得用户可以直观地在翻译结果中掌握发生语序变换的片段与翻译之前的片段之间的对应关系和相对位置。

用户基于标记元素显示的对应关系,能够容易的理解预翻译的翻译结果,并对翻译结果进行修正。然后,如果用户对翻译结果满意,可通过键盘或鼠标等指示辅助翻译程序P来清除标记元素。例如,可以对“清除标记元素”的操作分配快捷键F8。在用户按下F8时,标记元素清除模块P3响应于用户作出的指示,针对上述标记模板中的需要清除的标记元素的部分,基于在标记元素显示模块P2记录的标记元素的开始位置和结束位置,将翻译结果中的标记元素清除。

例如,在“I like[A]→私は<like>[A]が<好きです><like>”所示的标记模板中,右侧部分表示将<like>所示的标记元素清除。根据标记元素显示模块P2记录的标记元素的位置,翻译结果中的3到6的“like”部分为标记元素,因此将其清除。而由于标记模板未指示清除<好きです>,因此,在标记元素清除处理中,“好きです”被作为翻译结果保留。由此,针对图5所示的例子中的发挥标记元素的作用的“like”和“好きです”,仅“like”部分被清除,从而得到清除标记元素后的翻译结果、即“私は林檎が好きです”。

需要指出的是,标记元素清除模块P3不是必须的。也可以省略标记元素清除模块P3。在这种情况下,用户可以手动地清除标记元素,且标记模板的右侧部分也可以省略。

实施方式2

在以上说明中,将翻译模板和标记模板分开保存在不同文件中。不过,由于标记模板中的左侧部分和中间部分是在翻译模板上增加标记元素而得到的,因此可以发挥翻译模板的作用,因而可以省略翻译模板文件。

例如,在省略翻译模板文件的情况下,在翻译“I like apple”时,利用上述的计算近似度的方法,得到对应的模板“I like[A]→私は<like>[A]が<好きです><like>”。与以上说明的基于翻译模板的预翻译处理同样地,使用“I like[A]→私は<like>[A]が<好きです>”作为翻译模板,将“I like apple”翻译为“私は<like>[A]が<好きです>”。然后查找词典,将变量[A]替换为“林檎”,得到“私は<like>林檎が<好きです>”。以下的显示标记的处理与以上说明的没有区别,因此不再记述。

此外,关于模板近似度的计算,以上所示的常量出现个数的方法仅为实例,例如还可在计算常量出现个数的基础上,通过比对常量在模板中的出现顺序与常量在待翻译中的出现顺序的相似度即词序相似度等来增加计算模板与待翻译语句的近似度时的准确性等。此外,也可以采用其他方式来选择与待翻译语句最匹配的模板。

变形例1

以上,使用了TBMT技术来进行预翻译,但不限于此,也可以通过其他方法来进行预翻译。例如,可以采用基于规则的机器翻译技术来进行预翻译。在基于规则(RBMT)的机器翻译技术情况下,与以上说明同样地,与存储翻译规则的库中的各个翻译规则对应地建立标记模板,针对基于规则的预翻译结果显示标记元素。与实施方式1、2同样地,本例中的处理包含预翻译处理、标记元素显示处理和标记元素清除处理。由于仅预翻译处理与实施方式1、2不同,因此在以下的说明中仅对预翻译处理进行说明。

例如,存在如下的规则A1~A5,它们表示英语句子的句子结构(以下有时将规则A1~A5统称为规则A)。

规则A1:S1→NP VP

规则A2:NP→NP and NP

规则A3:NP→N

规则A4:VP→VP NP

规则A5:VP→V

其中,规则A1表示英语句子S1可以由名词短语NP、助词は和动词短语VP构成。

规则A2表示名词短语NP可以由助词and连接两个名词短语NP构成。

规则A3表示名词短语NP可以由名词N构成(为了简化说明,在本例中,将代词也解析为名词)。

规则A4表示动词短语VP可以由名词短语NP和动词短语VP构成。

规则A5表示动词短语VP可以由动词V构成。

如下的规则B1~B5表示与规则A1~A5对应的日语。

规则B1:S2→NPはVP

规则B2:NP→NPとNP

规则B3:NP→N

规则B4:VP→<VP>NPをVP

规则B5:VP→V

其中,规则B1表示句子S2可以由名词短语NP、助词は和动词短语VP构成。

规则B2表示名词短语NP可以由助词と连接两个名词短语NP构成构成。

规则B3表示名词短语NP可以由名词N构成(为了简化说明,在本例中,将代词也解析为名词)。

规则B4表示动词短语VP可以由名词短语NP、助词构成を和动词短语VP构成。

规则B5表示动词短语VP可以由动词V构成。

此外,规则A1、B1、规则A2、B2、规则A3、B3、规则A4、B4、规则A5、B5分别为对应的翻译关系。作为终结词的名词N和动词V可以通过查找字典的方法完成翻译,此处,所谓终结词,是指在基于规则的翻译处理中,可以进行规则分析的最小单位。与实施方式1、2类似地,用“<”和“>”表示标记元素,因而规则B4中的<VP>为标记元素。

以下,以“I eat apple”为例,对基于RBMT的预翻译进行说明。在图7所示的词典中,各字条分别由英文单词、对应的日文单词和词性构成。

在基于规则A、B对“I eat apple”进行翻译时,首先,例如可以基于图7所示的词典来分析各个单词的词性。基于词典进行分析,可知单词I、单词apple为名词且符合规则A3,单词eat为动词且符合规则A5。进而,“eat apple”符合规则A4。进而,“I eat apple”符合规则A1。基于A1与B1、A4与B4的对应关系,将“I eat apple”翻译为“I<eat>appleをeat”。然后,基于A3与B3、A5与B5的对应关系,通过查找词典,将“I<eat>appleをeat”处理为“私は<eat>林檎を食べる”。其他的显示元素的<eat>的显示处理、删除处理等与实施方式1、2没有区别,因此省略说明。

在本例中,基于规则的方法来进行预翻译处理并进行比较元素的显示处理,可以得到与实施方式1、2相同的效果。

此外,在本例中,翻译规则可以记载于模板文件,也可以内置于程序中,对此没有限定。

其他变形例

此外,在以上说明中,根据标记元素的显示位置来清除标记元素。但也可以根据标记元素的显示信息(文本内容、字体颜色、粗体、斜体、下划线等显示方式等)或者组合标记元素的显示信息和位置来进行清除。例如,在标记元素显示模块P2中,可以将标记元素的显示记录在例如内存中,以便于在后续处理中清除标记元素直接访问内存,即可得到待清除的标记元素的文本内容、显示方式等信息,并根据这些信息来清除标记元素。

例如,可以使用标记元素专用的颜色来显示标记元素,在显示标记清除处置中,通过判断翻译结果的颜色是否为专用颜色来进行清除。这样,既便于使得用户通过显示方式而容易分辨出标记元素以及容易判断出片段之间的对应关系,又便于在后续的处理中可以根据显示方式等来清除标记元素。类似地,可以用标记元素专用的字体、下划线、字体大小等其他方式来标记元素,只要能够使标记元素与句子的其它部分的显示方式不同即可。

此外,在以上说明中,标记元素的显示方法是内置的,不过也可以在标记模板文件中,增加用于规定标记元素如何显示的内容,由用户来规定显示的字体的颜色、大小等。由此,用户可以通过编辑标记模板,改变为自己喜欢的显示方式。

此外,在以上说明中,标记元素是通过调整文本的显示方式(字体颜色等)来实现的,但也可以采用图片的方式进行显示。例如,在图5所示的例子中,可以生成显示有“like”和“好きです”的图片,在“like”对应的位置插入地显示图片,而在“好きです”对应的位置覆盖地显示图片。在清除处理中,将起到标记作用的图片清除即可。

此外,在建立标记模板时,针对诸如发生语序变换这样的成对的标记元素,除了字体、颜色等方式以外,优选在标记元素中体现出语义的对应关系。例如,在与“好きです”对应的标记元素中,优选采用“like”这样的可以表现对应语义的显示方式。

在以上说明中,示出了作为形容动词的“like”的语序发生调整的例子,但不限于此。同样地,其他语序调整也可以通过标记模板来显示。例如,日语的“○○について”对应的英文为“about○○”。对于这样的包含介词的发生语序调整的语言片段,也可以基于“[A]について→about[A]<について><について>”这样的标记模板来显示“about”所对应的“ついて”在语序调整之前的位置。对该模板的处理与以上说明的方式相同,因此不再记述。

此外,对于没有发生语序调整的片段,也可以通过显示标记元素来使得用户能够容易理解预翻译结果的语句片段与翻译之前的语句片段的对应关系。例如,英语等印欧语系的语言往往具有单复数形式,而中文、日文通常不使用复数。为了便于在作为翻译结果的第二语言的语句中直观地显示第一语言的单复数等语言信息,例如可以在字典的基础上增加标记元素,定义图6所示那样的标记模板。与以上说明类似地,该标记模板分为三部分:左侧为模板的键;中间部分用于显示标记元素;右侧用于在后续处理中清除标记元素。

由此,通过标记元素显示模块P2显示这样的标记元素,例如,将“apples”处理为“苹果s”,使得用户可以在作为翻译结果的第二语言的语句中,能够直观地看到在以往的翻译产品中无法看到的对应关系,以及已经被隐藏或清除的语法元素(例如,单复数、时态、阴性阳性等),从而使得用户可以基于这些语法元素方便地对翻译结果进行修正。

此外,类似地,对于包含which之类的带有从句的复杂英语长句,在翻译时通常根据情况拆分成容易理解的短句。例如,通过在作为第二语言的翻译结果中的原来的which的位置嵌入式地显示标记元素,可以使得用户容易理解原有的句子结构而方便地进行修改。例如,针对“Acroponics is another method for growing plants without soil,a technique in which plants are suspended and the roots misted with a nutrient solution”这个句子,在翻译结果中,以斜体字的方式嵌入地显示“in which”,得到如下结果:“气培法是另外一种无土栽培方法,[in which]这是一种把植物悬挂起来并将其根部浸入营养液的技术”。在本例中,通过斜体字[in which],使得用户容易识别翻译结果中的定语从句与第一语言之间的对应关系。

以上所示的基于文本文件的翻译模板库和标记模板库仅为示例,也可以采用XML文件、数据库等方式。

此外,上面以个人计算机来进行了说明,但也可以使该计算机可以与网络(包括局域网、虚拟局域网、互联网等)连接,将辅助翻译程序P的一个或多个模块部署于网络上的服务器。例如,可以将预翻译模块P1、标记元素显示模块P2部署于互联网上的服务器,而将标记元素清除模块P3部署于可以客户端,由此构成由服务器和客户端构成的辅助翻译系统。此外,也可以将辅助翻译程序P全部部署于互联网上的服务器,用于通过浏览器来使用辅助翻译程序P提供的功能。

此外,以上所述各变形例可以与实施方式1、2自由组合。

产业应用

本发明可以应用于计算机辅助翻译方法等。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1