基于语义的机器翻译系统及方法

文档序号:6565228阅读:656来源:国知局
专利名称:基于语义的机器翻译系统及方法
技术领域
本发明涉及机器翻译,尤其涉及基于语义的机器翻译系统和方法。
背景技术
利用计算机技术来实现在不同自然语言之间的自动翻译一直是技术人员的努力方向,但是由于自然语言的复杂多样性以及不同语种之间存在着的大量复杂的对应关系,因此现有的机器翻译系统的准确率和译文的可接受程度都比较低,始终没有达到实用水平。
目前,机器翻译所使用的方法基本是先基于语法或语料的分析方法分析原始语种的句子和语段,然后结合双语种词典来进行匹配查找将对应的字词替换为目标语种的字词,再按照两种语言语法的对应关系将替换好的字词重新组合,最后拼装成目标语种的语句和语段作为译文。
这种方法存在的问题是在一次翻译过程只能翻译出一种目标语言;双语词典非常庞大复杂;大量复杂的语法规则和两语种之间的特殊对应的操作都需要在翻译每一句话时重复执行,使得翻译程序很大和复杂,对系统的开销很大;而且由于计算机程序无法涵盖所有可能的变化,所以很多时候的译文是不准确的或者无法接受的。

发明内容
本发明的目的是解决现有技术的上述问题,提供一种基于语义的机器翻译系统和方法,能够有效地完成两种或两种以上自然语言之间的翻译,同时还能够提高准确率和译文的可接受程度。
根据本发明的一个方面,提供了一种基于语义的机器翻译方法,用于将原始语种的原文自动地翻译成一个或多个目的语种的译文,该方法包括如下步骤提取原文的一句;根据语义单元表示库,对该句进行语义分析,从而得到该句的句义表达式;根据语义单元表示库,将该句义表达式用目的语种的表示展开;将展开后的句子作为译文输出。
根据本发明的另一个方面,提供了一种基于语义的自然语言机器翻译系统,用于将原始语种的原文自动地翻译成一个或多个目的语种的译文,该系统包括原文存储器,用于保存待译的原文;语义单元表示库,用于记录语义单元对应的两个或两个以上语种的语义单元表示;语义分析器,用于按照语义单元表示库中记录的语义单元的原始语种的语义单元表示,将原文中的语句分析转换成句义表达式;语义展开器,用于按照语义单元表示库中记录的目的语种的语义单元表示,将句义表达式展开为目的语种的语句。
根据本发明的另一个方面,提供了一种计算机可读的记录媒体,该媒体上记录的计算机可执行程序可以使计算机执行基于语义的机器翻译方法,该机器翻译方法包括如下步骤提取原文的一句;根据语义单元表示库,对该句进行语义分析,从而得到该句的句义表达式;根据语义单元表示库,将该句义表达式用目的语种的表示展开;将展开后的句子作为译文输出。
本发明的各个方面、特征和优点相信可以通过下面结合附图对本发明实施例的描述变得清楚而被理解。


结合下面的附图,对本发明进行说明。
图1是根据本发明的一个实施例的基于语义的机器翻译方法的流程图;图2A和2B是根据本发明实施例的三种自然语言的语义单元表示库中记载语义单元及其表示的数据表的一个例子,其中,图2A是该例子的语义单元及其在语义单元表示库中的内容,包括各自然语言上的语义单元表示;图2B时该例子的语义单元及其对应的方便写法;图3是根据本发明一个实施例的基于语义的机器翻译方法中语义分析步骤的详细流程图;图4是根据本发明一个实施例的基于语义的机器翻译方法中语义展开步骤的详细流程图;图5是根据本发明的一个实施例的基于语义的机器翻译系统的示意方块图。
具体实施例方式
首先参照图1,来对本发明的基于语义的机器翻译方法进行描述。图1是根据本发明的一个实施例的基于语义的机器翻译方法的流程图。本发明的机器翻译方法,不同于现有技术,是基于语义的。为了更好的理解本发明,下面就一些本发明涉及到的术语和概念进行一下解释在自然语言中,表达一个意思的单元被称为语义单元,例如,“工程师”。
在任何一种具体的自然语言(例如英语,汉语,等)中的一个表达一个意思的单元(即语义单元)称为该语义单元在该具体自然语言中的语义单元表示。例如,工程师的汉语表示是“工程师”,英语表示是“engineer”。
任何一个具体的自然语言的一个句子的语义,我们称它为句义,例如,“我是学生”。句义是由语义单元构成。例如句义“我是学生”是由我、学生、是职称(<谁>,<什么职称>)这三个语义单元构成。其中,<谁>和<什么职称>是两个参数,每个参数需要被替换成为一个语义单元。
有参数的语义单元的参数可以用语义单元进行替换,即进行代入。替换后的语义单元成为语义单元代入式。语义单元代入式是一个复合语义单元。一个句义可以写为句义表达式,即一个参数全部被替换的语义单元代入式,例如是职称(我,学生)。
一个具体的自然语言的句子是一个句义在该具体的自然语言中的句义表示。例如,“是职称(我,学生)”的汉语表示是“我是学生”,英语表示是“I am a student”。
语义语言是由全部语义单元构成。语义语言是统一的,与具体语种无关。一个具体的自然语言就是由该具体的自然语言的全部语义单元表示构成。一个具体的自然语言可以看作语义语言的一个表示。
不同的具体自然语言之间,之所以能彼此翻译,使用不同的具体自然语言的人们之所以能交流,就是因为不同的具体自然语言之间有对应于相同语义单元的语义单元表示,有对应于相同句义的句子,或者可以建立表达该语义单元或者句义的一组句子。
全世界大约有4000种语言,包括英语、汉语、日语、德语等。它们都是可以看作统一的语义语言的不同表示。
如图1所示,根据本发明的该实施例,首先在步骤100,提取原文的一句。此处的原文是指要对其进行翻译的原始语种的文章。在进行机器翻译的过程中,要先将需要翻译的原文输入到计算机中,可以通过现有技术中的多种方法,如键盘输入、扫描识别或通过网络从其它计算机获得。这些输入的原文一般情况会是整篇或一段文章,因此需要首先提取其中一句。
然后在步骤200,根据语义单元表示库,对该句进行语义分析,从而得到该句的句义表达式。接着在步骤300,根据语义单元表示库,将该句义表达式用目的语种的表示展开。最后在步骤400,将展开后的句子作为译文输出。下面结合附图2至4,对本发明的实施例的机器翻译方法进行详细描述。
图2A和2B是本发明实施例涉及到的语义单元表示库的例子。语义单元表示库是记录一种或多种自然语言的语义表示的数据集合。
其中,图2A是该例子的语义单元及其在语义单元表示库中的内容,包括各自然语言上的语义单元表示。如图2A所示,语义单元表示库包括以下字段语义单元ID,用于唯一识别一个语义单元,一般可以用一个序号或其他不会重复的数值或字符串来表示,当然也可以用行号,这样就不必存储它;参数数目与类型,用于记载该语义单元所包含的参数数目及类型;语义单元的汉语表示,用于记录相应语义单元的汉语表示;语义单元的英语表示,用于记录相应语义单元的汉语表示;语义单元的日语表示,用于记录相应语义单元的日语表示。
图2B列出语义单元及其对应的方便记忆的各种写法。
从图2A和图2B的例子中我们可以看到,语义单元表示库实际上是一个记录语义单元的数据库,利用主键或语义单元ID将语义单元的不同语种的表示对应起来。应当理解,语义单元表示库还可以有其他变化,例如可以将语义单元的一个语种的语义表示记录在一个单独的表中,再将记录多个语种语义表示的表用主键或外部键对应起来;而且,还可以包含其它字段,如语义单元的参数的属性和参数的对应关系的字段。
图3是根据本发明一个实施例的基于语义的机器翻译方法中语义分析步骤的详细流程图。如图3所示,首先在步骤201,从语义单元表示库中找出全部于原文的句子中相匹配的语义单元表示及其对应的语义单元。现有技术中,有多种匹配方法,例如人工智能常用的横向优先、纵向优先等各种搜索方法,可以实现此步骤。接着在步骤202,对该句子中无参数的语义单元表示或者参数已经被替换的语义单元表示用对应的语义单元进行单元替换。在步骤203,判断是否全部语义单元表示已经被替换,如果判断结果为否,则重复步骤202。由于在实际语言中,语法单元往往是嵌套多层的,因此需要重复上述步骤202和203。直到步骤203的判断结果为是,则在步骤204,形成句义表达式。
下面结合具体的例句来说明上述语义分析的过程。
假设原文是一个汉语的句子“陈先生是工程师”。其语义分析过程如下陈先生是工程师→陈(3)先生是工程师(4)→先生(陈)(2)是工程师→是现在职称(先生(陈),工程师)(1)如上所示,首先将“陈”和“工程师”替换为语义单元ID为3和4的语义单元;然后将带参数的语义单元表示“先生”替换,因为其参数“陈”已经替换了;最后替换带参数的语义单元表示“是”,因为该语义单元的两个参数都已经被替换了。最终“是现在职称(先生(陈),工程师)”便是该句子的句义表达式。需要指出的是,在以上的说明中我们是用的是语义单元方便记忆的写法,实际上在计算机中语义单元会被替换为适合计算机读取的标记符号,例如语义单元ID,因此上述句义表达式可以为1(2(3),4)。
同样地,对于英语和日语的句子的分析过程的例子如下Mr.Chen is an Engineer→Mr.Chen(3)is anengineer(4)→Mr.(Chen)(2)is an engineer→IsTP(Mr.(Chen),engineer)(1);
陈さんは技师です→陈さんは技师です→さん(陈)は技师です→です(さん(陈),技师)从以上这些例子中可以看出,对于表达同一意思的不同语种的句子,其最终的句义表达式均为1(2(3),4)。
应当理解还有许多其他的方法来实现上述的语义分析,来得到句义表达式。
图4是根据本发明一个实施例的基于语义的机器翻译方法中语义展开步骤的详细流程图。如图4所示,首先在步骤301,顺序扫描句义表达式,读出第一个尚未展开的语义单元。接着在步骤302,从语义单元表示库找出目的语种的语义单元表示,并且按照该语义单元表示进行展开。然后在步骤303,判断是否全部语义单元都已经被展开了。如果全部展开了,则在步骤304,得到目的语种的译文;否则,重复执行步骤301至303。
下面结合具体的例句来说明语义展开的过程。
假设需要展开的句义表达式为1(2(3),4),即是现在职称(先生(陈),工程师)=IsTP(Mr.(Chen),engineer)=です(さん(陈),技师)该句义表达是在汉语上的展开过程如下是现在职称(先生(陈),工程师)→先生(陈)是工程师→陈先生是工程师→陈先生是工程师→陈先生是工程师如上所示,首先顺序扫描句义表达式,找到第一个语义单元“是(X1,X2)”将其按照汉语的语义单元表示展开,即中间为“是”,两个参数“先生(陈)”和“工程师”分别位于“是”的两边。然后,将语义单元“先生(X)”按照汉语的语义单元表示展开,即作为参数的语义单元“陈”位于“先生”前面。接着依次将语义单元“陈”和“工程师”按照汉语的语义单元表示展开,最终就得到了汉语译文“陈先生是工程师”。
同样地,对于该句义在英语和日语的展开过程的例子如下IsTP(Mr.(Chen),engineer)=>Mr.(Chen)is a engineer=>Mr.Chenis an engineer=>Mr.Chen is an engineerてす(さん(陈),技师)=>さん(陈)は技师てす=>陈さんは技师てす=>陈さんは技师てす应当理解,上述具体的展开步骤可以有多种变化,例如可以不是按照句义表达式中语义单元的排列顺序而是类似语义分析时的顺序,先将不带参数或者参数已经被展开了的语义单元展开,然后层层递归地展开所有语义单元。
通过以上对本发明的描述可以看出,通过将原文转换为句义表达式,本发明的机器翻译方法,可以同时完成多个目的语种译文的翻译工作,只要语义单元表示库中有相应语种的语义单元表示。
根据本发明的另一个实施例,在将原文的句子转换为句义表达式后,还包括将该句义表达式保存在存储设备中的步骤,知道原文的一个段落或全部的语句被转换或保存后,再进行按需地展开为目标语种的语句。换句话说,首先对原文进行语义分析,将形成的句义表达式集合保存起来,在需要的时候按照需要的语种展开成为自然语言。
图5是根据本发明的一个实施例的基于语义的机器翻译系统的示意方块图。如图5所示,本发明该实施例的机器翻译系统包括原文存储器501,用于保存待译的原文;语义单元表示库506,用于记录语义单元对应的两个或两个以上语种的语义表示;语义分析器504,用于按照语义单元表示库506中记录的语义单元的原始语种的语义单元表示,将原文中的语句分析转换成句义表达式;句义表达式存储器502,用于保存语义分析器504分析转换后的句义表达式;语义展开器505,用于按照语义单元表示库506中记录的目的语种的语义表示,将句义表达式展开为目的语种的语句;译文输出装置503,用于将语义展开器505展开的目的语种的语句作为译文输出。
本领域技术人员可以理解,上述机器翻译系统可以是计算机或其他具有处理能力的计算设备。该计算设备应当包括处理器、存储器和相应的输入输出设备。而上述机器翻译系统中的组成部分,可以通过硬件或软件形式实现。当然,用户可以通过网络来使用它,也可以利用它来帮助用户搜索、阅读或者翻译网上的信息。
另外,众所周知,通过提供带有记录了可以实现前述实施例功能的软件程序代码的记录媒体的系统或装置就可以实现本发明的目的。所述程序代码可以由计算机读取,并且可以使系统和装置中的计算机(或CPU,或MPU)读取存储在记录媒体中的程序并且根据程序代码执行命令。在这种情况下,从记录媒体中读出的程序代码实现前述实施例的功能,并且其中记录了该程序代码的记录媒体构成了本发明。用于记录程序代码或诸如表的可变数据的记录媒体可以使磁盘(如软盘或硬盘)、光盘、或任何非易失性存储卡。
以上通过本发明的具体实施例对本发明的原理、特征和优点进行了描述。应当理解本发明不仅仅限于上述的具体实施例,还可以有多种变化,并且具体实施步骤也可以有区别。本发明的保护范围仅由所附的权利要求限定。
权利要求
1.一种基于语义的自然语言机器翻译方法,用于将原始语种的原文自动地翻译成一个或多个目的语种的译文,该方法包括如下步骤提取原文的一句;根据语义单元表示库,对该句进行语义分析,从而得到该句的句义表达式;根据语义单元表示库,将该句义表达式用目的语种的语义单元表示进行展开;将展开后的句子作为译文输出。
2.根据权利要求1的机器翻译方法,其中所述语义单元表示库中记录了语义单元ID和语义单元的两种或两种以上语种的语义单元表示。
3.根据权利要求2的机器翻译方法,其中所述语义单元表示库中还记录了语义单元所包含的参数的个数和各参数的类型。
4.根据权利要求1的机器翻译方法,其中所述语义分析步骤进一步包括从语义单元表示库中找出全部与原文的句子中相匹配的语义单元表示及其对应的语义单元;对无参数的语义单元表示或者参数已经被替换的语义单元表示用对应的语义单元进行替换;重复上述替换步骤直到全部语义单元表示被替换完毕,从而形成句义表达式。
5.根据权利要求1的机器翻译方法,其中所述展开步骤进一步包括扫描句义表达式,取出一个尚未展开的语义单元;从语义单元表示库找出该语义单元的目的语种的语义单元表示,并且按照该语义单元表示进行展开;重复上述扫描和展开步骤,直到该句义表达式的全部语义单元被展开。
6.根据权利要求1的机器翻译方法,其中在所述语义分析步骤后还包括保存得到的句义表达式的步骤。
7.一种基于语义的自然语言机器翻译系统,用于将原始语种的原文自动地翻译成一个或多个目的语种的译文,该系统包括原文存储器,用于保存待译的原文;语义单元表示库,用于记录语义单元对应的两个或两个以上语种的语义单元表示;语义分析器,用于按照语义单元表示库中记录的语义单元的原始语种的语义单元表示,将原文中的语句分析转换成句义表达式;语义展开器,用于按照语义单元表示库中记录的目的语种的语义单元表示,将句义表达式展开为目的语种的语句。
8.根据权利要求7的机器翻译系统,其中该系统进一步包括句义表达式存储器,用于保存所述语义分析器分析转换后的句义表达式。
9.根据权利要求7的机器翻译系统,其中该系统进一步包括译文输出装置,用于将语义展开器展开的目的语种的语句作为译文输出。
10.一种计算机可读的记录媒体,记录了使计算机执行基于语义的自然语言机器翻译方法的可执行程序,所述机器翻译方法包括以下步骤提取原文的一句;根据语义单元表示库,对该句进行语义分析,从而得到该句的句义表达式;根据语义单元表示库,将该句义表达式用目的语种的语义单元表示进行展开;将展开后的句子作为译文输出。
11.根据权利要求10的计算机可读的记录媒体,其中所述机器翻译方法涉及的语义单元表示库中记录了语义单元ID和语义单元的两种或两种以上语种的语义单元表示。
12.根据权利要求11的计算机可读的记录媒体,其中所述机器翻译方法涉及的语义单元表示库中还记录了语义单元所包含的参数的个数和各参数的类型。
13.根据权利要求10的计算机可读的记录媒体,其中所述语义分析步骤进一步包括从语义单元表示库中找出全部与原文的句子中相匹配的语义单元表示及其对应的语义单元;对无参数的语义单元表示或者参数已经被替换的语义单元表示用对应的语义单元进行替换;重复上述替换步骤直到全部语义单元表示被替换完毕,从而形成句义表达式。
14.根据权利要求10的计算机可读的记录媒体,其中所述展开步骤进一步包括扫描句义表达式,取出一个尚未展开的语义单元;从语义单元表示库找出该语义单元的目的语种的语义单元表示,并且按照该语义单元表示进行展开;重复上述扫描和展开步骤,直到该句义表达式的全部语义单元被展开。
15.根据权利要求10的计算机可读的记录媒体,其中在所述语义分析步骤后还包括保存得到的句义表达式的步骤。
全文摘要
一种基于语义的自然语言机器翻译方法,用于将原始语种的原文自动地翻译成一个或多个目的语种的译文,该方法包括如下步骤提取原文的一句;根据语义单元表示库,对该句进行语义分析,从而得到该句的句义表达式;根据语义单元表示库,将该句义表达式用目的语种的语义单元表示进行展开;将展开后的句子作为译文输出。本发明机器翻译方法可以高效的同时翻译多种目的语种的译文。
文档编号G06F17/28GK1428721SQ01131689
公开日2003年7月9日 申请日期2001年12月27日 优先权日2001年12月27日
发明者高庆狮, 胡玥, 高小宇 申请人:高庆狮, 胡玥, 高小宇
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1