本发明涉及人工智能机器翻译技术领域,具体来说,涉及一种多语言智能预处理实时统计机器翻译系统的预处理模块。
背景技术:
机器翻译是利用计算机对人类自然语言进行自动翻译的技术,是利用计算机把一种自然语言转换成另一种自然语言的过程,而且两种自然语言在意义上应该是等价的。
目前,一种比较成熟而且主流的机器翻译方法是基于统计的方法,该方法的优点在于几乎不需要人工撰写翻译规则,所有的翻译信息都是自动地从语料中学习而获得,因此该方法最大程度地发挥了计算机高速运算的特点,极大地降低了人工成本。
基于统计模型的机器翻译技术从平行语料库中学习从一种语言a到另一种语言b的短语翻译。在翻译新的句子时,把输入语言a的句子分解成若干短语,根据学习来的短语(a语言)-短语(b语言)的共现概率,把语言a的句子翻译成语言b的句子。整个学习、翻译过程完全根据统计模型。
目前机器翻译的预处理模块功能不并完善,大多是在接收模块接收之后进行简单的错别字判断、标点预测之后即由翻译模块进行训练和翻译,这样不仅增加了机器翻译的难度,而且对于小概率词语,翻译模块可能会出现翻译不准确的问题。
技术实现要素:
针对相关技术中的上述技术问题,本发明提出一种一种多语言智能预处理实时统计机器翻译系统的预处理模块,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种多语言智能预处理实时统计机器翻译系统的预处理模块,所述预处理模块包括文本预处理模块和语音识别结果预处理模块,所述文本预处理模块用于对文本输入的语言进行单词规范化操作、类别识别标注及语块语序调整;所述语音识别结果预处理模块用于对语音进行单词规范化操作和标点预测。
进一步的,所述文本预处理模块包括单词规范化子模块,所述单词规范化子模块用于使待翻译语言在词语层面上更加接近目标语言。
优选的,当待翻译语言为中文,翻译目标语言是英语时,文本预处理模块对中文进行分词,并在词语间插入空格。
优选的,当待翻译语言为德语,翻译目标语言是英语时,文本预处理模块对德语中的复合词进行拆分,并增加德语与英语句子中词语一对一的对应关系。
进一步的,所述文本预处理模块还包括类别识别标注子模块,所述类别识别标注子模块用于对待翻译语言文本中的数字、日期、时间、url分别标注为$number,$date,$hour和$www,并预先将类别中的内容翻译成目标语言。
进一步的,所述文本预处理模块还包括语块语序调整子模块,所述语块语序调整子模块用于对待翻译语言的句子进行语法分析,然后依据自动学习的规则对待翻译语言的语块顺序进行调整,使得待翻译语言的语序更加接近目标语言的语序。
优选的,所述的语法分析包括短语的自动识别和/或语法树的生成。
优选的,所述待翻译语言的句子经过语块语序调整子模块调整语序后以最优语序输出,或者把若干个较优语序以字格形式输出。
进一步的,所述的语音识别结果预处理模块包括单词规范化子模块,所述单词规范化子模块用于使待翻译语言句子中的词语颗粒更加接近目标语言的词语。
优选的,所述的语音识别结果预处理模块还包括标点预测子模块,所述标点预测子模块用于根据上下文和词语间的停顿判断语音识别输出中句号的位置。
本发明的有益效果:本发明的预处理模块能够对待翻译的文本语言进行单词规范化操作、类别识别标注以及语块语序调整等基本操作,方便后续翻译模块对待翻译语言文本的翻译;或者对语音语言进行单词规范化操作或者对语音流中的标点进行预测等预处理,方便后续机器翻译模块的翻译;本发明预处理模块对小概率词语进行标注并优先翻译,能够提高对小概率词语翻译的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的文本预处理模块的流程图;
图2是根据本发明实施例所述的语音识别结果预处理模块的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1-2所示,根据本发明实施例所述的一种多语言智能预处理实时统计机器翻译系统的预处理模块,所述预处理模块包括文本预处理模块和语音识别结果预处理模块,所述文本预处理模块用于对文本输入的语言进行单词规范化操作、类别识别标注及语块语序调整;所述语音识别结果预处理模块用于对语音进行单词规范化操作和标点预测。其中,所述文本预处理模块包括单词规范化子模块、类别识别标注子模块和语块语序调整子模块,所述单词规范化子模块用于使待翻译语言在词语层面上更加接近目标语言;所述类别识别标注子模块用于对待翻译语言文本中的数字、日期、时间、url分别标注为$number,$date,$hour和$www,并预先将类别中的内容翻译成目标语言;所述语块语序调整子模块用于对待翻译语言的句子进行语法分析,然后依据自动学习的规则对待翻译语言的语块顺序进行调整,使得待翻译语言的语序更加接近目标语言的语序。所述的语音识别结果预处理模块包括单词规范化子模块和,标点预测子模块;所述单词规范化子模块用于使待翻译语言句子中的词语颗粒更加接近目标语言的词语;所述标点预测子模块用于根据上下文和词语间的停顿判断语音识别输出中句号的位置。
在一具体实施例中,当待翻译语言为中文,翻译目标语言是英语时,文本预处理模块对中文进行分词,并在词语间插入空格。
在一具体实施例中,当待翻译语言为德语,翻译目标语言是英语时,文本预处理模块对德语中的复合词进行拆分,并增加德语与英语句子中词语一对一的对应关系。
在一具体实施例中,所述的语法分析包括短语的自动识别和/或语法树的生成。
在一具体实施例中,所述待翻译语言的句子经过语块语序调整子模块调整语序后的句子以最优语序输出,或者把若干个较优语序以字格形式输出。
为了方便理解本发明的上述技术方案,以下通过具体使用方式上对本发明的上述技术方案进行详细说明。
在具体使用时,本发明的预处理模块用于对待翻译语言进行若干操作,使其更加接近翻译目标语言,以便后续的机器翻译模块取得更好地翻译质量。预处理模块包括文本预处理模块和语音识别结果预处理模块,文本预处理模块主要由三部分组成,如附图中图1所示。b.1单词规范化子模块使得待翻译语言a在词语层面上更加接近翻译目标语言b:比如进行中-英翻译时,中文要进行分词,在词语间插入空格,进行德-英翻译时,要对德语中的复合词进行拆分,增加德英句子中词语一对一的对应关系;b.2类别识别标注子模块把源语言a中的小概率词语,例如数字、日期、时间、url分别标注为对应的类别$number,$date,$hour和$www,类别内的内容由规则预先翻译成目标语言b,后续的机器翻译模块不再对其进行翻译。b.3语块语序调整子模块首先对源语言a的句子进行语法分析:进行短语的自动识别或语法树生成,然后依据自动学习的规则(基于短语的)对源语言的语块顺序进行调整,使得源语言的语序更加接近目标语言,经过语块语序调整子模块调整语序后的句子可以以最优语序输出,也可以把若干个较优语序以字格(lattice)形式输出,该模块为一个可选的模块,根据源语言是否具备性能良好的语法分析器等来决定是否开启该模块。语音识别结果预处理模块由两部分组成,如附图中图2所示。b.4单词规范化子模块和b.1单词规范化子模块相似,也是在源语言的词语层面上使待翻译语言a的语言句子中的词语颗粒更加接近翻译目标语言b的词语;b.5标点预测子模块根据上下文和词语间的停顿预测语音识别输出中的句号位置,该子模块为一可选模块,主要用于比较接近书面语的语音识别翻译中,例如用于对演讲的翻译。
其中,b.2类别识别标注子模块是基于双语的半自动类别识别和翻译。所谓半自动是指在双语中在源语言上以人工的方式定义出需要识别的类别;然后根据平衡语料库和词语比对(wordalignment)自动学习出在另一种语言中对应需要的类别和类别的翻译。以英中翻译为例,首先在英文上定义出需要识别的类别$number,$date,$hour,$www,每个类别的内容可以包含若干的词。然后在中文上识别出所有的数字,标记为$bnumber,识别出和万维网相关的词www,http,.com等,标记为$bwww,此处的$bnumber和$bwww为中文中类别的核心,在此核心的基础上,还要包含进前后的词语,才能构成最终和英文中类别相对应的中文类别,包涵哪些前后词语,我们通过词语比对(wordalignment)自动抽取,在词语比对中和英文类别边界词相对应的中文词,也可能是中文类别的边界词语,确定了中文类别的边界词语,抽取出来的中文类别内容,也就隐含了对应的英文类别的中文翻译,我们从中学习英文类别到中文类别的翻译规则。例如:
$number{2个}→$number{2}
$number{2成}→$number{20%}
$number{第2}→$number{2nd}
改种方法提取出的规则更佳符合数据的实际情况,降低了人工定义的规则在实际应用中产生的错误,和传统在两种语言上分别定义类别和规则相比,提高了效率;而且也不要求规则制定人同时熟悉两种语言;还大大降低了在两种语言上的规则的不匹配率,从而提高了机器翻译质量。
b.3语块语序调整子模块在统计翻译系统中语序调整方面加入了语法的限制。当一种语言翻译成另一种语言时,由于语法的不同,表达习惯的不同,词语表达的顺序经常有所差别,在完成翻译时,除了要把词语或短语翻译成另一种语言,还要把翻译的短语放到合适的位置。在统计翻译系统中,其基本单位-短语-是任意词串,并不要求其符合语法结构,这导致挪动的语块再拼接起来经常产生很奇怪的翻译,本发明在预处理阶段通过浅层句法分析引入了符合语法规则的短语的信息,在后续的短语位置挪动步骤,只把符合语法约束的短语进行挪动,从而提高了翻译结果的正确性和流畅度。
其具体步骤为:
对源语言进行浅层句法分析,生成np(名词短语)、vp(动词短语)、pp(介词短语)等语法信息;
通过词语比对(wordalignment)学习词序调整规则,并每条规则的概率,学习到的规则,例如:
dnpnpvp–>dnpnpvp(0.89)
dnpnpvp–>npdnpvp(0.11)
即短语序列dnpnpvp短语顺序不变的概率为0.89,变为npdnpvp的概率为0.11;
应用这些规则到源语言输入句子上,不同的规则组合应用产生不同短语序列变化,所有的这些变化以字格(lattice)形式表示出来,根据规则的概率,计算出字格中的每条路径的概率,从而找出最优路径,或将整个字格网络作为后续机器翻译模块的新的输入。
综上所述,借助于本发明的上述技术方案,本发明的预处理模块能够对待翻译的文本语言进行单词规范化操作、类别识别标注以及语块语序调整等基本操作,方便后续翻译模块对待翻译语言文本的翻译;或者对语音语言进行单词规范化操作或者对语音流中的标点进行预测等预处理,方便后续机器翻译模块的翻译;本发明预处理模块对小概率词语进行标注并优先翻译,能够提高对小概率词语翻译的准确性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。