一种文本翻译方法、装置及设备与流程

文档序号:18105119发布日期:2019-07-06 11:36阅读:156来源:国知局
一种文本翻译方法、装置及设备与流程

本申请涉及机器翻译领域,具体涉及一种文本翻译方法、装置及设备。



背景技术:

文本翻译包括对文本中的数字词语的翻译,目前主流的机器翻译系统中对数字词语的翻译是直接将包含数字词语的文本输入到神经网络系统中进行翻译,具体的,首先对包含数字词语的文本进行切分处理,然后对切分后的文本进行翻译,得到包含数字词语的文本的翻译结果。

上述方式是将数字词语作为普通的字符串进行切分处理,在切分数字词语的过程中,可能将其切分为常见词和不常见词,而不常见词在翻译时容易被丢失等,导致通过上述方式对数字词语的翻译结果不准确。

因此,如何提高对数字词语翻译的准确性,是目前的机器翻译系统面临的一项难题。



技术实现要素:

有鉴于此,本申请提供了一种文本翻译方法、装置及设备,能够提高对数字词语翻译的准确性。

第一方面,本申请提供了一种文本翻译方法,所述方法包括:

确定待翻译文本中的数字词语;

将所述数字词语替换为预设占位符,并记录所述数字词语的位置信息;

对带有所述预设占位符的待翻译文本进行翻译,得到带有所述预设占位符的翻译结果;

根据所述数字词语的位置信息,将所述翻译结果中的所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式。

一种可选的实施方式中,所述将所述数字词语替换为预设占位符,包括:

确定所述数字词语的类型以及合法性;

根据所述数字词语的类型以及合法性,将所述数字词语替换为预设占位符。

一种可选的实施方式中,所述根据所述数字词语的类型以及合法性,将所述数字词语替换为预设占位符,包括:

根据所述数字词语的类型以及合法性,将所述数字词语规整为阿拉伯数字;

将所述阿拉伯数字替换为预设占位符;

相应的,所述记录所述数字词语的位置信息,具体为,记录由所述数字词语规整的阿拉伯数字的位置信息。

一种可选的实施方式中,所述根据所述数字词语的位置信息,将所述翻译结果中的所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式,包括:

根据由所述数字词语规整的阿拉伯数字的位置信息,确定所述翻译结果中的预设占位符对应的阿拉伯数字;

将所述预设占位符替换为所述阿拉伯数字或者所述阿拉伯数字的目标语言形式。

一种可选的实施方式中,所述根据所述数字词语的类型以及合法性,将所述数字词语替换为预设占位符,包括:

根据所述数字词语的类型以及合法性,将所述数字词语直接替换为预设占位符。

一种可选的实施方式中,所述根据所述数字词语的位置信息,将所述翻译结果中的所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式,包括:

根据所述数字词语的位置信息,确定所述翻译结果中的预设占位符对应的数字词语;

将所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式。

一种可选的实施方式中,所述将所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式,包括:

将所述预设占位符替换为所述数字词语;

根据所述数字词语的类型以及合法性,将所述数字词语规整为阿拉伯数字。

一种可选的实施方式中,所述确定所述数字词语的类型以及合法性,包括:

确定所述数字词语是否属于预设类型,以及是否符合各个预设类型的合法性;所述预设类型包括整数类型、数字串类型和\或小数类型。

一种可选的实施方式中,所述确定所述数字词语是否属于预设类型,以及是否符合各个预设类型的合法性,包括:

判断所述数字词语是否包括位数词,如果是,则确定所述数字词语属于整数类型;所述位数词为用于作为单位的数字词;

以及,判断所述数字词语是否符合所述整数类型的预设合法条件,如果是,则确定所述数字词语属于所述整数类型且合法。

一种可选的实施方式中,所述确定所述数字词语是否属于预设类型,以及是否符合各个预设类型的合法性,包括:

依次遍历所述数字词语中的各个数字词,判断各个数字词是否均属于零到九之间的任意数字词;

如果各个数字词均属于零到九之间的任意数字词,则确定所述数字词语属于数字串类型且合法。

一种可选的实施方式中,所述确定所述数字词语是否属于预设类型,以及是否符合各个预设类型的合法性,包括:

判断所述数字词语是否包含汉字“点”,如果是,则确定所述数字词语属于小数类型;

以及,判断所述数字词语的整数部分是否符合整数类型的预设合法条件,且所述数字词语的小数部分的各个数字词是否均属于零到九之间的任意数字词,如果是,则确定所述数字词语属于所述小数类型且合法。

一种可选的实施方式中,所述根据所述数字词语的位置信息,将所述翻译结果中的所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式,包括:

根据所述数字词语的位置信息,确定所述翻译结果中的预设占位符对应的数字词语;

如果所述数字词语属于数字串类型,或者,所述数字词语属于整数类型且转换为阿拉伯数字形式后最后至少包括预设个数连续的零,则利用所述数字词语的目标语言形式替换对应的预设占位符。

一种可选的实施方式中,所述数字词语包括至少n个数字词,所述n为预设正整数。

第二方面,本申请提供了一种文本翻译装置,所述装置包括:

确定模块,用于确定待翻译文本中的数字词语;

第一替换模块,用于将所述数字词语替换为预设占位符;

记录模块,用于记录所述数字词语的位置信息;

翻译模块,用于对带有所述预设占位符的待翻译文本进行翻译,得到带有所述预设占位符的翻译结果;

第二替换模块,用于根据所述数字词语的位置信息,将所述翻译结果中的所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式。

一种可选的实施方式中,所述第一替换模块,包括:

第一确定子模块,用于确定所述数字词语的类型以及合法性;

第一替换子模块,用于根据所述数字词语的类型以及合法性,将所述数字词语替换为预设占位符。

一种可选的实施方式中,所述第一替换子模块,包括:

第一规整子模块,用于根据所述数字词语的类型以及合法性,将所述数字词语规整为阿拉伯数字;

第二替换子模块,用于将所述阿拉伯数字替换为预设占位符;

相应的,所述记录模块,具体用于记录由所述数字词语规整的阿拉伯数字的位置信息。

一种可选的实施方式中,所述第二替换模块,包括:

第二确定子模块,用于根据由所述数字词语规整的阿拉伯数字的位置信息,确定所述翻译结果中的预设占位符对应的阿拉伯数字;

第三替换子模块,用于将所述预设占位符替换为所述阿拉伯数字或者所述阿拉伯数字的目标语言形式。

一种可选的实施方式中,所述第一替换子模块,具体用于:

根据所述数字词语的类型以及合法性,将所述数字词语直接替换为预设占位符。

一种可选的实施方式中,所述第二替换模块,包括:

第三确定子模块,用于根据所述数字词语的位置信息,确定所述翻译结果中的预设占位符对应的数字词语;

第四替换子模块,用于将所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式。

一种可选的实施方式中,所述第四替换子模块,包括:

第五替换子模块,用于将所述预设占位符替换为所述数字词语;

第二规整子模块,用于根据所述数字词语的类型以及合法性,将所述数字词语规整为阿拉伯数字。

一种可选的实施方式中,所述第一确定子模块,具体用于:

确定所述数字词语是否属于预设类型,以及是否符合各个预设类型的合法性;所述预设类型包括整数类型、数字串类型和\或小数类型。

一种可选的实施方式中,所述第一确定子模块,包括:

第一判断子模块,用于判断所述数字词语是否包括位数词;所述位数词为用于作为单位的数字词;

第四确定子模块,用于在所述第一判断子模块的结果为是时,确定所述数字词语属于整数类型;

第二判断子模块,用于判断所述数字词语是否符合所述整数类型的预设合法条件;

第五确定子模块,用于在所述第二判断子模块的结果为是时,确定所述数字词语属于所述整数类型且合法。

一种可选的实施方式中,所述第一确定子模块,包括:

第三判断子模块,用于依次遍历所述数字词语中的各个数字词,判断各个数字词是否均属于零到九之间的任意数字词;

第六确定子模块,用于在所述第三判断子模块的结果为是时,确定所述数字词语属于数字串类型且合法。

一种可选的实施方式中,所述第一确定子模块,包括:

第四判断子模块,用于判断所述数字词语是否包含汉字“点”;

第七确定子模块,用于在所述第四判断子模块的结果为是时,确定所述数字词语属于小数类型;

第五判断子模块,用于判断所述数字词语的整数部分是否符合整数类型的预设合法条件,且所述数字词语的小数部分的各个数字词是否均属于零到九之间的任意数字词;

第八确定子模块,用于在所述第五判断子模块的结果为是时,确定所述数字词语属于所述小数类型且合法。

一种可选的实施方式中,所述第二替换模块,包括:

第九确定子模块,用于根据所述数字词语的位置信息,确定所述翻译结果中的预设占位符对应的数字词语;

第六替换子模块,用于在所述数字词语属于数字串类型,或者,所述数字词语属于整数类型且转换为阿拉伯数字形式后最后至少包括预设个数连续的零时,利用所述数字词语的目标语言形式替换对应的预设占位符。

一种可选的实施方式中,所述数字词语包括至少n个数字词,所述n为预设正整数。

第三方面,本申请还提供了一种文本翻译设备,包括:处理器、存储器、系统总线;所述处理器以及所述存储器通过所述系统总线相连;

所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述任一项所述的方法。

第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述任一项所述的方法。

第五方面,本申请还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述任一项所述的方法。

本申请提供的文本翻译方法中,首先接收待翻译文本,并确定待翻译文本中的数字词语,其次,利用预设占位符替换数字词语,并记录数字词语的位置信息,再次,对带有预设占位符的待翻译文本进行翻译,得到带有预设占位符的翻译结果,最后,根据数字词语的位置信息,将翻译结果中的预设占位符替换为数字词语的阿拉伯数字形式或者目标语言形式,完成文本翻译。由于本申请在对待翻译文本进行翻译之前利用预设占位符替换了数字词语,避免了因数字词语被作为普通文本进行切分处理导致的翻译不准确问题,因此,利用本申请提供的文本翻译方法能够提高数字词语翻译的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文本翻译方法的流程图;

图2为本申请实施例提供的另一种文本翻译方法的流程图;

图3为本申请实施例提供的另一种文本翻译方法的流程图;

图4为本申请实施例提供的一种文本翻译装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

方法实施例

参见图1,为本申请实施例提供的一种文本翻译方法的流程图,该方法包括:

s101:确定待翻译文本中的数字词语。

本申请实施例中,待翻译文本可以为普通文本数据,也可以为语音数据经过语音识别后得到的文本数据,本申请对待翻译文本的来源形式等不做限定。

本申请实施例中,数字词语是由数字词或“点”组成的词语,数字词是指汉字零至九之间的数字、十、百、千、万、亿等。例如,待翻译文本“我在二零一七年到这里学习”中的“二零一七”是由数字词二、零、一和七组成的词语,所以“二零一七”属于本申请实施例中的数字词语。

一种可选的实施方式中,可以通过预设正则表达式与待翻译文本进行匹配,确定待翻译文本中的数字词语。具体的,预先将数字词语可能包括的数字词写成正则表达式,通过正则表达式与待翻译文本进行匹配,提取匹配成功的词语,并确定为待翻译文本中的数字词语。具体的,正则表达式可以为“(零|一|二|三|四|五|六|七|八|九|十|百|千|万|亿|点)+”,其中“|”表示“或”,“+”表示可以匹配正则表达式(即括号中的表达式)一次或者多次。

举例说明,对于上述待翻译文本“我在二零一七年到这里学习”,通过与上述正则表达式进行匹配,确定“二零一七”为待翻译文本中的数字词语。匹配过程可以包括依次检查待翻译文本中的每个字是否在正则表达式的匹配范围之内,即依次检查待翻译文本中的每个字是否为上述正则表达式中定义的各个数字词或“点”。具体的,首先确定待翻译文本“我在二零一七年到这里学习”中的“我在”不属于上述正则表达式的匹配范围之内,继续匹配“二”时,确定“二”属于上述正则表达式的匹配范围之内,并保存“二”在该待翻译文本中的位置,对于“零”、“一”和“七”也做相同的匹配和保存,直到匹配到“年”时,确定“年”不属于上述正则表达式的匹配范围之内,则中止匹配,并提取“年”之前的“七”与“二”之间的内容“二零一七”作为匹配结果,并将该匹配结果确定为该待翻译文本中的一个数字词语。值得注意的是,在确定一个数字词语“二零一七”后,还需要执行上述方式继续匹配该待翻译文本中的其他字,直到完成对整个待翻译文本的匹配为止。

实际应用中,对于待翻译文本中包含繁体字的数字词语时,需要将繁体字转换为简体字后执行上述匹配过程,在此不再赘述。

另外,由于包含数字词数量较少的数字词语,直接利用机器翻译系统进行翻译时被切分处理的几率相对较小,一定程度上能够降低翻译不准确问题的发生几率。因此,本申请实施例可以将包含数字词数量较少的数字词语不作为本申请实施例的处理对象,而是作为普通文本直接利用机器翻译系统进行翻译。具体的,本申请实施例可以只确定待翻译文本中至少包括n个数字词的数字词语作为处理对象。其中,n为预设正整数。举例说明,假设n为5,而“二零一七”包括4个数字词,则待翻译文本“我在二零一七年到这里学习”中的“二零一七”不属于本申请实施例确定的数字词语。

s102:将所述数字词语替换为预设占位符,并记录所述数字词语的位置信息。

由于数字词语作为普通文本直接进行翻译会被切分处理,导致数字词语的翻译不准确,因此,本申请实施例在对待翻译文本进行翻译之前,首先利用预设占位符替换待翻译文本中的数字词语,使得数字词语不会在翻译时被切分处理,提高翻译的准确性。具体的,将数字词语替换为预设占位符的方法在后面进行介绍。

本申请实施例中,预设占位符用于在待翻译文本中占住一个固定的位置,对于预设占位符的具体形式不做限定,例如,预设占位符可以为_$_number等。其中,用于替换各个数字词语的预设占位符可以为同一占位符。

由于将数字词语替换为预设占位符,并完成带有预设占位符的待翻译文本的翻译后,得到带有预设占位符的翻译结果,而翻译结果中的预设占位符还需要被换回,因此,将数字词语替换为预设占位符,还需要记录该数字词语的位置信息,以便后续根据该数字词语的位置信息将预设占位符换回。

具体的,数字词语的位置信息可以用于表明该数字词语与预设占位符的对应关系。例如,数字词语的位置信息可以为待翻译文本的第l个预设占位符,l为正整数,则可以表明该数字词语与待翻译文本的第l个占位符具有对应关系。值得注意的是,本申请对于数字词语的位置信息的其他形式不做限定。

s103:对带有所述预设占位符的待翻译文本进行翻译,得到带有所述预设占位符的翻译结果。

本申请实施例中,在将待翻译文本中的数字词语替换为预设占位符后,得到带有预设占位符的待翻译文本,将带有预设占位符的待翻译文本进行翻译,得到带有预设占位符的翻译结果,其中,在对待翻译文本进行翻译的过程中,预设占位符不做处理。

实际应用中,可以使用神经网络翻译系统、统计机器翻译系统等机器翻译系统对带有预设占位符的待翻译文本进行翻译,得到带有预设占位符的翻译结果。

以使用神经网络翻译系统进行翻译为例,本申请实施例预先需要采集大量的文本数据作为训练样本,对神经网络翻译系统进行训练,具体的,在对神经网络进行训练之前,首先将训练样本中的数字词语替换为预设占位符,利用大量带有预设占位符的训练样本对神经网络翻译系统进行训练,得到经过训练的神经网络翻译系统。由于训练样本中包含大量的预设占位符,所以利用经过训练的神经网络翻译系统进行翻译时,不会出现由于占位符出现频率低导致翻译丢失的不准确问题。实际翻译过程中,将带有预设占位符的待翻译文本输入至经过训练的神经网络翻译系统,经过神经网络翻译系统的翻译后,输出带有预设占位符的翻译结果。

以中英翻译为例说明上述翻译过程,对于待翻译文本“我有二十块钱”,首先,将数字词语“二十”替换为预设占位符“_$_number”,其次,对带有预设占位符的待翻译文本“我有_$_number块钱”进行翻译,得到带有预设占位符的翻译结果“ihave_$_numberdollar”。

s104:根据所述数字词语的位置信息,将所述翻译结果中的所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式。

本申请实施例中,在得到带有预设占位符的翻译结果后,根据记录的数字词语的位置信息,将翻译结果中的预设占位符替换为数字词语的阿拉伯数字形式或者目标语言形式,实现对待翻译文本中的数字词语的翻译。

由于阿拉伯数字是世界范围内通用的数字形式,所以,将数字词语翻译为阿拉伯数字能够提高使用者的理解度。

本申请实施例提供的文本翻译方法中,首先接收待翻译文本,并确定待翻译文本中的数字词语,其次,利用预设占位符替换数字词语,并记录数字词语的位置信息,再次,对带有预设占位符的待翻译文本进行翻译,得到带有预设占位符的翻译结果,最后,根据数字词语的位置信息,将翻译结果中的预设占位符替换为数字词语的阿拉伯数字形式或者目标语言形式,完成文本翻译。由于本申请实施例在对待翻译文本进行翻译之前利用预设占位符替换了数字词语,避免了因数字词语被作为普通文本进行切分处理导致的翻译不准确问题,因此,利用本申请实施例提供的文本翻译方法能够提高数字词语翻译的准确性。

由于数字词语的类型以及合法性,对数字词语的翻译准确性存在影响,所以,为了进一步提高对数字词语翻译的准确性,本申请实施例可以根据数字词语的类型以及合法性,对数字词语进行翻译。具体的,首先确定数字词语的类型以及合法性,然后根据数字词语的类型以及合法性,将数字词语替换为预设占位符。

基于此,本申请实施例提供了以下两种文本翻译方法的具体实现方式,但不作为对本申请实施方式的限制。

参考图2,为本申请实施例提供的一种文本翻译方法的流程图。该方法具体包括:

s201:确定待翻译文本中的数字词语。

s202:确定所述数字词语的类型以及合法性。

实际应用中,由于数字词语的类型以及合法性,对数字词语的翻译准确性存在影响,因此,本申请实施例在确定待翻译文本中的数字词语后,首先确定数字词语的类型以及合法性。

一种实施方式中,首先确定待翻译文本中的数字词语是否属于预设类型。其中,预设类型包括整数类型、数字串类型和小数类型中的任意一个或组合。其次,确定属于任一预设类型的数字词语是否符合该预设类型的合法性。

下面分别对确定数字词语是否属于各个预设类型的方法以及是否符合各个预设类型的合法性的方法进行具体介绍。

第一、对于数字词语是否属于整数类型以及是否符合整数类型的合法性的判断方法,包括:首先判断数字词语是否包括位数词,如果该数字词语包括位数词,则确定该数字词语属于整数类型;在确定该数字词语属于整数类型后,进一步判断该数字词语是否符合整数类型的预设合法条件,如果该数字词语符合整数类型的预设合法条件,则确定该数字词语属于整数类型且合法。其中,位数词是指可以作为单位的数字词,包括十、百、千、万、亿,或者由上述位数词组成的数字词,如千万、千亿等。

实际应用中,对数字词语进行逐字遍历,以确定该数字词语中是否包括位数词,如果是,则确定该数字词语属于整数类型。进一步的,确定属于整数类型的数字词语是否符合整数类型的预设合法条件。具体的,首先,将该数字词语以预设标准进行切分,得到切分后数字词语,其中,预设标准可以为不小于万的位数词。其次,判断该数字词语中的各个切分后数字词语是否符合预设合法子条件;其中,预设合法子条件包括该数字词语中第一个切分后数字词语以非零的数字词开头,且各个切分后数字词语中千、百、十的系数词以及个位的数字词均为单个个位数。如果确定该数字词语中的各个切分后数字词语均符合上述预设合法子条件,则可以确定该数字词语属于整数类型且合法。其中,系数词是指可以作为位数词的系数的数字词,例如包括零到十。值得注意的是,“十”不仅能够作为位数词,也可以作为系数词。

举例说明,对于数字词语“四十五亿三千万”,首先对其进行逐字遍历,确定该数字词语包括位数词“亿”后,确定该数字词语属于整数类型。其次,在遍历到不小于“万”的位数词“亿”和“千万”时,对其进行切分,得到切分后数字词语“四十五”和“三”。然后,确定第一个切分后数字词语“四十五”是以非零的数字词“四”开头,且“四十五”和“三”中位数词的系数“四”为单个个位数,个位的数字词“五”和“三”也均为单个个位数,所以,可以确定数字词语“四十五亿三千万”属于整数类型且合法。可以理解的是,确定属于整数类型的数字词语的合法性的核心是判断切分后得到的一万以下的数字词语的合法性。

第二、对于数字词语是否属于数字串类型以及是否符合数字串类型的合法性的判断方法,包括:依次遍历数字词语中的各个数字词,判断各个数字词是否均属于零到九之间的任意数字词,如果各个数字词均属于零到九之间的任意数字词,则确定该数字词语属于数字串类型且合法。

举例说明,对于数字词语“八二五六一三二二”,依次遍历该数字词语中的各个数字词,确定各个数字词均属于零到九之间的任意数字词,则可以确定该数字词语属于数字串类型且合法。

第三、对于数字词语是否属于小数类型以及是否符合小数类型的合法性的判断方法,包括:首先判断数字词语是否包含汉字“点”,如果是,则确定该数字词语属于小数类型。进一步的,判断属于小数类型的数字词语的整数部分是否符合整数类型的预设合法条件,且所述数字词语的小数部分的各个数字词是否均属于零到九之间的任意数字词,如果是,则确定该数字词语属于小数类型且合法。

值得注意的是,属于小数类型的数字词语的整数部分的合法性判断方法是按照上述整数类型的合法性判断方法实现的,而小数部分的合法性判断方法是按照上述数字串类型的合法性判断方法实现的,只有确定属于小数类型的数字词语的整数部分和小数部分均合法,才能确定该数字词语合法。

举例说明,对于数字词语“三点一四”,首先确定其包含汉字“点”,则可以确定该数字词语属于小数类型。进一步的,按照上述整数类型的合法性判断方法判断该数字词语的整数部分“三”是合法的,同时,按照上述数字串类型的合法性判断方法判断该数字词语的小数部分“一四”是合法的,则最终可以确定数字词语“三点一四”属于小数类型且合法。

对于上述各个预设类型以及合法性的确定方法的执行顺序不做限定,一种可选的实施方式中,首先可以确定数字词语是否属于整数类型,如果否,则确定该数字词语是否属于数字串类型,如果否,则确定该数字词语是否属于小数类型。如果该数字词语不属于上述任一种类型,则可以直接利用机器翻译系统对该数字词语进行翻译。

s203:根据所述数字词语的类型以及合法性,将所述数字词语规整为阿拉伯数字。

本申请实施例中,在确定数字词语的类型以及合法性后,首先根据该数字词语的类型以及合法性,将该数字词语规整为阿拉伯数字。

具体的,下面分别针对上述三种预设类型即整数类型、数字串类型和小数类型的规整方法进行介绍。

第一、在数字词语属于整数类型且合法的情况下,首先计算该数字词语中的各个位数词与对应系数词的乘积之和,然后,利用阿拉伯数字表示该乘积之和。

一种实现方式中,将属于整数类型的数字词语以预设标准进行切分后,得到各个切分后数字词语,对于每个切分后数字词语,则可以计算切分后数字词语中各个位数词与对应系数词的乘积之和,再加上该切分后数字词语的个位数,得到的值,即表示该切分后数字词语的值。以预设标准为不小于万的位数词为例,具体的,将属于整数类型的数字词语以不小于万的位数词进行切分后,得到的切分后数字词语即为小于一万的值,计算各个切分后数字词语中各个位数词(包括千、百、十)与对应系数词的乘积之和,再加上该切分后数字词语的位数词得到的值,即为该切分后数字词语的值。通过上述方式可以计算出该属于整数类型的数字词语进行切分后得到的各个切分后数字词语的值,最终,计算各个切分后数字词语的值与对应的位数词(如“万”、“亿”、“万万”、“万亿”、“亿亿”)的乘积之和,并利用阿拉伯数字表示即可。

举例说明,对于属于整数类型且合法的数字词语“三千四百万”,首先以不小于万的位数词对其进行切分得到切分后数字词语“三千四百”,然后,计算切分后数字词语“三千四百”中位数词“千”与对应的系数词“三”的乘积,以及位数词“百”与对应的系数词“四”的乘积,并将两个乘积相加得到的值3400,即表示切分后数字词语“三千四百”的值。计算切分后数字词语的值3400与对应的位数词“万”的乘积,并利用阿拉伯数字表示,即为34000000。

第二、在数字词语属于数字串类型且合法的情况下,将该数字词语中的每个汉字转换为对应的阿拉伯数字。

举例说明,对于属于数字串类型且合法的数字词语“八二五六一三二二”,将各个汉字直接转换为对应的阿拉伯数字即可完成规整,得到规整后的阿拉伯数字“82561322”。

第三、在数字词语属于小数类型且合法的情况下,计算该数字词语的整数部分中的各个位数词与对应系数词的乘积之和,并利用阿拉伯数字表示该乘积之和,将该数字词语的小数部分中的每个汉字转换为对应的阿拉伯数字,以及将该数字词语中的汉字“点”转换为“.”。

可以理解的是,属于小数类型且合法的数字词语的整数部分的规整方法是按照上述整数类型的规整方法实现的,而小数部分的规整方法是按照上述数字串类型的规整方法实现的,对于汉字“点”直接转换为“.”即可。将经过上述各个规整方法得到的值利用阿拉伯数字表示,即可完成对该数字词语的规整。

举例说明,对于属于小数类型且合法的数字词语“三点一四”,经过上述规整方法的规整后,得到阿拉伯数字“3.14”。

值得注意的是,上述对于预设类型的规整方法不作为对本申请的限制,本申请实施例还可以包括对预设类型的其他规整方法,也可以包括对其他数据类型的各种规整方法,在此不再赘述。

s204:将所述阿拉伯数字替换为预设占位符;并记录由所述数字词语规整的阿拉伯数字的位置信息。

本申请实施例中,在将数字词语规整为阿拉伯数字后,将该阿拉伯数字替换为预设占位符,得到带有预设占位符的待翻译文本,并记录该阿拉伯数字的位置信息。

具体的,记录的阿拉伯数字的位置信息可以用于表明该阿拉伯数字与预设占位符的对应关系,事实上,该阿拉伯数字的位置信息也能够用于表明被规整为该阿拉伯数字的数字词语与预设占位符的对应关系。一种实现方式中,阿拉伯数字的位置信息可以为待翻译文本的第l个预设占位符,l为正整数,该阿拉伯数字的位置信息可以表明该阿拉伯数字与待翻译文本的第l个占位符具有对应关系。值得注意的是,本申请实施例对于阿拉伯数字的位置信息的其他形式不做限定。

s205:对带有所述预设占位符的待翻译文本进行翻译,得到带有所述预设占位符的翻译结果。

s206:根据由所述数字词语规整的阿拉伯数字的位置信息,确定所述翻译结果中的预设占位符对应的阿拉伯数字。

本申请实施例中,由于对待翻译文本进行翻译时对其中的预设占位符不作处理,所以翻译结果中仍带有预设占位符。对于翻译结果中的预设占位符,本申请实施例需要将其替换回对应的阿拉伯数字。

实际应用中,在将翻译结果中的预设占位符替换回对应的阿拉伯数字之前,首先根据记录的阿拉伯数字的位置信息,确定翻译结果中的预设占位符对应的阿拉伯数字。例如,记录的阿拉伯数字的位置信息为第l个预设占位符,则可以确定翻译结果中第l个预设占位符对应该阿拉伯数字。

一种实施方式中,翻译结果可以带有多个预设占位符,本申请实施例可以根据记录的多个阿拉伯数字的位置信息,确定翻译结果中的多个预设占位符分别对应的阿拉伯数字。实际应用中,可以对该翻译结果进行逐字遍历,每遍历到一个预设占位符,则查询记录的阿拉伯数字的位置信息,确定该预设占位符对应的阿拉伯数字,直到该翻译结果中的各个预设占位符均完成对应的阿拉伯数字的确定为止。

s207:将所述预设占位符替换为所述阿拉伯数字或者所述阿拉伯数字的目标语言形式。

本申请实施例中,在确定翻译结果中的预设占位符对应的阿拉伯数字之后,将该预设占位符替换为该阿拉伯数字,完成数字词语的翻译。也就是说,通过上述处理,待翻译文本中的数字词语被翻译为阿拉伯数字。

另外,本申请实施例中,还可以在将翻译结果中的预设占位符替换为阿拉伯数字之后,进一步的将该阿拉伯数字转换为目标语言形式,完成数字词语的翻译。也就是说,通过上述处理,待翻译文本中的数字词语被翻译为目标语言形式。例如,在对待翻译文本进行中英翻译时,英文即为目标语言,通过上述处理,待翻译文本中的数字词语最终被翻译为英文形式。值得注意的是,对于属于小数类型的数字词语通常不需要翻译为目标语言形式,而是翻译为阿拉伯数字即可。

为了避免赘述,上述实施例中的s201可参照s101中的描述进行理解,s205可参照s103中的描述进行理解。

本申请实施例提供的文本翻译方法中,在对待翻译文本进行翻译之前,预先根据数字词语的类型以及合法性,将数字词语规整为阿拉伯数字,并将阿拉伯数字替换为预设占位符,在得到翻译结果后,将翻译结果中的预设占位符替换回对应的阿拉伯数字或目标语言形式,完成文本翻译。由于本申请实施例在对待翻译文本进行翻译之前利用预设占位符替换了由数字词语规整的阿拉伯数字,避免了因数字词语被作为普通文本进行切分处理导致的翻译不准确问题,因此,利用本申请实施例提供的文本翻译方法能够提高数字词语翻译的准确性。

区别于上述实施例的具体实现,以下本申请实施例提供了另一种文本翻译方法,具体的,在对待翻译文本进行翻译之前,预先根据数字词语的类型以及合法性,直接将数字词语替换为预设占位符,在得到翻译结果后,将翻译结果中的预设占位符替换回对应的数字词语,再根据数字词语的类型以及合法性,将数字词语规整为阿拉伯数字或者目标语言形式。可见,与上述实施例相比,本申请实施例主要对于将数字词语规整为阿拉伯数字的执行时机不同,但并不影响本申请实施例能够提高数字词语翻译准确性的效果。以下对该实施例进行具体介绍。

参考图3,为本申请实施例提供的另一种文本翻译方法的流程图。该方法具体包括:

s301:确定待翻译文本中的数字词语。

s302:确定所述数字词语的类型以及合法性。

s303:根据所述数字词语的类型以及合法性,将所述数字词语直接替换为预设占位符,并记录所述数字词语的位置信息。

本申请实施例中,在确定数字词语的类型以及合法性后,根据该数字词语的类型以及合法性,将该数字词语直接替换为预设占位符,并记录该数字词语的位置信息。其中,数字词语的位置信息的实现方式可以参照上述实施例中的s102进行理解,在此不再赘述。

实际应用中,由于不是所有类型的数字词语都可以通过预设占位符替换的形式提高翻译的准确性,因此,在将数字词语替换为预设占位符之前,首先确定该数字词语是否属于预设类型,以及是否符合该预设类型的合法性,如果是,则将该数字词语直接替换为预设占位符,并记录该数字词语的位置信息。对于不属于预设类型或者不符合预设类型的合法性的数字词语,可以通过其他方式进行翻译,本申请不做限制。

s304:对带有所述预设占位符的待翻译文本进行翻译,得到带有所述预设占位符的翻译结果。

s305:根据所述数字词语的位置信息,确定所述翻译结果中的预设占位符对应的数字词语。

本申请实施例中,对于翻译结果中的预设占位符需要被替换回对应的数字词语,因此,在将其替换回对应的数字词语之前,首先根据记录的数字词语的位置信息,确定翻译结果中的预设占位符对应的数字词语。具体的,可以通过对翻译结果逐字遍历的方式,将遍历到的预设占位符替换为对应的数字词语,其中,翻译结果中可以带有一个或多个预设占位符。

s306:将所述预设占位符替换为所述数字词语。

本申请实施例中,为了实现将翻译结果中的预设占位符替换为对应的数字词语的阿拉伯数字形式或者目标语言形式,首先需要将翻译结果中的预设占位符替换回对应的数字词语。

s307:根据所述数字词语的类型以及合法性,将所述数字词语规整为阿拉伯数字。

一种可选的实施方式中,本申请实施例在将数字词语规整为阿拉伯数字后,还可以将该阿拉伯数字转换为目标语言形式,实现将待翻译文本中的数字词语翻译为目标语言的效果。

为了避免赘述,上述实施例中的s301可参照s101中的描述进行理解,s302可参照s202中的描述进行理解;s304可参照s103中的描述进行理解;s307可参照s203中的描述进行理解。

另外,本申请提供的文本翻译方法能够在保证数字词语翻译准确性的基础上,进一步提高数字词语的翻译友善度。

一种可选的实施方式中,由于属于数字串类型的数字词语被规整为阿拉伯数字后可能会被误认为整数,例如,属于数字串类型的数字词语“一二三四五”,可以规整为阿拉伯数字“12345”,而阿拉伯数字“12345”可能会被误认为是整数“一万二千三百四十五”。因此,为了避免上述误解,提高对用户的友善度,本申请实施例可以将属于数字串类型的数字词语翻译为目标语言,例如,翻译为英文one、two、three、four、five。

实际应用中,在根据数字词语的位置信息,确定翻译结果中的预设占位符对应的数字词语后,判断该数字词语是否属于数字串类型,如果是,则利用该数字词语的目标语言形式替换对应的预设占位符,实现将该数字词语翻译为目标语言的效果。

另一种可选的实施方式中,由于整数类型的阿拉伯数字的长度较长时,可能会对用户的友善度降低,例如,阿拉伯数字1000000000,表示10亿,如果将其翻译为英文onebillion,显然比阿拉伯数字对用户的友善度有所提高。因此,本申请实施例可以将属于整数类型且转换为阿拉伯数字形式后最后至少包括预设个数连续的零的数字词语翻译为目标语言。

实际应用中,在根据数字词语的位置信息,确定翻译结果中的预设占位符对应的数字词语后,判断该数字词语是否属于整数类型,如果是,则继续判断该数字词语转换为阿拉伯数字形式后是否最后至少包括预设个数连续的零,如果是,则利用该数字词语的目标语言形式替换对应的预设占位符,实现将该数字词语翻译为目标语言的效果。

装置实施例

参见图4,为本实施例提供的一种文本翻译装置的结构示意图,该装置包括:

确定模块401,用于确定待翻译文本中的数字词语;

第一替换模块402,用于将所述数字词语替换为预设占位符;

记录模块403,用于记录所述数字词语的位置信息;

翻译模块404,用于对带有所述预设占位符的待翻译文本进行翻译,得到带有所述预设占位符的翻译结果;

第二替换模块405,用于根据所述数字词语的位置信息,将所述翻译结果中的所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式。

一种可选的实施方式中,所述第一替换模块,包括:

第一确定子模块,用于确定所述数字词语的类型以及合法性;

第一替换子模块,用于根据所述数字词语的类型以及合法性,将所述数字词语替换为预设占位符。

一种可选的实施方式中,所述第一替换子模块,包括:

第一规整子模块,用于根据所述数字词语的类型以及合法性,将所述数字词语规整为阿拉伯数字;

第二替换子模块,用于将所述阿拉伯数字替换为预设占位符;

相应的,所述记录模块,具体用于记录由所述数字词语规整的阿拉伯数字的位置信息。

一种可选的实施方式中,所述第二替换模块,包括:

第二确定子模块,用于根据由所述数字词语规整的阿拉伯数字的位置信息,确定所述翻译结果中的预设占位符对应的阿拉伯数字;

第三替换子模块,用于将所述预设占位符替换为所述阿拉伯数字或者所述阿拉伯数字的目标语言形式。

一种可选的实施方式中,所述第一替换子模块,具体用于:

根据所述数字词语的类型以及合法性,将所述数字词语直接替换为预设占位符。

一种可选的实施方式中,所述第二替换模块,包括:

第三确定子模块,用于根据所述数字词语的位置信息,确定所述翻译结果中的预设占位符对应的数字词语;

第四替换子模块,用于将所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式。

一种可选的实施方式中,所述第四替换子模块,包括:

第五替换子模块,用于将所述预设占位符替换为所述数字词语;

第二规整子模块,用于根据所述数字词语的类型以及合法性,将所述数字词语规整为阿拉伯数字。

一种可选的实施方式中,所述第一确定子模块,具体用于:

确定所述数字词语是否属于预设类型,以及是否符合各个预设类型的合法性;所述预设类型包括整数类型、数字串类型和\或小数类型。

一种可选的实施方式中,所述第一确定子模块,包括:

第一判断子模块,用于判断所述数字词语是否包括位数词;所述位数词为用于作为单位的数字词;

第四确定子模块,用于在所述第一判断子模块的结果为是时,确定所述数字词语属于整数类型;

第二判断子模块,用于判断所述数字词语是否符合所述整数类型的预设合法条件;

第五确定子模块,用于在所述第二判断子模块的结果为是时,确定所述数字词语属于所述整数类型且合法。

一种可选的实施方式中,所述第一确定子模块,包括:

第三判断子模块,用于依次遍历所述数字词语中的各个数字词,判断各个数字词是否均属于零到九之间的任意数字词;

第六确定子模块,用于在所述第三判断子模块的结果为是时,确定所述数字词语属于数字串类型且合法。

一种可选的实施方式中,所述第一确定子模块,包括:

第四判断子模块,用于判断所述数字词语是否包含汉字“点”;

第七确定子模块,用于在所述第四判断子模块的结果为是时,确定所述数字词语属于小数类型;

第五判断子模块,用于判断所述数字词语的整数部分是否符合整数类型的预设合法条件,且所述数字词语的小数部分的各个数字词是否均属于零到九之间的任意数字词;

第八确定子模块,用于在所述第五判断子模块的结果为是时,确定所述数字词语属于所述小数类型且合法。

一种可选的实施方式中,所述第二替换模块,包括:

第九确定子模块,用于根据所述数字词语的位置信息,确定所述翻译结果中的预设占位符对应的数字词语;

第六替换子模块,用于在所述数字词语属于数字串类型,或者,所述数字词语属于整数类型且转换为阿拉伯数字形式后最后至少包括预设个数连续的零时,利用所述数字词语的目标语言形式替换对应的预设占位符。

一种可选的实施方式中,所述数字词语包括至少n个数字词,所述n为预设正整数。

本申请实施例提供的文本翻译装置能够实现以下功能:接收待翻译文本,并确定待翻译文本中的数字词语,利用预设占位符替换数字词语,并记录数字词语的位置信息,对带有预设占位符的待翻译文本进行翻译,得到带有预设占位符的翻译结果,根据数字词语的位置信息,将翻译结果中的预设占位符替换为数字词语的阿拉伯数字形式或者目标语言形式,完成文本翻译。由于本申请实施例在对待翻译文本进行翻译之前利用预设占位符替换了数字词语,避免了因数字词语被作为普通文本进行切分处理导致的翻译不准确问题,因此,利用本申请实施例提供的文本翻译装置能够提高数字词语翻译的准确性。

进一步的,由于数字词语的类型以及合法性对数字词语的翻译准确性存在影响,所以,本申请实施例根据数字词语的类型以及合法性对数字词语进行翻译能够进一步的提高对数字词语翻译的准确性。

另外,本申请还提供了一种文本翻译设备,包括:处理器、存储器、系统总线;所述处理器以及所述存储器通过所述系统总线相连;

所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述的方法实施例。

另外,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述的方法实施例。

另外,本申请还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述的方法实施例。

对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请实施例所提供的一种文本翻译方法、装置及设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1