对大文本中术语自动翻译的方法

文档序号:6510814阅读:398来源:国知局
对大文本中术语自动翻译的方法
【专利摘要】本发明公开了对大文本中术语自动翻译的方法,包括:提取文本中不重复的语素,并记录每个语素在所述文本中出现的位置;在多种语言的术语库中匹配所述提取的语素,将匹配成功的语素或语素的组合标注为术语;在所述术语库中找到相应的术语,按照预先确定的翻译方向,找到并显示该术语的目标语言。本发明采用一种反向思路,以文本集合中的语素为模式串在术语库中进行字符串匹配,极大的减少了相同字符重复进行匹配的次数,同时由于术语库是个有序空间,在其中使用二分法进行查询匹配可以大量减少查询操作。
【专利说明】对大文本中术语自动翻译的方法
【技术领域】
[0001]本发明涉及一种计算机技术,具体而言,涉及对大文本中术语自动翻译的方法。
【背景技术】
[0002]通常对于大量待翻译的技术文档和专业文档中的术语要进行查找、标注并翻译的方法,是用术语为模式串在待译文本中进行字符串模式匹配。由于待译文本或文本集合是一种未排序的散乱文本空间,用这种方式进行模式匹配,需要用术语为模式串同待译文本或文本集合中的每个字符顺序进行字符串模式匹配,整个匹配过程要对其中相同的字(或单词)反复进行字符串匹配,计算大量重复,耗费了大量的时间和计算资源,整体时间复杂度非常巨大。
[0003]这种方法时间耗费大、速度很慢,无法满足计算机辅助翻译对于术语查找、标注和翻译的要求。特别是对于在大文本或文本集合来说来说,要在其中对术语进行快速查找、标注和翻译,目前仍然没有一种快速有效的解决方法。

【发明内容】

[0004]本发明旨在提供对大文本中术语自动翻译的方法,以解决上述现有技术中匹配的时间耗费大、速度慢的问题。
[0005]本发明公开了一种对文本中术语自动翻译的方法,包括:
[0006]提取文本中不重复的语素,并记录每个语素在所述文本中出现的位置;
[0007]在多种语言的术语库中匹配所述提取的语素,将匹配成功的语素或语素的组合标注为术语;
[0008]在所述术语库中找到相应的术语,按照预先确定的翻译方向,找到并显示该术语的目标语言。
[0009]优选地,还包括:
[0010]按照所述预先确定的翻译方向,确定作为源语言的所述提取的语素的语种;
[0011]将所述术语库中的术语,按照所述确定的语种的字符顺序排序。
[0012]优选地,还包括:
[0013]根据所述提取的语素、及其出现的位置建立一个索引表;
[0014]该表中包括:所述提取的语素、语素所属的文本编号和语素在每篇文本中出现的位置。
[0015]优选地,还包括:
[0016]按照所述索引表中的语素的顺序,采用二分法与所述术语库中的术语执行所述匹配操作。
[0017]优选地,所述在多种语言的术语库中匹配所述提取的语素的过程包括:
[0018]将所述索引表中的每个语素与所述术语库中的每个术语的首个语素进行字符串模式匹配,将匹配成功的语素定义为疑是术语字头。[0019]优选地,还包括:
[0020]判断所述术语库中与所述疑是术语字头的匹配成功的术语的长度;
[0021]术语的长度为一个语素,将该疑是术语字头标注为术语,并显示该术语的目标语言;
[0022]术语的长度大于一个语素,进行二次匹配,将匹配成功的语素组合标注为术语,并显示该术语的目标语言。
[0023]优选地,所述二次匹配的过程包括:
[0024]计算术语的长度,设定该术语的长度为TermLen□,且TermLen[]为大于I的整数;
[0025]根据所述索引表,取与该术语匹配成功的疑是术语字头在相应文本中各个位置的后TermLen[]-1个语素,分别于所述术语中的后TermLen[]-1个语素进行逐个匹配;
[0026]匹配成功的,将从该疑是术语字头至其后第TermLenD-l个语素的所有语素的组合标注为术语,并显示该术语的目标语言。
[0027]本发明中的对大文本中术语自动翻译的方法,具有以下优点:
[0028]1、采用一种反向思路,以文本集合中的语素为模式串在术语库中进行字符串匹配,极大的减少了相同字符重复进行匹配的次数,同时由于术语库是个有序空间,在其中使用二分法进行查询匹配可以大量减少查询操作;
[0029]2、通过对文本集合的所有语素建立一个索引表,文本集合中的同一个语素在术语库中只进行一次搜索匹配操作,节省了大量重复的字符串模式匹配操作;
[0030]3、通过索引表,可以查找到在文本集合中的每个语素的位置信息,及字与字的位置关系,可以方便实现术语库中术语的每个语素和文本集合中的相关语素的匹配,而不用将术语和文本集合中不相关的语素进行匹配操作。
[0031]4、本方法特别适用于大文本或文本集合的术语查找、标注和翻译,文本的容量越大本方法的效率值越高,与多语术语库相结合,可以显著的提高辅助翻译效率。
【专利附图】

【附图说明】
[0032]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0033]图1示出了实施例1的流程图;
[0034]图2示出了实施例2的流程图;
[0035]图3示出了实施例3的流程图。
【具体实施方式】
[0036]下面将参考附图并结合实施例,来详细说明本发明。
[0037]待译文本中的字根据其语种的不同,可以分为有字形结构的字或字母组成的单词;为了方便表述以下将一个字或一个单词统称为语素;
[0038]同理,术语库中的术语,为一个或多个的单个字或单个单词组成,为了方便表述以下将术语的首字或首单词统称为术语的首个语素,多个语素称为语素组合。
[0039]如图1所示,本发明提供了一个实施例,公开了对大文本中术语自动翻译的方法,包括:
[0040]S11、提取文本中不重复的语素,并记录每个语素在所述文本中出现的位置;
[0041]S12、在多种语言的术语库中匹配所述提取的语素,将匹配成功的语素或语素的组合标注为术语;
[0042]S13、在所述术语库中找到相应的术语,按照预先确定的翻译方向,找到并显示该术语的目标语言。
[0043]进一步的,在步骤Sll前,还包括:
[0044]提取文本集合中的每篇文本,并对所述每篇文本按照单个语素进行拆分,对其中相同的语素进行去重处理,得到文本集合中所有不重复的语素;
[0045]进一步的,在步骤S12前,还包括:
[0046]按照所述预先确定的翻译方向,确定作为源语言的所述提取的语素的语种;
[0047]将所述术语库中的术语,按照所述确定的语种的字符顺序排序索引。
[0048]进一步的,在多种语言的术语库中匹配所述提取的语素前,还包括: [0049]对所述每篇文本进行编号;
[0050]记录每个语素在每篇 文本中的位置;
[0051]根据所述提取的语素、及其出现的位置建立一个索引表,该表如下:
【权利要求】
1.对大文本中术语自动翻译的方法,其特征在于,包括: 提取文本中不重复的语素,并记录每个语素在所述文本中出现的位置; 在多种语言的术语库中匹配所述提取的语素,将匹配成功的语素或语素的组合标注为术语; 在所述术语库中找到相应的术语,按照预先确定的翻译方向,找到并显示该术语的目标语目。
2.根据权利要求1所述的方法,其特征在于,还包括: 按照所述预先确定的翻译方向,确定作为源语言的所述提取的语素的语种; 将所述术语库中的术语,按照所述确定的语种的字符顺序排序。
3.根据权利要求2所述的方法,其特征在于,还包括: 根据所述提取的语素、及其出现的位置建立一个索引表; 该表中包括:所述提取的语素、语素所属的文本编号和语素在每篇文本中出现的位置。
4.根据权利要求3所述的方法,其特征在于,按照所述索引表中的语素的顺序,采用二分法与所述术语库中的术语执行所述匹配操作。
5.根据权利要求4所述的方法,其特征在于,所述在多种语言的术语库中匹配所述提取的语素的过程包括: 将所述索引表中的每个语素与所述术语库中的每个术语的首个语素进行字符串模式匹配,将匹配成功的语素定义为疑是术语字头。
6.根据权利要求5所述的方法,其特征在于,还包括: 判断所述术语库中与所述疑是术语字头的匹配成功的术语的长度; 术语的长度为一个语素,将该疑是术语字头标注为术语,并显示该术语的目标语言;术语的长度大于一个语素,进行二次匹配,将匹配成功的语素组合标注为术语,并显示该术语的目标语言。
7.根据权利要求6所述的方法,其特征在于,所述二次匹配的过程包括: 计算术语的长度,设定该术语的长度为TermLen □,且TermLen []为大于I的整数; 根据所述索引表,取与该术语匹配成功的疑是术语字头在相应文本中各个位置的后TermLen[]-1个语素,分别与所述术语中的后TermLen[]-1个语素进行逐个匹配; 匹配成功的,将从该疑是术语字头至其后第TermLenD-l个语素的所有语素的组合标注为术语,并显示该术语的目标语言。
【文档编号】G06F17/30GK103488628SQ201310407069
【公开日】2014年1月1日 申请日期:2013年9月9日 优先权日:2013年9月9日
【发明者】江潮 申请人:武汉传神信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1