翻译任务碎片化的方法
【专利摘要】本发明公开了一种翻译任务碎片化的方法,包括:对输入的翻译文档进行预处理;提取给定翻译文档的特征项以及计算各个特征项的属性;与术语库的术语进行匹配,判定其中一个段落或多个段落所属行业类别及学科领域;按行业类别和学科领域进行碎片化。本发明在大规模并行分布处理的云翻译平台上,能够对所输入的多语信息标准化和可度量化,使得最合适的译员能够匹配到最合适的任务,能够最有效的促进分工,极大的提高单位翻译产能。
【专利说明】翻译任务碎片化的方法
【技术领域】
[0001]本发明属于自然语言处理【技术领域】,尤其涉及一种翻译任务碎片化方法。
【背景技术】
[0002]在这个全球化、国际化的今天,世界政治、经济、文化的交流越来越频繁,各国人员的往来也越来越密集,使得对翻译的需求也越来越大;同时随着互联网的兴起,各语种的信息量爆发性的增长,各语种信息之间的转换需求也呈快速爆发性增长的态势。
[0003]目前最常用的碎片化方法,是按固定字数或按自然段落进行碎片化,这种方法快速易行,不需花费很多的计算资源,即可完成,在一些对语种和分类要求不是很强烈的应用场景不失为一种很好的碎片化方法;按语种进行碎片化的方法,该方法应用于对翻译方向要求很明确的场合,对于给定的翻译文档,判断出其中每一种文字,最大化的截取并组合之;按任务标题进行碎片化的方法,是通过对任务标题进行分词,并判断其所属的类别,从而对任务所属类别进行判断,这是一种简单的按类别进行碎片化的方法。面对海量的多语信息转换和翻译任务,目前自翻译的模式或小规模工作间式的翻译模式已完全无法适应,采用普通的任务平均分配和流水作业的方法,不能将最合适的任务分配给合适的译员,效率很低而且无法利用信息化平台进行自动化的高效处理。
【发明内容】
[0004]有鉴于此,本发明的目的是提出一种翻译任务碎片化的方法,以解决如何将合适的任务分给合适的译员,能够在大规模并行分布处理的云翻译平台上,对所输入的多语信息标准化和可度量化的要求。
[0005]本发明公开了一种翻译任务碎片化的方法,具体包括:对输入的文档进行预处理;提取给定翻译文档的特征项以及计算各个特征项的属性;与术语库中的术语进行匹配,判定其中一个段落或多个段落所属行业类别及学科领域;按行业类别和学科领域进行碎片化。
[0006]在一些可选的实施例中,所述预处理包括对所输入的文本信息进行文本格式转换、统一编码,得到同一格式的规范的输入文本。
[0007]在一些可选的实施例中,所述预处理还包括:对所述规范的输入文本进行分词处理;将分词后的每个词条与预先设置的词表中多个词条进行比较,如果一致,则删除;所述词表中包括停用词和没有具体意义不代表具体概念的词语;得到输入文档的词语列表。
[0008]在一些可选的实施例中,所述提取给定翻译文档的特征项包括:将所述得到的词语列表作为进一步处理的特征项,得到特征项的各个属性,所述属性至少包括以下之一:权重、词频、段落属性以及该特征项在输入文档中的位置。
[0009]在一些可选的实施例中,所述计算各个特征项的属性包括:计算所提取的特征项的权重;计算每个在输入文档中的出现次数即词频;记录每个特征项所属的段落号,即段落属性;记录每个特征项在输入文档中的位置。[0010]在一些可选的实施例中,所述的匹配是将所述特征项作为匹配项在术语库中进行字符模式匹配,若匹配到相应术语的首词语,则将所述特征项在输入文档中的相邻下一词语作为匹配项,与所述术语的下一词语继续匹配,如此继续,直到术语中的某个词语匹配不成功或匹配完成。
[0011]在一些可选的实施例中,当所述匹配完成,得到输入文档的术语列表,所述术语列表至少包括以下之一:术语、术语权重、术语词频、术语的段落属性以及术语对应的行业和学科领域信息。
[0012]在一些可选的实施例中,根据所述输入文档的术语列表,计算每个不小于固定字数的段落不同行业、学科领域的术语数量,小于固定字数的段落则合并到下一段落计算;根据术语的段落属性计算每个段落有多少个术语,再根据所述术语对应的行业和学科领域信息计算段落中每个术语所属的行业和学科领域。
[0013]在一些可选的实施例中,将段落标记为其所含行业和学科领域最多术语的ID,合并具有相同行业和学科领域ID的段落,得到划分好的碎片。
[0014]本发明将翻译任务按一定的规则进行拆分、分类、组合,然后将对组合后的碎片化任务在云翻译平台上定位并精准推送,使得最合适的译员能够匹配到最合适的任务,能够最有效的促进分工,极大的提高单位翻译产能。
[0015]为了上述以及相关的目的,一个或多个实施例包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明某些示例性方面,并且其指示的仅仅是各个实施例的原则可以利用的各种方式中的一些方式。其它的益处和新颖性特征将随着下面的详细说明结合附图考虑而变得明显,所公开的实施例是要包括所有这些方面以及它们的等同。
[0016]说明书附图
[0017]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0018]图1是一些说明性实施例中的流程图。
【具体实施方式】
[0019]以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
[0020]如图1所示,一种翻译任务碎片化的方法,具体包括如下步骤:
[0021]Sll:对输入的文档进行预处理;
[0022]S12:提取给定翻译文档的特征项以及计算各个特征项的属性;
[0023]S13:与术语库中的术语进行匹配,判定其中一个段落或多个段落所属行业类别及学科领域;
[0024]S14:按行业类别和学科领域进行碎片化。
[0025]在一些实施例中,对所输入的文本信息进行预处理,包括文本格式转换、统一编码等,从而得到同一格式的规范的输入文本。
[0026]对所述规范的输入文本进行分词处理,去除停用词和没有具体意义不代表具体概念的词语,得到整个输入文档的词语列表,将其作为进行下一步处理的文档的特征项。[0027]对所述文档的特征项进行属性计算:计算所提取的输入文档特征项的权重,计算每个特征项在输入文档中的出现次数即词频,记录每个特征项的段落属性,即其所属的段落号,记录每个特征项在输入文档中的位置。
[0028]然后建立输入文档的特征项的属性列表,其中列表项包括:特征项、权重、词频、特
征项的段落属性、文档位置,如下表:
[0029]
【权利要求】
1.一种翻译任务碎片化的方法,其特征在于,包括如下步骤: 对输入的翻译文档进行预处理; 提取给定翻译文档的特征项以及计算各个特征项的属性; 与术语库中的术语进行匹配,判定其中一个段落或多个段落所属行业类别及学科领域; 按行业类别和学科领域进行碎片化。
2.根据权利要求1所述的方法,其特征在于,所述预处理包括对所输入的文本信息进行文本格式转换、统一编码,得到同一格式的规范的输入文本。
3.根据权利要求2所述的方法,其特征在于,所述预处理还包括:对所述规范的输入文本进行分词处理;将分词后的每个词条与预先设置的词表中多个词条进行比较,如果一致,则删除;所述词表中包括停用词和没有具体意义不代表具体概念的词语;得到输入文档的词语列表。
4.根据权利要求1所述的方法,其特征在于,所述提取给定翻译文档的特征项包括:将所述得到的词语列表作为进一步处理的特征项,得到特征项的各个属性,所述属性至少包括以下之一:权重、词频、段落属性以及该特征项在输入文档中的位置。
5.根据权利要求1或4所述的方法,其特征在于,所述计算各个特征项的属性包括:计算所提取的特征项的权重;计算每个在输入文档中的出现次数即词频;记录每个特征项所属的段落号,即段落属性;记录每个特征项在输入文档中的位置。
6.根据权利要求1或4所述的方法,其特征在于,所述的匹配是将所述特征项作为匹配项在术语库中进行字符模式匹配,若匹配到相应术语的首词语,则将所述特征项在输入文档中的相邻下一词语作为匹配项,与所述术语的下一词语继续匹配,如此继续,直到术语中的某个词语匹配不成功或匹配完成。
7.根据权利要求6所述的方法,其特征在于,当所述匹配完成,得到输入文档的术语列表,所述术语列表至少包括以下之一:术语、术语权重、术语词频、术语的段落属性以及术语对应的行业和学科领域信息。
8.根据权利要求7所述的方法,其特征在于,根据所述输入文档的术语列表,计算每个不小于固定字数的段落不同行业、学科领域的术语数量,小于固定字数的段落则合并到下一段落计算;根据术语的段落属性计算每个段落有多少个术语,再根据所述术语对应的行业和学科领域信息计算段落中每个术语所属的行业和学科领域。
9.根据权利要求8所述的方法,其特征在于,将段落标记为其所含行业和学科领域最多术语的ID,合并具有相同行业和学科领域ID的段落,得到划分好的碎片。
【文档编号】G06Q10/06GK103678280SQ201310749696
【公开日】2014年3月26日 申请日期:2013年12月30日 优先权日:2013年12月30日
【发明者】江潮 申请人:武汉传神信息技术有限公司