专利名称:优化译员的检索方法
技术领域:
本发明涉及计算机领域,具体而言,涉及一种优化译员的检索方法。
背景技术:
信息时代和网络化使翻译工作方式发生了很大的变化。利用翻译流程管理平台,根据不同对象储存人才资料。有翻译任务时,可以根据翻译项目的语种、文章类型、专业领域以及客户对翻译质量和时限的要求,调用最合适的翻译和审校人员,组成项目组进行翻译,从而提高翻译效率、节省翻译费用、确保译文质量、优化项目管理。目前的辅助翻译及管理平台对译员和译稿的匹配,一般还是通过人工或半人工的方式来完成,往往需通过更高级别的译员(比如审校)来判别译员的翻译能力和对译稿的合适度。这样不但主观性强,且采用人工选择译员,效率低下。
发明内容
本发明旨在提供一种优化译员的检索方法,以解决上述采用人工选择译员,效率低下的问题。在本发明的实施例中,提供了一种优化译员的检索方法,包括拆分待译稿件,对拆分的后的每个稿件碎片分类;根据每个所述稿件碎片的属性,从符合相应分类的译员库中选择相应的译员。实施例的步骤,通过对译稿进行碎片化,将碎片后的片段的属性,找到相匹配的译员,提高了译员的查找效率,减少了主观性。
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中图1示出了实施例的流程图;图2示出了实施例的方法采用的系统框架结构图;图3示出了实施例中进行相似度分析的模块架构;图4示出了实施例中关键词的树形结构图。
具体实施例方式下面将参考附图并结合实施例,来详细说明本发明。实施例的步骤包括S1:拆分待译稿件,对拆分的后的每个稿件碎片分类;S2:根据每个所述稿件碎片的属性,从符合相应分类的译员库中选择相应的译员。实施例的步骤,通过对译稿进行碎片化,将碎片后的片段的属性,找到相匹配的译员,提高了译员的查找效率,减少了主观性。上述步骤SI,通过以下子步骤实现,包括
Sll :提取译稿每段的各个关键词,建立每个段落与其包含的各个关键词的对应关系;S12:将所述译稿的各个关键词逐个在术语语料库中匹配,将每个关键词匹配的术语的行业类别属性,作为该关键词在其对应的每个段所归属的行业类别属性;S13 :根据所述对应关系,确定每个段包含相同的最多的行业类别属性;S14 :将最多的行业类别属性对该段分类。由于待译文稿的词语数要远小于术语语料库的词语数,经过分词处理后的词语数量还要大为减少;而且术语语料库具备按字母顺序查找的功能,在其中进行关键词匹配不需要采用模式匹配算法,可以极大的减少查询时间。缩短对译稿分类的时间,提高分类效率。优选地,参见图2,由系统中的分词处理模块提取关键词,包括对译稿进行分词处理,去除停用词和不表示具体概念的词语,得到分词后的关键词集合。优选地,在实施例中,计算每个词语在文稿中的出现次数即词频,记录每个词语的段落属性,即其所属的段落号;建立待译文档的关键词列表,列表项包括词语、词频、词语在段落属性、列表如表I所示表I
权利要求
1.一种优化译员的检索方法,其特征在于,包括 拆分待译稿件,对拆分的后的每个稿件碎片分类; 根据每个所述稿件碎片的属性,从符合相应分类的译员库中选择相应的译员。
2.根据权利要求1所述的方法,其特征在于,包括所述拆分、所述分类的过程包括 提取译稿每段的各个关键词,建立每个段落与其包含的各个关键词的对应关系; 将所述译稿的各个关键词逐个在术语语料库中匹配,将每个关键词匹配的术语的行业类别属性,作为该关键词所对应的每个段所归属的行业类别属性; 根据所述对应关系,确定每个段包含相同的最多的行业类别属性; 将最多的行业类别属性对该段分类。
3.根据权利要求2所述的方法,其特征在于,判断所述译稿内的每段的词数; 如果所述词数小于阈值,则与相邻的下一段合并作为新的一段; 直到所述新的一段的词数大于阈值。
4.根据权利要求1所述的方法,其特征在于,为所述分类后的碎片选择译员的过程包括 读取分类后碎片的稿件的各个属性,筛选出满足全部属性要求的译员; 读取所述筛选出的译员ID,对每个译员的译后稿件与标准译稿进行相似性分析,确定每个译员的翻译能力的量化值; 确定为每个译员设定的合适度值; 将每个译员的量化值、合适度值的和进行排序,选择出分值最高的译员。
5.根据权利要求4所述的方法,其特征在于,所述待译稿件的各个属性至少包括之一 翻译价格、退稿率、翻译需求、专项稿件。
所述筛选的过程包括 确定该译员的状态为接案状态后,读取该译员的与所述待译稿件相同的属性; 至少执行以下之一的属性筛选 如果所述译员的翻译价格属性的值在所述待译稿件的翻译价格属性的上下限阀值之间,则认为符合属性要求; 如果所述译员的退稿率属性的值小于所述待译稿件的退稿率属性的值,则认为符合属性要求; 如果所述译员的翻译需求属性的内容包含所述待译稿件的翻译需求属性的内容,则认为符合属性要求; 如果所述译员的专项稿件的能力属性符合所述待译稿件的专项稿件属性的内容,则认为符合属性要求。
6.根据权利要求4所述的方法,其特征在于,所述合适度的计算项至少包括以下之一 退稿率、及时交稿率、稿件可用率、翻译性价比、合作次数、低级失误;其中,每一项对应一个介于(TiOO之间的数值。
所述确定合适度值的过程包括 设定多个合适度计算项的权重; 将每个合适度计算项与其对应的权重相乘,将所述多个合适度计算项的乘积的和作为所述和适度值;将每个译员的量化值、合适度值的和进行排序,选择出分值最高的译员。
7.根据权利要求4所述的方法,其特征在于,所述相似性分析的过程包括 提取每篇译后稿件和与其对应的测试文档库中的标准译稿集合的关键词;该关键词的集合为 C={k1; k2, ···, kj ; 计算C中每个关键词k在稿件中出现的概率,即出现关键词k的稿件数和稿件总数之比,记为P (k); 将C中关键词按P (k)进行降序排序,并将每一个关键词作为一个集合,这样得到初始的m个待合并集合,记为{kj , {k2}, ···, {kj ; 在这m个关键词中,计算在关键词匕出现的稿件中关键词kj出现的概率,记为P(IijIki),共计个条件概率,(I 彡 i,j 彡 m ;i 关 j);p (IiJki)=P (kjk^/p Cki),p (Iijki)为h和h同时出现在同一篇稿件中的概率; 合并待合并集合,生成以关键词集合C为根节点的关键词概念树。
8.根据权利要求7所述的方法,其特征在于,所述合并过程包括 对于待合并的两个关键词集合Cl和C2,合并条件为存在Ici属于Cl, kj属于C2,且p(10>阀值?14 (IijIki) >阀值P2,当P (Iii)和P (k」| Iii)大于所述设定阀值时,关键词Iii和h表达相同概念,满足其所在的集合的合并条件之一; 在合并后的集合中任给一个关键词ki;其与集合中一半以上关键词都满足条件PCkjIki))阀值 P2。
9.根据权利要求8所述的方法,定义H为生成的概念树的高度,定义depth(k)为节点k在树中的深度,即为从根节点到该节点所经历的边数; 定义ComGii, kj)为离节点ki和kj最近的共同父节点; 任两个关键词的积的计算公式AiXkj=Clepth (com Cki, k」))/H ; 设向量 A={ai,a2,…,an},B=Ibpb2,…,bj,定义向量计算f (a, Xbi ); i J ]-·-·-!所述A和B中的一个为待译译稿,另一个为相应的标准译稿; \ ^ β 相似度计算公式为Sim CA B) =^==^== 9
10.根据权利要求9所述的方法,其特征在于,确定所述量化值的过程包括 根据每篇测试稿件的专业术语的数量,确定该每篇测试稿件的权重基值;其中,所述测试稿件经过翻译后得到所述译后稿件; 通过所述权重基值、所述测试稿件的翻译难度系数、和译员的翻译速度系数确定出每件测试稿件所占的权重; 将上述所得的权重值结合译后稿件与标准译稿的相似度值得到一个O 100之间的数值,将该数值作为所述量化值。
全文摘要
本发明提供了一种优化译员的检索方法,拆分待译稿件,对拆分的后的每个稿件碎片分类;根据每个所述稿件碎片的属性,从符合相应分类的译员库中选择相应的译员。通过对译稿进行碎片化,将碎片后的片段的属性,找到相匹配的译员,提高了译员的查找效率,减少了主观性。由于译员基因属性包含了语种、行业、学科、领域等的翻译能力,以及信用度、完成任务及时度、质量波动情况、对某类(个)客户的熟悉度等其他因素,而稿件碎片的基因属性则包括语种、行业、学科、难度、翻译要求等,将这些基因带入到基因匹配模型中匹配,得出哪些译员适合翻译并有适合度的排序。对于解决翻译效率、质量等问题具有非常现实的作用,对翻译行业的大规模产业化生产也具有重要意义。
文档编号G06F17/30GK103064970SQ20121059478
公开日2013年4月24日 申请日期2012年12月31日 优先权日2012年12月31日
发明者江潮 申请人:武汉传神信息技术有限公司