面向通用机译引擎的个性化翻译方法及装置的制造方法_2

文档序号:8402777阅读:来源:国知局
应的目标语言。
[0030] 具体的,本申请上述步骤实现了对双语翻译实例中未经过词对齐的句对进行自动 对齐处理,并输出词对齐的双语句对,此处的自动对齐处理利用统计在同一双语句子中的 不同的语言的词的共现频率来估计两个词的之间的对齐概率,然后再用对齐概率去估计两 个词的共现频率,直至收敛为止。最后选择最大概率的对齐可能做为最后对齐结果。为了 提高对齐的质量,本申请可以将通用语料和实例库合并,进行对齐后在将两者分开。本申请 采用将通用语料和实例库合并的方案,目的是为了解决通常情况下用户制定的实例库规模 较小,导致对齐结果不准确的问题,可以提高对齐结果的准确性,具体的,可以将一个已经 保存的大规模语料即通用语料与用户制定的实例库合并,进行词对齐过程,从而产生高质 量对齐结果。
[0031] 本申请上述实施例中,步骤S50基于翻译内容在双语翻译实例库进行相似度检 索,获取至少一个翻译实例的步骤可以包括如下实施步骤:
[0032] 步骤S501,获取翻译内容的向量值。
[0033] 步骤S502,获取双语翻译实例库中所有翻译实例的源语言向量值。
[0034] 具体的,以上两步对翻译内容以及双语翻译实例库中所有翻译实例的源语言采用 向量空间模型进行描述,即将翻译内容的源语言的句子或翻译实例句子中出现的所有不同 的词作为向量的一个维度。每个句子出现了某个词的个数即是其词对应维度的值。例如句 子"我有一本书。"其向量可以稀疏的表不为:(I ?,1 #,1445,丨。)。
[0035] 步骤S503,根据翻译内容的向量值和双语翻译实例库中所有翻译实例的源语言向 量值进行相似度计算,生成翻译内容的多个相似度值。
[0036] 步骤S504,按照相似度值,选择翻译内容对应的N个翻译实例,N为自然数。
[0037] 优选地,本申请上述实施例中,步骤S503根据翻译内容的向量值和双语翻译实例 库中所有源语言的向量值进行相似度计算,生成翻译内容的多个相似度值的步骤可以通过 如下实施方式实现:
[0038] 通过如下公式计算得到翻译内容的相似度值P :
[0039]
【主权项】
1. 一种面向通用机译引擎的个性化翻译方法,其特征在于,包括: 获取用户输入的翻译内容; 获取所述翻译内容的在线翻译结果; 基于所述翻译内容在双语翻译实例库进行相似度检索,获取至少一个翻译实例; 使用所述在线翻译结果对所述翻译实例进行增量式对齐,生成混淆网络; 对所述混淆网络进行解码,获取翻译候选结果。
2. 根据权利要求1所述的方法,其特征在于,在获取用户输入的翻译内容之前,所述方 法还包括: 获取所述双语翻译实例库,所述双语翻译实例库包括多组句对; 将所述双语翻译实例库中没有经过词对齐的句对进行自动对齐处理,获取词对齐的双 语句对,其中,所述双语句对包括:源语言和所述源语言对应的目标语言。
3. 根据权利要求2所述的方法,其特征在于,基于所述翻译内容在双语翻译实例库进 行相似度检索,获取至少一个翻译实例的步骤包括: 获取所述翻译内容的向量值; 获取所述双语翻译实例库中所有翻译实例的源语言向量值; 根据所述翻译内容的向量值和所述双语翻译实例库中所有翻译实例的源语言向量值 进行相似度计算,生成所述翻译内容的多个相似度值; 按照所述相似度值,选择所述翻译内容对应的N个翻译实例,N为自然数。
4. 根据权利要求3所述的方法,其特征在于,根据所述翻译内容的向量值和所述双语 翻译实例库中所有源语言的向量值进行相似度计算,生成所述翻译内容的多个相似度值的 步骤包括: 通过如下公式计算得到所述翻译内容的相似度值P : 1
?中,所述ex_Fi是所述翻译实例的源语言向量 值,所述F是所述翻译内容的向量值,所述ex_Fi · F是所述翻译实例的源语言向量值和所 述翻译内容的向量值的内积,所述Il ex_F Il *|| F Il是所述翻译实例的源语言向量值和所 述翻译内容的向量值的范数。
5. 根据权利要求4所述的方法,其特征在于,按照所述相似度值,选择所述翻译内容对 应的N个翻译实例的步骤包括: 对所述翻译内容的多个相似度值按照数值大小进行排序; 按照排序后的相似度值提取对应的翻译实例,获取所述N个翻译实例。
6. 根据权利要求1至5中任意一项所述的方法,其特征在于,使用所述在线翻译结果对 所述翻译实例进行增量式对齐,生成混淆网络的步骤包括: 设置所述在线翻译结果为原始翻译骨架; 依次将所述翻译实例的目标语言与所述原始翻译骨架进行增量式对齐处理,得到对齐 结果; 根据所述对齐结果,将所述在线翻译结果和所述N个翻译实例中的译文的全部词汇连 接构成所述混淆网络。
7. 根据权利要求6所述的方法,其特征在于,对所述混淆网络进行解码,获取翻译候选 结果的步骤包括: 根据语句特征对所述混淆网络进行解码,生成至少一个解码结果; 其中,当计算所述混淆网络的词置信度特征时,对所述混淆网络进行置信度估计处理, 得到置信度估算结果,上述步骤包括: 通过如下公式计算得到所述置信度估算结果: CW=士Σ為?沖十其中,n为所述翻译实例的总数,i=0时所 r-Ο ? + ?? 述Ei是所述在线翻译结果,i > 1时所述Ei是第i个翻译实例,Ci第i个翻译实例的源语 言相似度值,λ i是一个0-1特征函数,e是自然对数的底数,c是计数器的计数值。
8. -种面向通用机译引擎的个性化翻译装置,其特征在于,包括: 第一获取模块,用于获取用户输入的翻译内容; 第二获取模块,用于获取所述翻译内容的在线翻译结果; 检索模块,用于基于所述翻译内容在双语翻译实例库进行相似度检索,获取至少一个 翻译实例; 增量式对齐处理模块,用于使用所述在线翻译结果对所述翻译实例进行增量式对齐, 生成混淆网络; 译文生成模块,用于对所述混淆网络进行解码,获取翻译候选结果。
9. 根据权利要求8所述的装置,其特征在于,所述装置还包括: 第三获取模块,用于获取所述双语翻译实例库,所述双语翻译实例库包括多组句对; 自动对齐处理模块,用于将所述双语翻译实例库中没有经过词对齐的句对进行自动对 齐处理,获取词对齐的双语句对,其中,所述双语句对包括:源语言和所述源语言对应的目 标语目。
10. 根据权利要求9所述的装置,其特征在于,所述检索模块包括: 第一子获取模块,用于获取所述翻译内容的向量值; 第二子获取模块,用于获取所述双语翻译实例库中所有翻译实例的源语言向量值; 处理模块,用于根据所述翻译内容的向量值和所述双语翻译实例库中所有翻译实例的 源语言向量值进行相似度计算,生成所述翻译内容的多个相似度值; 选择模块,用于按照所述相似度值,选择所述翻译内容对应的N个翻译实例,N为自然 数。
11. 根据权利要求10所述的装置,其特征在于,所述处理模块包括: 相似度计算模块,用于通过如下公式计算得到所述翻译内容的相似度值P :
其中,所述ex_Fi是所述翻译实例的源语言向量 值,所述F是所述翻译内容的向量值,所述ex_Fi · F是所述翻译实例的源语言向量值和所 述翻译内容的向量值的内积,所述Il ex_F Il *|| F Il是所述翻译实例的源语言向量值和所 述翻译内容的向量值的范数。
12. 根据权利要求11所述的装置,其特征在于,所述选择模块包括: 排序模块,用于对所述翻译内容的多个相似度值按照数值大小进行排序; 提取模块,用于按照排序后的相似度值提取对应的翻译实例,获取所述N个翻译实例。
13. 根据权利要求8至12中任意一项所述的装置,其特征在于,所述增量式对齐处理模 块包括: 设置模块,用于设置在线翻译结果为原始翻译骨架; 第三子获取模块,用于依次将所述翻译实例的目标语言与所述原始翻译骨架进行增量 式对齐处理,得到对齐结果; 生成模块,用于根据所述对齐结果,将所述在线翻译结果和所述N个翻译实例中的译 文的全部词汇连接构成所述混淆网络。
14. 根据权利要求13所述的装置,其特征在于,所述译文生成模块包括: 解码模块,用于根据语句特征对所述混淆网络进行解码,生成至少一个解码结果; 置信度估计模块,用于当计算所述混淆网络的词置信度特征时,对所述混淆网络进行 置信度估计处理,得到置信度估算结果; 其中,所述置信度估计模块包括: 计算模块,用于通过如下公式计算得到所述置信度估算结果:
,其中,η为所述翻译实例的总数,i=0时所 述Ei是所述在线翻译结果,i > 1时所述Ei是第i个翻译实例,Ci第i个翻译实例的源语 言相似度值,λ i是一个0-1特征函数,e是自然对数的底数,c是计数器的计数值。
【专利摘要】本发明公开了一种面向通用机译引擎的个性化翻译方法及装置。其中,该方法包括:获取用户输入的翻译内容;获取翻译内容的在线翻译结果;基于翻译内容在双语翻译实例库进行相似度检索,获取至少一个翻译实例;使用在线翻译结果对翻译实例进行增量式对齐,生成混淆网络;对混淆网络进行解码,获取翻译候选结果。通过本发明,能够实现提高翻译结果的准确度。
【IPC分类】G06F17-27, G06F17-28
【公开号】CN104731774
【申请号】CN201310722090
【发明人】杨沐昀, 朱俊国, 赵铁军, 李生, 郑德权, 朱聪慧, 曹海龙, 徐冰
【申请人】哈尔滨工业大学
【公开日】2015年6月24日
【申请日】2013年12月24日
【公告号】WO2015096529A1
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1