翻译装置、学习装置、翻译方法以及存储介质的制作方法

文档序号:9438933阅读:412来源:国知局
翻译装置、学习装置、翻译方法以及存储介质的制作方法
【技术领域】
[0001] 本发明涉及翻译装置等。
【背景技术】
[0002] 例如统计机器翻译等以往的翻译装置是通过组合了多个特征的线性模型来实现 的,并被程式化为如下问题,即搜索使该线性模型的分数最高的翻译。在这种模型化中,尽 管翻译装置的改进是被当作开发出对翻译做出贡献的特征的问题来理解的,但是,评价翻 译好坏的评价函数与翻译装置中所使用的特征之间不一定能够通过线性关系表现出来。因 此,即使重新向线性模型中添加特征,新的特征也未必会对翻译装置的改进做出贡献。另 外,基于线性模型的制约,即使开发出更好的特征,有可能对翻译装置的改进所做出的贡献 也是有限的。
[0003] 因此,以往在统计机器翻译领域中,不拘泥于线性模型,而提出了非线性模型(参 照非专利文献1~5)。在非专利文献1、2中,根据Boosting算法实现了一种非线性翻译模 型,并将其用于对从翻译装置输出的多个候选翻译进行的重排序。
[0004] 另外,在非专利文献3中,将神经网络导入到表现为转换机(Transducer)的翻译 模型中。
[0005] 在非专利文献4、5中,按照短语对和规则对等翻译知识的基本单位,基于神经网 络构建了模型,并将其作为重排序和短语对单位的特征导入。
[0006] 在先技术文献
[0007] 非专利文献
[0008] 非专利文献 I :Kevin Duh and Katrin Kirchhoff. 2008. Beyond log-linear models:Boosted minimum error rate training for n-best re-ranking. In Proceedings of ACL_08:HLT,Short Papers,pages 37-40, Columbus,Ohio, June. Association for Computational Linguistics.
[0009] 非专利文献 2 :A. Sokolov,G. Wisniewski,and F. Yvon. 2012. Non-linear n-best list reranking with few features. In AMTAjSan DiegojUSA.
[0010] 非专利文南犬 3 :M. Asuncion Castano,Francisco Casacubertaj and Enrique Vidal. 1997. Machine translation using neural networks and finite-state models. In TMI,pages 160-167.
[0011] 非专利文献 4 :Le Hai Son,Alexandre Allauzen,and Francois Yvon. 2012. Continuous space translation models with neural networks. In Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies, NAACL HLTi 12, pages 39-48,Stroudsburg, PA, USA. Association for Computational Linguistics.
[0012] 非专利文献 5 :Holger Schwenk. 2〇l2· Continuous space translation models for phrase-based statistical machine translation. In Proceedings of the 24th International Conference on Computational Linguistics, COLING' 12, Mumbai, India. Association for Computational Linguistics.

【发明内容】

[0013] 发明所要解决的技术问题
[0014] 然而,在以往的翻译装置中,当利用对特征进行非线性结合的神经网络时,在检索 过程中需要重新计算候选翻译的分数,负荷较大。
[0015] 进一步,非专利文献1、2、4等的非线性模型实现为一种重排序模型,该重排序模 型从由现有的翻译装置输出的多个候选翻译中选择正确的翻译。在这种重排序模型中,由 于其候选翻译中未必包含正确的翻译,因此,使用重排序模型的效果是有限的。
[0016] 另外,如非专利文献3所述,提出了将非线性模型适用在机器翻译装置自身的技 术方案,但是,在非专利文献3中,是作为加权有限状态转换机而实现的,并未考虑排列顺 序,仅仅适用于英语与法语等比较接近的语言对。
[0017] 在非专利文献3、5中,按照各短语对和规则对单位构建了非线性模型,关于组合 该短语对和规则对从而生成的语句单位的翻译,无法进行最优化。尤其是n-gram语言模型 等,关于短语对和规则对组合了无法进行局部计算的特征时,在非专利文献3、5中无法实 现最优化。
[0018] 进一步,使用图9中示出的规则,对现有技术的问题点进行具体说明。图9中的 规则ι?"Χ-<友好合作;friendly cooperation >",规则r 2为"乂 一<多年来的X ;X over the last year >',〇
[0019] 在由这样的规则构成的部分翻译的示例中,假定各个规则的特征向量为以下的数 学式1。在数学式1中,h()为特征函数。
[0020] [数学式1]
[0022] 在这种情况下,该部分翻译的特征向量为以下的数学式2。
[0023] [数学式2]
[0025] 在部分翻译的评分中使用以下的数学式3的线性模型,并假定权重向量W为数学 式4。此外,在数学式3中,f为源语言句,e为目标语言句,d为导出。另外,d包括两个以 上的部分对信息。部分对信息是指如下信息,即具有用于构成源语言句部分的源语言部分 信息以及用于构成目标语言句部分的目标语言部分信息。部分对信息例如为短语对、规则 对、单词对等。另外,在数学式3、数学式4中,W为权重向量。另外,e a ( a存在于e的正 上方)为目标语言句,d a ( a存在于d的正上方)为构成目标语言句的部分对信息(例 如短语对、规则对等)。
[0026] [数学式3] CN 105190609 A 说明书 3/15 页
[0028][数学式4]
[0030] 在这种情况下,该部分翻译(f,e,d)的分数为 "0· 3X1. 3+0. 5X0. 21+0.1 X (-0· 6) = 0· 435"。
[0031] 而且,在线性模型的情况下,通过动态规划法能够按照短语对单位或者规则对单 位进行该计算并求出合计值,例如,能够以数学式5的方式进行计算。
[0032] [数学式5]
[0034] 另外,在非线性模型的情况下,例如,假定如以下数学式6所示的一层神经网络。 在数学式6中,M为权重矩阵,B是u维的作为偏置(Bias)的向量。此外,权重矩阵M是 uXK维的。另外,在数学式6中,M、B如以下的数学式7所示。另外,〇为各要素单位的 sigmoid函数(参照数学式8)。
[0035] [数学式6]
[0037][数学式7]
[0039][数学式8]
[0041] 此时,部分翻译的分数如以下数学式9所示。
[0042] [数学式9]
[0044] 在与线性模型同样地以短语对或者规则对为单位进行计算的情况下,当将通过函 数S表示其分数时,则为如下数学式10。
[0045] [数学式 10]
CN 105190609 A 说明书 4/15 页
[0048] 这样,当对各个要素单位进行计算并根据其合计求出部分翻译的分数时,结果为 0. 957,即使考虑化整误差,也与0. 522之间存在大幅差异。因此,在非线性模型中,无法直 接使用基于动态规划法的检索方法。
[0049] 鉴于这种问题,本发明的目的在于提供一种翻译装置,该翻译装置关于非局部特 征函数导入线性模型,并且关于局部特征函数导入非线性模型,从而能够有效地计算候选 翻译的分数。
[0050] 用于解决技术问题的方案
[0051] 本申请的第一项发明的翻译装置具备:参数存储部,能够存储适用于非局部特征 函数的权重向量即第一权重向量、以及适用于局部特征函数的权重向量即第二权重向量; 特征函数信息存储部,能够存储与非局部特征函数相关的信息即第一特征函数信息、以及 与局部特征函数相关的信息即第二特征函数信息;部分对信息存储部,能够存储两个以上 的部分对信息,所述部分对信息具有用于构成源语言句部分的源语言部分信息和用于构成 目标语言句部分的目标语言部分信息;接受部,用于接受源语言句;向量取得部,将接受部 接受的源语言句和存储在部分对信息存储部中的一个以上的部分对信息适用在由第一特 征函数信息表示的非局部特征函数,从而取得第一向量,并且,将构成接受部接受的源语言 句的一个以上的用语和存储在部分对信息存储部中的一个以上的部分对信息适用在由第 二特征函数信息表示的局部特征函数,从而取得第二向量;分数取得部,使用向量取得部 取得的第一向量以及第一权重向量计算出非局部的分数即非局部分数,并使用向量取得部 取得的第二向量以及第二权重向量计算出局部的分数即局部分数,再使用非局部分数和局 部分数取得与接受部接受的源语言句对应的两个以上目标语言句的分数;目标语言句取得 部,取得分数取得部取得的分数最大的目标语言句;以及输出部,用于输出目标语言句取得 部取得的目标语言句。
[0052] 根据该结构,在机器翻译过程中,能够高效地计算候选翻译的分数。
[0053] 另外,与第一项发明相对地,本申请的第二项发明的翻译装置为,参数存储部还存 储有在计算局部分数时所使用的参数,该参数包括权重矩阵M(uXK维)以及u维的作为 偏置的向量B;第一特征函数信息是表示"h(f,e,d)"的信息,其中,f为源语言句,e为目 标语言句,d为导出,h为K维的特征函数;第二特征函数信息是表示"h'(r)"的信息,其 中,r为导出d中包含的一个要素,h'为K维的特征函数;分数取得部使用第一特征函数信 息h(f,e,d)和第一权重向量W,通过数学式"WT*h(f,e,d)"计算出非局部分数,并使用 第二特征函数信息W'和第二权重向量h'(r),以导出d的各个要素 r为单位,通过数学式 "W'T· σ (M*h'(r)+B)"计算出局部分数,并通过数学式11取得两个以上的目标语言句各 自的分数,其中,σ是u个各要素单位的sigmoid函数。
[0054] [数学式 11]
[0056] 根据该结构,在机器翻译过程中,能够高效地计算候选翻译的分数。进一步具体而 言,根据该结构,通过以短语对或规则对等为单位导入非线性模型,并且将非线性模型限定 于对短语对或规则对封闭的特性,从而能够实现与线性模型同样的高速检索。
[0057] 另外,本申请的第三项发明的学习装置具备:参数存储部,能够存储适用于非局部 特征函数的权重向量即第一权重向量W、适用于局部特征函数的权重向量即第二权重向量 W'、计算局部分数时所使用的权重矩阵M(uXK维)以及u维的作为偏置的向量B ;目标函 数信息存储部,能够存储目标函数信息,所述目标函数信息是与为了
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1