使计算机发挥以下功能:所述参数存储部还存储有在 计算所述局部分数时所使用的参数,该参数包括权重矩阵M (u X K维)以及u维的作为偏置 的向量B ;所述第一特征函数信息是表示"h(f,e,d) "(f为源语言句,e为目标语言句,d为 导出,h为K维的特征函数)的信息;所述第二特征函数信息是表示"h'(r) "(r为导出d中 包含的一个要素,h'为K维的特征函数)的信息;所述分数取得部使用所述第一特征函数 信息h(f,e,d)和所述第一权重向量W,通过数学式"WT · h(f,e,d)"计算出所述非局部分 数,并使用所述第二特征函数信息W'和所述第二权重向量h'(r),以导出d的各个要素 r为 单位,通过数学式"W'τ · σ (M · h'(r)+B) "(其中,σ是u个各要素单位的sigmoid函数) 计算出所述局部分数,并通过数学式11取得两个以上的目标语言句各自的分数。
[0130] (第二实施方式)
[0131] 在本实施方式中,对学习装置2进行说明,该学习装置2用于学习在翻译装置1中 所使用的参数。
[0132] 图5是本实施方式中的学习装置2的框图。学习装置2具备参数存储部11、对译 语料库存储部21、目标函数信息存储部22、第一学习部23、第二学习部24、第三学习部25 以及参数累积部26。
[0133] 如上所述,参数存储部11能够存储第一权重向量W、第二权重向量W'、权重矩阵 M(uXK维)以及向量B(u维)。
[0134] 对译语料库存储部21能够存储对译语料库。对译语料库是两个以上源语言句(f) 与目标语言句(e)的组。源语言句的译文是与该源语言句成组的目标语言句。
[0135] 目标函数信息存储部22能够存储目标函数信息,所述目标函数信息是与为了学 习而最大化的目标函数相关的信息。目标函数是在线性模型中进行学习时所使用的函数, 可以是多种多样的。目标函数例如为数学式13。另外,数学式13的目标函数具有数千个参 数,在统计机器翻译的优化中,确定使该目标函数最小化的参数群。
[0136] [数学式 13]
[0138]其中,
[0139] δ ( · ) = max{S(f, e',d' ; θ )-S(f,e*,d* ; θ )+1,〇}
[0140] 在数学式13中,f是所提供的开发集(与对译语料库具有相同意义)中的源语言 句,<< e*,d* >< e',d' >>是从对f进行解码而获得的k-best列表中随机抽样出来的 候选翻译对,并设< e*,d* >的BLEU分数高于< e',d' >。N是这种对的数量,λ是大于 零的超参数。另外,Θ是被学习的参数群。另外,函数δ是铰链损失函数,当BLEU分数较 低的候选翻译的分数S(f,e',d' ; Θ )比BLEU分数较高的候选翻译的分数S(f,e*,d* ; Θ ) 高时,直接将该分数之差用作损失的量。
[0141] 第一学习部23设"第二权重向量W' = 0"并进行学习,以使由目标函数信息表 示的目标函数最优化,并取得第一权重向量W的初始值即初始第一权重向量W1。将该学 习处理称为第一学习处理。第一学习部23进行学习的方法多种多样,例如可通过MERT、 MIRA、PRO 等公知技术来实现。此外,MERT 可参照 "Franz Josef Och. 2003. Minimum error rate training in statistical machine translation. In Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics, pages 160-167, Sapporo, Japan, July. Association for Computational Linguistics·',。另外, MIRA 可参照 "Taro Watanabe, Jun Suzuki, Hajime Tsukada, and Hideki Isozaki. 2007. Online large-margin training for statistical machine translation. In Proceedings of the 2007Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning(EMNLP-CoNLL), pages 764-773,Prague, Czech Republic,June. Association for Computational Linguistics·"。另外,PRO 可参照"Mark Hopkins and Jonathan May. 2011. Tuning as ranking. In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, pages 1352-1362,Edinburgh, Scotland, UK. , July. Association for Computational Linguistics. ',〇
[0142] 第二学习部24使用第一学习部23取得的初始第一权重向量1进行学习,以使由 目标函数信息表示的目标函数最优化,并取得权重矩阵M以及向量B。第二学习部24进行 学习的方法通常与第一学习部23进行学习的方法相同。将该学习处理称为第二学习处理。
[0143] 第三学习部25使用第二学习部24取得的权重矩阵M以及向量B进行学习,以使 由目标函数信息表示的目标函数最优化,并取得第一权重向量W以及第二权重向量W'。第 三学习部25进行学习的方法通常与第一学习部23和第二学习部24进行学习的方法相同。 将该学习处理称为第三学习处理。
[0144] 参数累积部26将第三学习部25取得的第一权重向量W和第二权重向量W'、第二 学习部24取得的权重矩阵M以及向量B累积到参数存储部11中。
[0145] 对译语料库存储部21、目标函数信息存储部22优选为非易失性的存储介质,但 是,也可通过易失性的存储介质来实现。
[0146] 不限定将对译语料库等存储到对译语料库存储部21、目标函数信息存储部22中 的过程。例如,既可以借助存储介质将双语语料库等存储在对译语料库存储部21中,也可 以将经由通信线路等发送的对译语料库等存储在对译语料库存储部21中,或者还可以将 借助输入设备输入的对译语料库等存储在对译语料库存储部21中。
[0147] 第一学习部23、第二学习部24、第三学习部25以及参数累积部26通常可由MPU和 存储器等实现。这些第一学习部23等的处理顺序通常通过软件来实现,该软件存储在ROM 等存储介质中。但是,第一学习部23等的处理顺序也可以通过硬件(专用电路)来实现。
[0148] 接下来,使用图6的流程图,对学习装置2的动作进行说明。
[0149] (步骤S601)第一学习部23执行初始化处理。初始化处理例如为,设定第二学习 处理的循环次数(MaxIter)、取得开发集、设定参数(例如数学式13的λ)等。
[0150] (步骤S602)第一学习部23将0代入第二权重向量W'。
[0151] (步骤S603)第一学习部23进行学习,以使由存储在目标函数信息存储部22中的 目标函数信息表示的目标函数最优化,并取得第一权重向量W的初始值即初始第一权重向 量1。也就是说,第一学习部23取得初始参数"θ1= (W,W' =〇,Μ,Β)"。此外,将该学习 称为第一学习处理。
[0152] (步骤S604)第二学习部24将1代入计数器i。
[0153] (步骤S605)第二学习部24判断"i =循环次数的最大值(Maxlter)"是否成立。 如果" i =最大值"成立,则进入步骤S608,如果" i =最大值"不成立,则进入步骤S606。
[0154] (步骤S606)第二学习部24使用第一学习部23取得的初始第一权重向量W1进行 学习,以使由目标函数信息表示的目标函数最优化,并取得第i回第二学习处理中的权重 矩阵M以及向量B。进一步具体而言,第二学习部24使用参数Q1对开发集进行解码,对所 有的k-best列表进行合并。接下来,第二学习部24例如通过PRO等学习方法,使用合并后 的k-best列表取得参数θι+1。
[0155] (步骤S607)第二学习部24使计数器i递增1,并返回步骤S605。
[0156] (步骤S608)第三学习部25取得第二学习部24最后取得的权重矩阵M以及向量 B0
[0157] (步骤S609)第三学习部25使用第二学习部24最后取得的权重矩阵M以及向量 B进行学习,以使由目标函数信息表示的目标函数最优化。此外,该学习处理称为第三学习 处理。
[0158] (步骤S610)第三学习部25取得第三学习处理的结果即Θ (W,W',M,B)。
[0159] (步骤S611)参数累积部26将第三学习部25取得的Θ (W,W',M,B)累积到参数 存储部11中,并结束处理。
[0160] 此外,在图6的流程图中,第一学习部23、第二学习部24以及第三学习部25执行 的学习方法通常是相同的。此外,不限定第一学习部23、第二学习部24以及第三学习部25 执行的学习方法。
[0161] 综上所述,根据本实施方式,能够有效地学习在翻译装置1中所使用的参数。
[0162] 此外,本实施方式中的处理也可以通过软件实现。而且,也可以通过下载软件等方 式发布该软件。另外,还可以将该软件存储在CD-ROM等存储介质中传播。此外,此做法也 适用于本说明书的其他实施方式。此外,在实现本实施方式中的学习装置2的软件是如下 的程序。即,该程序为,计算机可访问的存储介质具有:参数存储部,能够存储适用于非局部 特征函数的权重向量即第一权重向量W、适用于局部特征函数的权重向量即第二权重向量 W'、计算局部分数时所使用的权重矩阵M(uXK维)以及u维的作为偏置的向量B ;以及目标 函数信息存储部,能够存储目标函数信息,所述目标函数信息是与为了学习而最大化的目 标函数相关的信息;并且,该程序用于使计算机发挥第一学习部、第二学习部、第三学习部 以及参数累积部的功能,其中,所述第一学习部设"第二权重向量w' = 0"并进行学习,以使 由所述目标函数信息表示的目标函数最优化,并取得第一权重向量W的初始值即初始第一 权重向量W1;所述第二学习部使用所述第一学习部取得的初始第一权重向量W i进行学习, 以使由所述目标函数信息表示的目标函数最优化,并取得权重矩阵M以及向量B ;所述第三 学习部使用所述第二学习部取得的M以及B进行学习,以使由所述目标函数信息表示的目 标函数最优化,并取得第一权重向量W以及第二权重向量W' ;所述参数累积部将所述第三 学习部取得的第一权重向量W和第二权重向量W'、所述第二学习部取得的权重矩阵M以及 向量B累积到所述参数存储部中。
[0163] 另外,图7示出了用于执行本说明书中描述的程序以实现上述各种实施方式的翻 译装置1或学习装置2的计算机的外观。上述实施方式可通过计算机硬件以及在该计算机 硬件上执行的计算机程序来实现。图7是该计算机系统300的概略图,图8是系统300的 框图。
[0164] 在图7中,计算机系统300具备包括⑶-ROM驱动器的计算机301、键盘302、鼠标 303以及显示器304。
[0165] 在图8中,计算