学习而最大化的目标 函数相关的信息;第一学习部,设"第二权重向量W' = 0"并进行学习,以使由目标函数信息 表示的目标函数最优化,并取得第一权重向量W的初始值即初始第一权重向量W1;第二学 习部,使用第一学习部取得的初始第一权重向量W1进行学习,以使由目标函数信息表示的 目标函数最优化,并取得权重矩阵M以及向量B ;第三学习部,使用第二学习部取得的M以 及B进行学习,以使由目标函数信息表示的目标函数最优化,并取得第一权重向量W以及第 二权重向量W' ;以及参数累积部,将第三学习部取得的第一权重向量W和第二权重向量W'、 第二学习部取得的权重矩阵M以及向量B累积到参数存储部中。
[0058] 根据该结构,在机器翻译过程中,能够学习用于高效计算候选翻译的分数的参数。
[0059] 发明效果
[0060] 根据基于本发明的翻译装置,在机器翻译过程中,能够高效地计算候选翻译的分 数。
【附图说明】
[0061] 图1是本发明的第一实施方式中的翻译装置1的框图。
[0062] 图2是用于对本发明的第一实施方式中的翻译装置1的动作进行说明的流程图。
[0063] 图3是示出本发明的第一实施方式中的实验结果的图。
[0064] 图4是示出本发明的第一实施方式中的实验结果的图。
[0065] 图5是本发明的第二实施方式中的学习装置2的框图。
[0066]图6是用于对本发明的第二实施方式中的学习装置2的动作进行说明的流程图。 [0067]图7是本发明的上述实施方式中的计算机系统的概略图。
[0068] 图8是本发明的上述实施方式中的计算机系统的框图。
[0069] 图9是用于具体说明现有技术的问题点的图。
【具体实施方式】
[0070] 下面,参照附图,对本发明的翻译装置等的实施方式进行说明。此外,在实施方式 中赋予了相同附图标记的构成要素执行相同的动作,因而有时对其省略重复说明。
[0071] (第一实施方式)
[0072] 在本实施方式中,参照图1对翻译装置1进行说明,该翻译装置1关于非局部特征 函数导入线性模型,并且关于局部特征函数导入非线性模型,从而获得目标语言句。此外, 翻译装置1是通常执行统计机器翻译的装置。另外,翻译装置1既可以是执行基于短语的 统计机器翻译的装置,也可以是执行其他统计机器翻译的装置。
[0073] 图1是本实施方式中的翻译装置1的框图。翻译装置1具备参数存储部11、特征 函数信息存储部12、部分对信息存储部13、接受部14、向量取得部15、分数取得部16、目标 语言句取得部17以及输出部18。
[0074] 参数存储部11能够存储参数。参数例如为第一权重向量(以下也记作"W")与第 二权重向量(以下也记作"W' ")。第一权重向量W是适用于非局部特征函数的权重向量。 另外,第二权重向量W'是适用于局部特征函数的权重向量。
[0075] 另外,优选为,参数中例如还包括权重矩阵(以下也记作"M")、u维的作为偏置的 向量(以下也记作"B")。此外,权重矩阵M是UXK维的。另外,u是神经网络的输出的个 数,且是W'的维数。进一步,K是神经网络的输入即特征的个数。
[0076] 特征函数信息存储部12能够存储第一特征函数信息以及第二特征函数信息。第 一特征函数信息是与非局部特征函数相关的信息,例如是表示"h(f,e,d) "的信息。在此, "h(f,e,d)"是K维的特征函数,f为源语言句,e为目标语言句,d为导出。d包括两个以 上的部分对信息。部分对信息例如为短语对、规则对等。另外,第二特征函数信息是与局部 特征函数相关的信息,例如是表示"h'(r) "(r为导出d中包含的一个要素,h'为K维的特 征函数)的信息。
[0077] 部分对信息存储部13能够存储一个或者两个以上的部分对信息。在此,如上所 述,部分对信息是指如下信息,即具有用于构成源语言句部分的源语言部分信息以及用于 构成目标语言句部分的目标语言部分信息,例如为短语对、规则对、单词对等。
[0078] 接受部14用于接受源语言句。在此,接受是指包含如下接受方式在内的概念,即 接受从键盘、鼠标、触摸面板等输入设备输入的信息,接受经由有线或无线的通信线路发送 的信息,接受从光盘、磁盘、半导体存储器等存储介质读取出的信息等。源语言句的输入单 元可以是基于键盘、鼠标或者菜单画面的单元等,对此不作限定。
[0079] 向量取得部15使用接受部14接受的源语言句以及存储在部分对信息存储部13 中的一个以上的部分对信息,取得第一向量和第二向量。进一步具体而言,向量取得部15 将源语言句与一个以上的部分对信息适用在由第一特征函数信息表示的非局部特征函数, 从而取得第一向量。另外,向量取得部15将构成源语言句的一个以上的用语与一个以上的 部分对信息适用在由第二特征函数信息表示的局部特征函数,从而取得第二向量。此外,非 局部特征例如为n-gram语言模型、依赖结构语言模型、语句结构语言模型、语法语言模型 等。另外,局部特征例如为词向量(word embedding)特征、短语对或规则对的个数、单词 数、生成概率、源语言侧条件概率、目标语言侧条件概率、源语言侧词汇化概率、目标语言侧 词汇化概率等。
[0080] 分数取得部16使用向量取得部15取得的第一向量以及第一权重向量计算出非局 部的分数即非局部分数。具体而言,例如该分数取得部16使用第一特征函数信息h(f,e, d)以及第一权重向量W,通过数学式"WT · h(f,e,d) "计算出非局部分数。
[0081] 另外,分数取得部16通过非线性模型计算出局部分数。具体而言,使用向量取得 部15取得的第二向量以及第二权重向量计算出局部的分数即局部分数。具体而言,例如分 数取得部16使用第二特征函数信息W'以及第二权重向量h'(r),以导出d的要素 r为单 位,通过数学式"W'T· σ (M*h'(r)+B)"(其中,σ是u个各要素单位的sigmoid函数)计 算出局部分数。
[0082] 进一步,分数取得部16使用非局部分数和局部分数,取得与接受部14接受的源语 言句对应的两个以上目标语言句的分数。具体而言,例如分数取得部16通过数学式11取得 两个以上的目标语言句各自的分数。此外,分数取得部16可以以任何方式使用数学式11。
[0083] 目标语言句取得部17取得分数取得部16取得的分数最大的目标语言句。
[0084] 输出部18用于输出目标语言句取得部17取得的目标语言句。在此,输出是指包含 如下输出方式在内的概念,即显示到显示器上、利用投影仪投影、通过打印机打印、输出语 音、发送到外部装置、累积到存储介质中、向其他处理装置或其他程序等传递处理结果等。
[0085] 根据上述说明,可以说翻译装置1是用于取得并输出满足以下数学式12的目标语 言句的装置。另外,将数学式12中的模型称为AddNN模型(加法型神经网络模型)。
[0086] [数学式 12]
[0088] 此外,在数学式12中,e a ( a存在于e的正上方)为目标语言句,d a ( a存在 于d的正上方)为构成目标语言句的部分对信息(例如短语对、规则对等)。另外,在h' 0 中,假定了以各短语对或者规则对等的部分对信息为单位封闭计算的特征。另外,h()将基 于n-gram语言模型等、多个短语或者规则对等的多个部分对信息计算的特征线性组合。
[0089] 也就是说,翻译装置1通过以短语对或者规则对等部分对信息为单位导入非线性 模型,并且将非线性模型限定于对短语对或者规则对等部分对信息封闭的特征,由此实现 与线性模型同样的高速检索。
[0090] 参数存储部11、特征函数信息存储部12、部分对信息存储部13优选为非易失性的 存储介质,但是,也可通过易失性的存储介质来实现。
[0091] 不限定将参数存储到参数存储部11等中的过程。例如,既可以借助存储介质将参 数等存储在参数存储部11等中,也可以将经由通信线路等发送的参数等存储在参数存储 部11等中,或者还可以将借助输入设备输入的参数等存储在参数存储部11等中。
[0092] 接受部14可通过键盘等输入单元的设备驱动器、或者菜单画面的控制软件等实 现。
[0093] 向量取得部15、分数取得部16以及目标语言句取得部17通常可由MPU(微处理 器)和存储器等实现。向量取得部15等的处理顺序通常通过软件来实现,该软件存储在 ROM(只读存储器)等存储介质中。但是,向量取得部15等的处理顺序也可以通过硬件(专 用电路)来实现。
[0094] 既可以认为输出部18包括显示器和/或扬声器等的输出设备,也可以认为不包 括。输出部18可以通过输出设备的驱动软件、或者输出设备的驱动软件与输出设备等来实 现。
[0095] 接下来,使用图2的流程图,对翻译装置1的动作的一例进行说明。
[0096] (步骤S201)接受部14判断是否接受了源语言句f。如果接受了源语言句f,则进 入步骤S202,如果未接受源语言句f,则返回步骤S201。
[0097] (步骤S202)向量取得部15执行初始处理。初始处理例如为,从参数存储部11中 读取出第一权重向量W、第二权重向量W'、权重矩阵M和向量B,以及从特征函数信息存储部 12中读取出第一特征函数信息和第二特征函数信息。
[0098] (步骤S203)向量取得部15将1代入计数器i。
[0099] (步骤S204)向量取得部15对源语言句f中是否存在第i个要素的候选进行判 断。如果存在第i个要素的候选,则进入步骤S205,如果不存在第i个要素的候选,则进入 步骤S212。此外,源语言句f的要素的候选是指,用于构成源语言句部分的源语言部分信息 (例如,构成源语言句f的短语)。
[0100] (步骤S205)向量取得部15从部分对信息存储部13中取得与源语言句f中的第 i个要素的候选相对应的、目标语言句e的候选中的一个以上的要素的候选。目标语言句e 的候选中的一个以上的要素的候选为目标语言部分信息。
[0101](步骤S206)向量取得部15取得目标语言句的一个以上非局部特征,所述目标语 言句包括在步骤S205中取得的一个以上的各要素的候选。
[0102] (步骤S207)向量取得部15将在步骤S206中取得的一个以上的特征适用在第一 特征函数信息,从而取得第一向量。
[0103] (步骤S208)向量取得部15取得在步骤S205中取得的一个以上的各要素的候选 中的一个以上局部特征。
[0104] (步骤S209)向量取得部15将在步骤S208中取得的一个以上的特征适用在第二 特征函数信息,从而取得第二向量。
[0105] (步骤S210)分数取得部16使用第一向量与第一权重向量计算出非局部的分数即 非局部分数。另外,分数取得部16使用第二向量与第二权重向量计算出局部的分数即局部 分数。进一步,分数取得部16使用非局部分数与局部分数计算出分数。此外,在该分数取 得部16中执行的分数计算例如使用数学式11来进行。
[0106] (步骤S211)分数取得部16使计数器i递增1,并返回步骤S204。
[0107](步骤S212)目标语言句取得部17在一个或者两个以上目标语言句e的候选中, 取得分数取得部16取得的分数最大的目标语言句。
[0108] (步骤S213)输出部18输出在步骤S212中取得的目标语言句e,并返回步骤S201。
[0109] 此外,在图2的流程图中,通过关闭电源或插入处理结束的中断来结束处理。
[0110] (实验)
[0111] 下面,对本实施方式中的翻译装置1的实验结果进行说明。本实验采用 从汉语到英语