机器翻译方法及系统的制作方法

文档序号:6626661阅读:364来源:国知局
机器翻译方法及系统的制作方法
【专利摘要】本发明公开了一种机器翻译方法及系统,属于自然语言处理研究领域。所述方法包括:获取源语言测试句子;分别得到词法分析结果和句法分析结果;利用句法分析结果,抽取谓词论元结构;根据目标语言的句法特点,将谓词论元结构进行结构转换;利用转换后的谓词论元结构和训练得到的翻译规则,对源语言测试句子进行翻译。通过利用句子结构信息和谓词论元结构的语义信息,使用源语言端的句法分析结果,通过谓词论元结构转换处理,实现基于谓词论元结构转换的统计机器翻译;解决了现有技术中翻译规则的冗余规则数量非常大,从而致使机器翻译性能非常差的问题;达到了可有效地改善句子结构的全局调序性能,减少抽取翻译规则数量,提高翻译质量的效果。
【专利说明】机器翻译方法及系统

【技术领域】
[0001] 本发明涉及自然语言处理研究领域,特别涉及一种机器翻译方法及系统。

【背景技术】
[0002] 当前,机器翻译的主流方法大致可以分为基于规则和基于语料库两种方法,基于 语料库的方法又可以细分为基于实例的方法和基于统计的方法。基于统计的机器翻译方法 能够以双语平行语料库为学习数据,通过训练自动获取翻译规则,同时,结合语言模型对测 试语句进行翻译。随着统计机器翻译模型的不断改良,先后出现了基于词的、基于短语和基 于句法结构的统计模型,译文质量得到不断改善。
[0003] 但是,传统的统计机器翻译模型,更多地利用句子的层次结构片段和属性进行建 模,要提高统计机器翻译系统的性能,则要求在建模的过程中增加更多的句法结构和语义 信息。
[0004] 既有的统计机器翻译模型,在源语言和目标语言之间的句法结构存在较大的差异 性时,调序显得极其重要却又相当困难。既有统计模型在建模时,充分考虑了解决局部调序 的对策。但是,这些传统技术,对语法结构差异性较大的语言对时,对句子的全局调序效 果较差。如日语句法的主宾谓(SOV,Subject-Object-Verb)结构和汉语的主谓宾(SV0, Subject - Verb - Object)结构之间差异性较大,传统技术难以有效解决。既有方法常常通 过机器翻译的前处理或者后处理技术调整句法结构,以降低语言结构上的差异性,并没有 从统计建模的角度,提出合理的解决方案。
[0005] 因此,在机器翻译的统计建模过程中融合更多的句法结构和语义信息是一种良好 的解决方案,可有效推动统计机器翻译理论的发展,实现真正意义上的统计和规则相融合 的机器翻译方法,达到降低冗余规则数量,改善语义结构、语义相关性和长距离调序性能, 提商翻译质量。
[0006] 谓词论元结构(PAS,Predicate Argument Structure)是一种浅层语义结构,用来 表示谓词和句子成分的论元之间的谓词逻辑关系,通过使用施事、受事及谓词表现句子成 分的浅层语义关系。它从某种程度上就表示出句子的主体框架结构及其语义属性。另一方 面,句法结构包含主谓宾等成分。谓词论元结构和句法结构,在句法结构的词位和语义结构 的义位基本一致的前提下,可以把施事和受事作为主语或者宾语的特征属性,实现句法结 构和语义结构的融合。如合理使用格语法和依存文法,可以实现句法结构和语义结构的融 合。
[0007] 谓词论元结构是构式语法理论的基础,构式语法理论是在对转换生成语法理论的 批判、继承和发展的结果。构式语法(Construction Grammar),也称为"构件语法"、"框架 语法"、"构块式语法"、"架构语法"等。
[0008] 构式语法继承了费尔默提出的框架语义学的理论。框架语义学注重研究如何有效 解决话语整体的语义理解和描写问题,通过词汇意义与语法模式之间的联系,实现对概念 结构和语义-句法映射关系的描写。框架语义学是格语法理论的系统化、具体化,是格语法 发展的第三个阶段。
[0009] 通常,框架语义学以谓词为中心,通过使用谓词的框架及其框架元素(即在谓 词-论元结构中的论元)之间的语义关系实现框架语义描述。在其描述过程中,动词与具 体的框架角色相联,通过构式实现各个论元的角色功能(例如施事、受事、目标),各个论元 则具有相应的语法功能项,如主语(Sub),直接宾语(Ob j)或者间接宾语(Ob j2)等。
[0010] 因此,利用谓词论元结构和句法结构信息作为全局调序的关键有效特征进行统计 机器翻译建模,可有助于实现真正意义上的基于语义的统计机器翻译模型,推动统计机器 翻译理论的发展,提高翻译质量。
[0011] 现有技术中,一种基于谓词论元结构的层次机器翻译方法:将句子中所有的谓词 论元结构有机的组织成图状结构,再将此结构作为改进层次短语机器翻译的顶层语义骨架 结构,从而直接将谓词论元结构建模到层次短语机器翻译中。直接在谓词语义结构上对翻 译过程进行建模,将语义独立的片段单独翻译并依据它们之间的结构组合成最终译文,由 此得到的译文具有更好的语义相关性、语义结构和长距离调序特征,并因此降低了机器翻 译生成毫无意义译文的概率。
[0012] 该专利文献公布的
【发明内容】
,在进行层次机器翻译方法的建模过程中,并行抽取 层次短语翻译规则和谓词语义结构规则,由于没有有效地使用句法结构或谓词语义结构规 则指导层次短语翻译规则的抽取,因此,无法有效降低被抽取的层次短语翻译规则的冗余 规则数量。
[0013] 现有技术中,一种利用句子的谓词论元结构进行统计机器翻译的方法:首先对双 语语料中的双语句子对进行分词、自动词对齐、句法分析以及双语联合语义角色标注;根据 所述双语联合语义角色标注的结果,抽取所述双语句子对的谓词论元结构转换规则,以对 两种语言的谓词论元结构之间的对应关系进行建模;翻译时,利用谓词论元结构转换规则, 匹配待翻译句子的多个语义角色标注结果,并相应进行翻译;根据所述翻译规则的匹配和 翻译结果,构造解码超图,最终生成翻译结果。
[0014] 该专利文献公布的
【发明内容】
,需要对双语语料中的双语句子对进行句法分析、双 语联合语义角色标注、双语句子对的谓词论元结构转换规则等处理。其统计翻译建模,对双 语的句法分析以及双语联合语义角色标注的性能具有很强的依赖性。简而言之,当源语言 或者目标语言的句法分析精度受限时,将对系统建模或翻译产生较大的影响,而且,双语联 合语义角色标注工作存在研发成本较大等问题。


【发明内容】

[0015] 为了解决现有技术中被抽取的层次短语翻译规则的冗余规则数量非常大,从而致 使机器翻译性能非常差的问题,本发明实施例提供了一种机器翻译方法及系统。所述技术 方案如下:
[0016] 第一方面,提供了一种机器翻译方法,所述方法包括翻译步骤,
[0017] 所述翻译步骤包括:
[0018] 获取输入的源语言测试句子;
[0019] 对所述源语言测试句子进行词法分析,得到所述源语言测试句子的词法分析结 果;
[0020] 对所述源语言测试句子的词法分析结果进行句法结构分析,得到所述源语言测试 句子的句法分析结果;
[0021] 利用所述源语言测试句子的句法分析结果,抽取所述源语言测试句子的谓词论元 结构;
[0022] 根据目标语言的句法特点,将所述谓词论元结构进行结构转换,得到符合所述目 标语言的句法特点的谓词论元结构;
[0023] 利用转换后的所述谓词论元结构和翻译规则库中训练得到的翻译规则以及建立 的目标语言模型,对所述源语言测试句子进行翻译,输出语言为所述目标语言的翻译结果。
[0024] 可选的,所述方法还包括训练步骤,
[0025] 所述训练步骤包括:
[0026] 获取输入的双语平行语料的源语言训练句子和目标语言训练句子;
[0027] 分别对所述源语言训练句子和所述目标语言训练句子进行词法分析,得到所述源 语言训练句子的词法分析结果和所述目标语言训练句子的词法分析结果;
[0028] 利用所述源语言训练句子的词法分析结果,对所述源语言训练句子进行句法结构 分析,得到所述源语言训练句子的句法分析结果;
[0029] 利用所述源语言训练句子的句法分析结果,抽取所述源语言训练句子的谓词论元 结构;
[0030] 根据目标语言的句法特点,将所述源语言训练句子的谓词论元结构进行结构转 换,得到符合所述目标语言的句法特点的谓词论元结构;
[0031] 利用转换后的所述谓词论元结构,抽取翻译规则,将所述翻译规则放入所述翻译 规则库中;
[0032] 根据目标语言的语料库建立目标语言模型,将所述目标语言模型放入所述翻译规 则库中。
[0033] 可选的,所述对所述源语言测试句子的词法分析结果进行句法结构分析,得到所 述源语言测试句子的句法分析结果,包括:
[0034] 采用依存结构分析或短语结构分析的方法,对所述源语言测试句子的词法分析结 果进行句法结构分析,得到所述句法分析结果;
[0035] 或,
[0036] 采用依存结构树和短语结构树相互转化的方法,对所述源语言测试句子的词法分 析结果进行句法结构分析,得到所述句法分析结果。
[0037] 可选的,所述利用所述源语言测试句子的句法分析结果,抽取所述源语言测试句 子的谓词论元结构,包括:
[0038] 采用谓词格框架,从所述句法分析结果中抽取谓词论元结构,得到所述源语言训 练句子的谓词论元结构;
[0039] 或,
[0040] 采用格语法或依存文法,从所述句法分析结果中抽取谓词论元结构,得到所述源 语言训练句子的谓词论元结构;
[0041] 或,
[0042] 采用所述源语言训练句子的依存树或短语结构树,从所述句法分析结果中抽取谓 词论元结构,得到所述源语言训练句子的谓词论元结构。
[0043] 可选的,所述根据目标语言的句法特点,将所述谓词论元结构进行结构转换,包 括:
[0044] 根据所述源语言训练句子中谓词所对应的目标语言的谓词的句法结构特点,将所 述源语言训练句子的谓词论元结构转化为目标语言的句法结构或目标语言的谓词论元结 构。
[0045] 可选的,在所述抽取所述源语言测试句子的谓词论元结构之后,还包括:
[0046] 对所述源语言测试句子的谓词论元结构中的构成元素分别进行泛化扩展;
[0047] 在所述将所述谓词论元结构进行结构转换之后,还包括:
[0048] 将转换后的所述谓词论元结构中的构成元素分别进行泛化扩展。
[0049] 可选的,所述利用转换后的所述谓词论元结构和翻译规则库中训练得到的翻译规 则以及建立的语言模型,对所述源语言测试句子进行翻译,输出语言为所述目标语言的翻 译结果,包括:
[0050] 对所述源语言训练句子中的谓词以及谓词论元进行翻译;
[0051] 按照转换后的所述谓词论元结构所对应的句法结构顺序,生成目标语言所对应句 子框架的翻译结果;
[0052] 对所述源语言训练句子的谓词论元结构中的谓词论元以及谓词论元的子节点所 构成的语块进行翻译,生成子树的翻译结果;
[0053] 将所述句子框架的翻译结果和所述子树的翻译结果进行整合,得到目标语言所对 应句子的翻译结果。
[0054] 可选的,所述对所述源语言测试句子进行翻译,包括:
[0055] 采用基于词、基于短语或基于句法结构的统计翻译模型以及建立的所述语言模 型,对所述源语言测试句子进行翻译解码。
[0056] 第二方面,提供了一种机器翻译系统,所述系统包括翻译子系统,
[0057] 所述翻译子系统包括:
[0058] 第一获取模块,用于获取输入的源语言测试句子;
[0059] 第一词法分析模块,用于对所述第一获取模块获取到的所述源语言测试句子进行 词法分析,得到所述源语言测试句子的词法分析结果;
[0060] 第一句法分析模块,用于对所述第一词法分析模块分析得到的所述源语言测试句 子的词法分析结果进行句法结构分析,得到所述源语言测试句子的句法分析结果;
[0061] 第一抽取模块,用于利用所述第一句法分析模块分析得到的所述源语言测试句子 的句法分析结果,抽取所述源语言测试句子的谓词论元结构;
[0062] 第一转换模块,用于根据目标语言的句法特点,将所述第一抽取模块抽取的所述 谓词论元结构进行结构转换,得到符合所述目标语言的句法特点的谓词论元结构;
[0063] 翻译模块,用于利用所述第一转换模块转换后的所述谓词论元结构和翻译规则库 中训练得到的翻译规则以及建立的目标语言模型,对所述源语言测试句子进行翻译,输出 语言为所述目标语言的翻译结果。
[0064] 可选的,所述系统还包括训练子系统,
[0065] 所述训练子系统包括:
[0066] 第二获取模块,用于获取输入的双语平行语料的源语言训练句子和目标语言训练 句子;
[0067] 第二词法分析模块,用于分别对所述第二获取模块获取到的所述源语言训练句子 和所述目标语言训练句子进行词法分析,得到所述源语言训练句子的词法分析结果和所述 目标语言训练句子的词法分析结果;
[0068] 第二句法分析模块,用于利用所述第二词法分析模块分析得到的所述源语言训练 句子的词法分析结果,对所述源语言训练句子进行句法结构分析,得到所述源语言训练句 子的句法分析结果;
[0069] 第二抽取模块,用于利用所述第二句法分析模块分析得到的所述源语言训练句子 的句法分析结果,抽取所述源语言训练句子的谓词论元结构;
[0070] 第二转换模块,用于根据目标语言的句法特点,将所述第二抽取模块抽取得到的 所述源语言训练句子的谓词论元结构进行结构转换,得到符合所述目标语言的句法特点的 谓词论元结构;
[0071] 第三抽取模块,用于利用所述第二转换模块转换后的所述谓词论元结构,抽取翻 译规则,将所述翻译规则放入所述翻译规则库中;
[0072] 模型建立模块,用于根据目标语言的语料库建立所述目标语言模型,将所述目标 语言模型放入所述翻译规则库中。
[0073] 可选的,所述第一句法分析模块,包括:
[0074] 第一句法分析单元,用于采用依存结构分析或短语结构分析的方法,对所述源语 言测试句子的词法分析结果进行句法结构分析,得到所述句法分析结果;
[0075] 或,
[0076] 第二句法分析单元,用于采用依存结构树和短语结构树相互转化的方法,对所述 源语言测试句子的词法分析结果进行句法结构分析,得到所述句法分析结果。
[0077] 可选的,所述第一抽取模块,包括:
[0078] 第一抽取单元,用于采用谓词格框架,从所述第一句法分析模块分析得到的所述 句法分析结果中抽取谓词论元结构,得到所述源语言训练句子的谓词论元结构;
[0079] 或,
[0080] 第二抽取单元,用于采用格语法或依存文法,从所述第一句法分析模块分析得到 的所述句法分析结果中抽取谓词论元结构,得到所述源语言训练句子的谓词论元结构;
[0081] 或,
[0082] 第三抽取单元,用于采用所述源语言训练句子的依存树或短语结构树,从所述第 一句法分析模块分析得到的所述句法分析结果中抽取谓词论元结构,得到所述源语言训练 句子的谓词论元结构。
[0083] 可选的,所述第一转换模块,还用于:
[0084] 根据所述源语言训练句子中谓词所对应的目标语言的谓词的句法结构特点,将所 述源语言训练句子的谓词论元结构转化为目标语言的句法结构或目标语言的谓词论元结 构。
[0085] 可选的,所述翻译子系统还包括:
[0086] 第一扩展模块,用于对所述第一抽取模块抽取得到的所述源语言测试句子的谓词 论元结构中的构成元素分别进行泛化扩展;
[0087] 第二扩展模块,用于将所述第一转换模块转换后的所述谓词论元结构中的构成元 素分别进行泛化扩展。
[0088] 可选的,所述翻译模块,包括:
[0089] 第一翻译单元,用于对所述源语言训练句子中的谓词以及谓词论元进行翻译;
[0090] 第一生成单元,用于按照转换后的所述谓词论元结构所对应的句法结构顺序,生 成目标语言所对应句子框架的翻译结果;
[0091] 第二生成单元,用于对所述源语言训练句子的谓词论元结构中的谓词论元以及谓 词论元的子节点所构成的语块进行翻译,生成子树的翻译结果;
[0092] 整合单元,用于将所述第一生成单元生成的所述句子框架的翻译结果和所述第二 生成单元生成的所述子树的翻译结果进行整合,得到目标语言所对应句子的翻译结果。 [0093] 可选的,所述翻译模块,还用于:
[0094] 采用基于词、基于短语或基于句法结构的统计翻译模型以及建立的所述语言模 型,对所述源语言测试句子进行翻译解码。
[0095] 本发明实施例提供的技术方案带来的有益效果是:
[0096] 通过有效利用句子结构信息和谓词论元结构的语义信息,仅使用源语言端的句法 分析结果,通过谓词论元结构转换处理,实现基于谓词论元结构转换的翻译;解决了现有技 术中被抽取的层次短语翻译规则的冗余规则数量非常大,从而致使机器翻译性能非常差的 问题;达到了可有效地改善句子结构的全局调序性能,减少抽取翻译规则数量,提高翻译质 量,对发展和实现基于语义的统计机器翻译理论起到一定的促进作用的效果。

【专利附图】

【附图说明】
[0097] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。
[0098] 图1是本发明一个实施例中提供的机器翻译方法的方法流程图;
[0099] 图2是本发明另一个实施例中提供的机器翻译方法的方法流程图;
[0100] 图3是本发明一个实施例中提供的日语依存句法分析结果的示意图;
[0101] 图4是本发明一个实施例提供的日语动词格框架抽取结果的示意图;
[0102] 图5是本发明一个实施例中提供的日语词汇分析结果和汉语参考译文句子中各 成分之间对应关系的示意图;
[0103] 图6是根据本发明一个实施例中提供的对日语训练句子进行抽取的示意图;
[0104] 图7是根据本发明一个实施例中提供日汉谓词结构转换规则的示意图;
[0105] 图8是本发明一个实施例中提供的对日语句子进行翻译的示意图;
[0106] 图9是本发明一个实施例中提供的机器翻译系统的结构示意图;
[0107] 图10是本发明另一个实施例中提供的机器翻译系统的结构示意图。

【具体实施方式】
[0108] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述。
[0109] 图1是本发明一个实施例中提供的机器翻译方法的方法流程图,该机器翻译方法 可以应用于计算机中,该计算机可以为用于语言翻译的机器或设备,也可以为用于在语言 翻译前进行训练过程的机器或设备。该机器翻译方法可以包括翻译步骤,该翻译步骤可以 包括:
[0110] 步骤101 :获取输入的源语言测试句子;
[0111] 步骤102 :对源语言测试句子进行词法分析,得到源语言测试句子的词法分析结 果;
[0112] 步骤103 :对源语言测试句子的词法分析结果进行句法结构分析,得到源语言测 试句子的句法分析结果;
[0113] 步骤104 :利用源语言测试句子的句法分析结果,抽取源语言测试句子的谓词论 元结构;
[0114] 步骤105 :根据目标语言的句法特点,将该谓词论元结构进行结构转换,得到符合 目标语言的句法特点的谓词论元结构;
[0115] 步骤106 :利用转换后的谓词论元结构和翻译规则库中训练得到的翻译规则以及 建立的语言模型,对源语言测试句子进行翻译,输出语言为目标语言的翻译结果。
[0116] 综上所述,本发明实施例中提供的机器翻译方法,通过有效利用句子结构信息和 谓词论元结构的语义信息,仅使用源语言端的句法分析结果,通过谓词论元结构转换处理, 实现基于谓词论元结构转换的翻译;解决了现有技术中被抽取的层次短语翻译规则的冗余 规则数量非常大,从而致使机器翻译性能非常差的问题;达到了可有效地改善句子结构的 全局调序性能,减少抽取翻译规则数量,提高翻译质量,对发展和实现基于语义的统计机器 翻译理论起到一定的促进作用的效果。
[0117] 图2是本发明另一个实施例中提供的机器翻译方法的方法流程图,该机器翻译方 法可以应用于计算机中,该计算机可以为用于语言翻译的机器或设备,也可以为用于在语 言翻译前进行训练过程的机器或设备。该机器翻译方法可以包括训练步骤和翻译步骤,
[0118] 该翻译步骤可以包括:
[0119] 步骤201 :获取输入的源语言测试句子;
[0120] 步骤202 :对源语言测试句子进行词法分析,得到源语言测试句子的词法分析结 果;
[0121] 步骤203 :对源语言测试句子的词法分析结果进行句法结构分析,得到源语言测 试句子的句法分析结果;
[0122] 步骤204 :利用源语言测试句子的句法分析结果,抽取源语言测试句子的谓词论 元结构;
[0123] 步骤205 :根据目标语言的句法特点,将该谓词论元结构进行结构转换,得到符合 目标语言的句法特点的谓词论元结构;
[0124] 步骤206 :利用转换后的谓词论元结构和翻译规则库中训练得到的翻译规则以及 建立的目标语言模型,对源语言测试句子进行翻译,输出语言为目标语言的翻译结果。
[0125] 该训练步骤可以包括:
[0126] 步骤207 :获取输入的双语平行语料的源语言训练句子和目标语言训练句子;
[0127] 步骤208 :分别对源语言训练句子和目标语言训练句子进行词法分析,得到源语 言训练句子的词法分析结果和目标语言训练句子的词法分析结果;
[0128] 步骤209 :利用源语言训练句子的词法分析结果,对源语言训练句子进行句法结 构分析,得到源语言训练句子的句法分析结果;
[0129] 步骤210 :利用源语言训练句子的句法分析结果,抽取源语言训练句子的谓词论 元结构;
[0130] 步骤211 :根据目标语言的句法特点,将源语言训练句子的谓词论元结构进行结 构转换,得到符合目标语言的句法特点的谓词论元结构;
[0131] 步骤212 :利用转换后的谓词论元结构,抽取翻译规则,将翻译规则放入翻译规则 库中;
[0132] 步骤213 :根据目标语言的语料库建立目标语言模型,将目标语言模型放入翻译 规则库中。
[0133] 需要说明的是,上述步骤中步骤201至步骤206可以单独实施成为机器翻译方法 中的翻译过程的实施例,上述步骤中步骤207至步骤213可以单独实施成为机器翻译方法 中的训练过程的实施例。
[0134] 为了便于对图2所示实施例的理解,以下则对图2所示实施例涉及的训练步骤和 翻译步骤进行详细说明,具体如下:
[0135] 在步骤201中,获取输入的源语言测试句子。
[0136] 这里可以以文件的形式、键盘输入形式或其他形式对源语言测试句子进行输入, 计算机在获取到输入的源语言测试句子之后,则可以将源语言测试句子存储在计算机的存 储介质中,该计算机为用于实现语言翻译的设备。本实施例对源语言测试句子的输入方式 不作具体限定。
[0137] 在步骤202中,对源语言测试句子进行词法分析,得到源语言测试句子的词法分 析结果。
[0138] 计算机在获取到输入的源语言测试句子之后,则可以对该源语言测试句子进行词 法分析,得到该源语言测试句子的词法分析结果。
[0139] 在本发明的实施例中,以日语为源语言,以汉语为目标语言为例,日语的词法分析 可以使用Mecab、Chasen、或者JUMAN等日语形态素解析工具进行分词处理。
[0140] 而如果源语言为韩剧,则对汉语的词法分析可以使用ICTCLAS或者斯坦福大学的 分词器等对输入的源语言测试句子进行词法分析。
[0141] 很显然,还可以通过其他日语形态素解析工具对日语句子进行词法分析,也可以 通过其他词法分析工具对汉语句子、英语句子或其他语言句子进行词法分析,针对其他不 同语言的源语言句子或目标语言句子,还可以通过其他词法分析工具对源语言训练句子或 目标语言训练句子进行分析,本实施例对词法分析工具不作具体限定。
[0142] 在步骤203中,对源语言测试句子的词法分析结果进行句法结构分析,得到源语 言测试句子的句法分析结果。
[0143] 源语言测试句子的句法分析结果可以用句法结构树来表示。
[0144] 计算机在得到源语言端的源语言测试句子的分词分析结果之后,需要对该源语言 测试句子进行句法结构分析。在本实施例中可使用句法分析器Cabocha或者句法分析器 KNP(由京都大学开发的日语句法分析系统)进行句法结构分析。
[0145] 请参见图3所示,其是本发明一个实施例中提供的日语依存句法分析结果的示意 图,在图3中,显示的是日语句子:"彼〇友達力5大学T多^科目f教λ 3 (他的朋友在大学 教很多科目)"的依存句法分析结果的依存结构树。也即,图3中所示的是对上述源语言训 练句子"彼〇友達#大学Τ多Ρ科目&教λ 3"进行句法结构分析后得到的句法分析结果, 该句法分析结果可以通过图3中所示的句法结构树进行表示。
[0146] 在步骤204中,利用源语言测试句子的句法分析结果,抽取源语言测试句子的谓 词论元结构。
[0147] 计算机在得到源语言端的源语言测试句子的句法分析结果之后,需要对源语言端 的源语言测试句子进行谓词论元结构抽取处理,获取源语言测试句子的谓词论元结构。谓 词论元结构的自动抽取,需要对源语言的句法结构和谓词论元结构进行适当的定义,以整 合句法结构和语义结构信息。
[0148] 在利用源语言测试句子的句法分析结果,抽取源语言测试句子的谓词论元结构 时,可以包括如下三种方式:
[0149] 第一种方式,采用谓词格框架,从句法分析结果中抽取谓词论元结构,得到源语言 训练句子的谓词论元结构;
[0150] 也即可以利用谓词格框架来表示谓词论元结构。
[0151] 第二种方式,采用格语法或依存文法,从句法分析结果中抽取谓词论元结构,得到 源语言训练句子的谓词论元结构;
[0152] 第三种方式,采用源语言训练句子的依存树或短语结构树,从句法分析结果中抽 取谓词论元结构,得到源语言训练句子的谓词论元结构。
[0153] 在抽取谓词论元结构之后,还可以对谓词论元结构中的元素进行泛化扩展,比如 将"大学"的语义信息泛化扩展为"场所",还比如将"科目"的语义信息扩展为"学科"。具 体请参见对图4和图5的描述。
[0154] 请参见图4所示,其是本发明一个实施例提供的日语动词格框架抽取结果的示意 图。句子"彼〇友達#大学^多^科目&教无3 "的中心词为动词"教无3 ",其表层格框架 由动词以及三个名词短语组成,施事格"彼〇友達# ",场所格"大学Τ "以及对象格"科目 & "。其深层格框架如图4所示的格助词附加每个格所属的语义信息形成语义约束关系,如 格助词"#(力')"的附属词"彼〇友達(他的朋友)"的语义信息可以是"人",格助词 (r)"的附属词"大学(场所)"的语义信息可以是"场所",对象格^ 的附属词 "科目(科目)"的语义信息可以是"学科",则以动词"教无3 "为中心词,施事格的"人"、方 位格的"场所"和对象格的"学科"形成日语动词"教λ 3 "的具有语义约束关系的深层语义 格框架,同时,该格框架也是日语句子的整体结构的主体框架。
[0155] 为了便于理解,请参见图5所示,其是本发明一个实施例中提供的日语词汇分析 结果和汉语参考译文句子中各成分之间对应关系的示意图。如图5所示,根节点的动词"教 无石"和第一层节点的施事格"彼〇友達# ",场所格"大学Τ "以及对象格"科目& "构成格 框架。
[0156] 格框架源于格语法理论,格语法是一种着重探讨句法结构与语义之间关系的语法 理论和语义学理论。格语法包括基本规则、词汇和转换等三个组成部分。命题中需用的格 包括:施事格、工具格、受事格、使成格、方位格、客体格等6种,之后,在语言分析时又加了 受益格、源点格、终点格及伴随格等。框架语义学是格语法理论的系统化、具体化,是格语法 发展的第三个阶段。
[0157] 格语法理论强调句子结构由一个核心动词以及许多名词短语组成,每个短语与核 心动词均存在某种特定的格关系。即格框架文法中的格框架描述了自然语言句子的深层结 构和语义信息,在自然语言处理中起到十分重要的作用。
[0158] 在本实施例中,以日语为源语言,采用日语格语法的谓词格框架实现日语的句法 结构和语义结构的整合(即上面抽取谓词论元结构时的第一种方式)。日语属于黏着语系, 具有典型的格语法的特点,日语谓词的格框架,既是日语句子的句法结构特征,同时又满足 具有语义信息的谓词论元结构特征。日语的谓词论元结构可以作为日语格框架中的格的语 义属性加以整合。本实施例可以使用前述JUMAN分词工具和KNP句法分析器得到包含谓词 论元结构信息的日语依存句法分析结果。通过分析抽取日语句子中谓词的格框架,获取日 语句法结构和谓词论元结构语义信息。
[0159] 本实施例中,为了说明日语格框架的抽取过程,对日语格框架的形式化描述如下:
[0160] 使用三元组< V,C,R >定义日语格框架文法。其中:
[0161] V表示日语谓词原型的集合,以区别于谓词的活用形。
[0162] C表示日语谓词的活用形集合,活用形描述谓词在句子中的时态、意愿、假设、祈 使、能动、被动等变化形式。R表示日语格助词集合,日语格助词中的表层格包括:力'格、^ 格、二格、力9格、、格、卜格、3 U格、7 f'格、f'格等,其代表性的格助词分别包括:H !二、分6、?、i、J: >9、f ΤT日等。除此以外,日语副助词" ii "、" T ii "和"(二ii "等也具 有格助词的特性。
[0163] 对于任意一个日语句子的中心谓词,包括动词、形容词或形容动词。其格框架(CF) 可由三元组< A ?,P >定义。其中:
[0164] h e V为句子的中心谓词的原型或词干。
[0165] t e C为句子的中心谓词在句中的活用形。
[0166] p e /T表示句子的中心谓词的格框架的各个格助词,每一个格助词的顺序按照 其在句子中的先后顺序进行排序并进行标号,其中R*表示集合R中所有元素形成的闭包集 合,即R中的所有元素的排列组合形成的字符串集合。
[0167] 日语格框架的自动获取的方法如下:
[0168] 对于一个完成了日语依存句法分析的句子,其中心谓词可从依存句法分析树(即 句法分析结果)的根节点的语块中获取。该中心谓词的格框架,可以由两种方法得到:
[0169] 方法一,从既有日语依存分析树自动抽取谓词格框架。通过分析与句子中心谓词 所在节点有直接依存关系的日语格助词与集合R中的元素进行模式匹配,得到该中心谓词 的格框架。如图3所示的日语依存树,与动词词干"教λ 有依存关系的格助词分别为 " " Τ "和" f ",对应的表层格关系为"力格"," r格"以及" 7格"。
[0170] 方法二,是使用既有日语格框架库,与日语句子的依存分析树进行模式匹配获取 格框架的方法。该方法的优点是可有效弥补日语句子当中被省略的日语格助词,使获取的 日语格框架成份具有完整性。
[0171] 格框架库中,动词"教λ 的部分词汇化格框架,与句子中的中心词和与之有依 存关系的格助词、及格助词所依存的词干进行模式匹配,可以获取动词"教λ 3 "的格框架。
[0172] 当使用第二种方法抽取特定中心谓词的格框架时,存在复数格框架选择的可能 性。在此情况下,可结合第一种方法获取的格框架,计算格框架的相似度,选取与第一种方 法相似度最高的候选结果作为该中心谓词的格框架。
[0173] 依据上述格框架的定义< A >,图3所表述的句子中,动词"教λ 的格框 架表述形式为:h:教λ石t :基本形P :xl:力格x2: r格χ3: ^格
[0174] 其格框架表现形式为:<教无3,基本形,:xl:力格x2: r格χ3: ?格>
[0175] 依据此方法,可以获得日语输入句子的谓词的整体或者局部的句法结构和谓词论 元结构,通过日语格框架整合了日语的句法结构和语义结构信息。
[0176] 如图6所示,其是根据本发明一个实施例中提供的对日语训练句子进行抽取的示 意图。依据上述方法,可以从日语依存树6(a)抽取日语动词"教λ 3 "的格框架6(b),在抽 取上述动词的格框架之后,可是使用日语格框架词典,通过模式识别,实现日语谓词格框架 的语义泛化处理(即对日语谓词格框架进行泛化扩展)及各个格在句子中的句法语义功能 的标注。日语格框架词典,可以使用"日本語語彙大系第5卷"。
[0177] 该词典包括6118个谓词和14,819个动词格框架。格要素的语义约束,采用"日本 語語彙大系第1卷"的2710个名词的语义属性,因而容易通过简单的模式识别,实现谓词格 框架的语义泛化处理及每个格的句法语义功能的标注。得到如图6(c)的结果。
[0178] 同时,在抽取源语言句子的格框架之后,还可以抽取源语言句子中谓词论元及其 子节点所构成的语言片段(或称语言块或语块),如图6 (d)所示。
[0179] 在步骤205中,根据目标语言的句法特点,将该谓词论元结构进行结构转换,得到 符合目标语言的句法特点的谓词论元结构。
[0180] 计算机在根据目标语言的句法特点,将谓词论元结构进行结构转换时,可以包 括:
[0181] 根据源语言训练句子中谓词所对应的目标语言的谓词的句法结构特点,将源语言 训练句子的谓词论元结构转化为目标语言的句法结构或目标语言的谓词论元结构。
[0182] 日语谓词论元结构转换,实质上可通过谓词日语格框架的格和谓词构成的顺序的 调整加以实现。汉语的句法结构为主谓宾结构,日语的句法结构是主宾谓结构,且日语中的 格是显性格,如步骤204中所描述的,每一个格在日语谓词格框架中,具有特定的语法结构 和语义功能。
[0183] 本实施例,根据汉语和日语语法主体结构上的差异性,人工制定请参见图7,图7 是根据本发明一个实施例中提供日汉谓词结构转换规则的示意图。
[0184] 如图6(b)所示,在步骤204抽取谓词"教无石"的格框架:〈教无石,基本形,:xl: 方格x2: r格x3: 7格>
[0185] 以该框架中的< xl:力格x2: r格x3: ?格> 部分,和图7中所示的第0002条 规则中的"<Sub( #)Adv( T )0bj( f )Pred>"进行模式匹配,获取该句法结构,通过得到 图7中表格的汉语端的信息,可以得到符合汉语端的转换结果:〈Sub( #)Adv( T )Pred 〇bj( & )>。
[0186] 可选的,在将谓词论元结构进行结构转换之后,还包括:将转换后的谓词论元结构 中的构成元素分别进行泛化扩展。
[0187] 在步骤206中,利用转换后的谓词论元结构和翻译规则库中训练得到的翻译规则 以及建立的目标语言模型,对源语言测试句子进行翻译,输出语言为目标语言的翻译结果。
[0188] 在利用转换后的谓词论元结构和翻译规则库中训练得到的翻译规则以及建立的 语言模型,对源语言测试句子进行翻译,输出语言为目标语言的翻译结果时,可以包括如下 步骤:
[0189] 1)对源语言训练句子中的谓词以及谓词论元进行翻译;
[0190] 2)按照转换后的谓词论元结构所对应的句法结构顺序,生成目标语言所对应句子 框架的翻译结果;
[0191] 3)对源语言训练句子的谓词论元结构中的谓词论元以及谓词论元的子节点所构 成的语块进行翻译,生成子树的翻译结果;
[0192] 4)将句子框架的翻译结果和子树的翻译结果进行整合,得到目标语言所对应句子 的翻译结果。
[0193] 下面通过一个实施例,对上述的步骤1)至步骤4)进行说明。
[0194] 在该实施例中,日语和汉语的词法分析可以分别使用步骤202所描述的词法分析 工具。日语的句法分析可以使用步骤203所描述的分析工具。汉语的句法分析工具,在需 要时,可以使用分析工具Stanford Parser。
[0195] 使用源语言和目标语言平行句对,对双语句子对进行词对齐处理。在本实施例中, 可使用GIZA++工具进行日-汉句子对进行自动词对齐处理,得到日-汉对齐结果。
[0196] 用于解码的语言模型,可以使用SRL开源工具构建。
[0197] 抽取翻译规则及解码处理,可以借鉴开源工具MOSES。
[0198] 优化参数处理,可以借鉴使用MERT【文献1】:对模型参数进行优化,在开发集上 获得较高的BLEU值。
[0199] 【文献1】 Och F J. Minimum error rate training in statistical machine translation[C]In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Vol ume 1. ACL2003,pp. 160-167.
[0200] 统计机器翻译模型建模的选取,可以按照MOSES的使用说明书,分别构建基于词、 基于短语和基于句法结构的统计翻译模型,在解码过程中,与语言模型一起,进行解码处 理。
[0201] 该实施例的具体解码步骤,请参见图8所示,其是本发明一个实施例中提供的对 日语句子进行翻译的示意图,如图8所示:
[0202] 给定日语测试句子及其汉语参考译文:
[0203] 日语:彼〇友達#大学。多0科目全教无石
[0204] 汉语:他的朋友在大学教很多科目
[0205] 解码步骤包括对测试句子进行词法分析、句法分析得到该句子的句法分析结果 (如图6(a))所示之后,进行如下处理,请继续参见图8 :
[0206] S1 :从日语句法分析结果抽取日语谓词格框架(谓词论元结构)。这里可依据步 骤204所描述的方法进行抽取,得到的日语句子谓词(教λ 3 )的格框架为:
[0207] 教无石(Pred) {
[0208] (#)(友達)(^)(大学)(全)(科目)
[0209] }
[0210] S2 :对日语谓词格框架的每个格的语义概念进行泛化处理。这里可使用前述日语 词典"日本語語彙大系第5卷"进行泛化处理(即泛化扩展),同时标注每个格的句法结构 和语义属性,得到扩展后的谓词论元结构。
[0211] 教无石(Pred) {
[0212] Sub(#)(人)Adv(T)(场所)Obj(f)(学科)Tense (原形)
[0213] }
[0214] S3 :按照日汉谓词结构转换规则对日语谓词格框架进行结构转换。这里可以按 照步骤205和图7所示的结构转换方式进行结构转换,生成符合汉语语法结构的日语动词 (教λ 3 )的格框架语序:
[0215] 日语语序:(友违力VSub)(大学r7Adv)(科目/旮Obj)(教元/5/Pred) 施事 场所 受事 谓词
[0216] 转换成汉语动词(教)的谓词论元结构时的语序:
[0217] 汉语语序:(友违力?/Sub)(大学r7Adv)(教无石/Pred)(科目/沦Obj) 施事 场所 谓词 受事
[0218] S4 :对实现结构转换后的日语谓词及其论元进行翻译,按照汉语的语序,生成其构 成的句子框架的翻译结果。
[0219] 也即,对源语言训练句子中的谓词以及谓词论元进行翻译;按照转换后的谓词论 元结构所对应的句法结构顺序(比如S3中得到的符合汉语语法结构的日语动词的格框架 语序),生成目标语言所对应句子框架的翻译结果。
[0220] 由:(友達力VSub)(大学 T /Adv)(教 λ 3 /Pred)(科目 / f Obj)
[0221] 翻译生成:朋友在大学教科目
[0222] S5 :对日语谓词论元及其子节点构成的语块进行翻译。这里的日语谓词论元及其 子节点是在步骤204所抽取的谓词论元结构中的。
[0223] 也即,对源语言训练句子的谓词论元结构中的谓词论元以及谓词论元的子节点所 构成的语块进行翻译,生成子树的翻译结果。
[0224] 举例来讲,翻译结果如下:
[0225] 语块1 :彼〇友達翻译结果:他的朋友
[0226] 语块2 :多^科目翻译结果:很多科目
[0227] S6 :整合S4和S5的翻译结果,生成日语句子的全句译文。即对S4得到的句子整 体框架的翻译结果"朋友在大学教科目"和子树的翻译结果"他的朋友" "很多科目"进行整 合,得到整合后翻译结果:他的朋友在大学教很多科目。
[0228] 也即,将句子框架的翻译结果和子树的翻译结果进行整合,得到目标语言所对应 句子的翻译结果。
[0229] 另外,如图2所示,在本实施例的翻译解码步骤之前,需要使用源语言和目标语言 平行语料库,通过训练学习构建语言模型和翻译模型。
[0230] 在步骤207中,获取输入的双语平行语料的源语言训练句子和目标语言训练句 子。
[0231] 输入的双语平行语料的源语言训练句子和目标语言训练句子可以是一一对应的, 这些双语平行语料中可以从任意的网络数据库中获取,也可以为人为输入的语料。
[0232] 同样的,计算机在获取输入双语平行语料的源语言训练句子和目标语言训练句子 之后,还可以将获取的源语言训练句子和目标语言训练句子存储在该计算机的存储介质 中。
[0233] 步骤208所涉及的词法分析、步骤209所涉及的句法分析、步骤210所涉及的谓 词论元结构抽取以及步骤211中所涉及的谓词论元结构的结构转换等方法均分别于步骤 202、步骤203、步骤204以及步骤205类似,这里就不再赘述。
[0234] 在步骤S212中,用于抽取翻译规则。本实施例,可以使用开源工具MOSES。
[0235] 本实施例以依存树到串模型说明本发明公开的日汉机器翻译方法。
[0236] 定义三元组< T,S,A >来描述日汉双语句对。其中,T为源端依存句法树,每个节 点由一个组块构成,S为目标端字符串序列,A为双语词对齐关系。
[0237] 定义的依存树到串模型中,翻译规则包含两部分:
[0238] 词汇化翻译规则:作用在于将源端语块或短语,转化为目标端对应的翻译结果。
[0239] 格框架调序规则:通过使用该,将源端依存树结构转化为目标端序列。
[0240] 翻译模型中,格框架调序规则的形式化定义为>,是对格框架 =< >的延伸。其中,ω e R#记录该框架在目标端句子中的对应顺序。
[0241] 翻译模型的规则抽取包含如下三个步骤:1)依存树标记;2)格框架调序规则抽取 子树判定;3)规则抽取。
[0242] 其中,针对依存树标记,定义依存树T中的每个节点均包含两个属性:1)对齐跨 度,2)子树对齐跨度。
[0243] 定义1 :任意依存树T中的节点n,该节点的对齐跨度hsp (η)为目标端中与节点η 存在词对关系的目标端词集合。
[0244] 定义2 :任意依存树Τ中的节点η,若hsp (η)满足如下条件,贝U认为hsp (η)是独立 的。
[0245]

【权利要求】
1. 一种机器翻译方法,其特征在于,所述方法包括翻译步骤, 所述翻译步骤包括: 获取输入的源语言测试句子; 对所述源语言测试句子进行词法分析,得到所述源语言测试句子的词法分析结果; 对所述源语言测试句子的词法分析结果进行句法结构分析,得到所述源语言测试句子 的句法分析结果; 利用所述源语言测试句子的句法分析结果,抽取所述源语言测试句子的谓词论元结 构; 根据目标语言的句法特点,将所述谓词论元结构进行结构转换,得到符合所述目标语 言的句法特点的谓词论元结构; 利用转换后的所述谓词论元结构和翻译规则库中训练得到的翻译规则以及建立的目 标语言模型,对所述源语言测试句子进行翻译,输出语言为所述目标语言的翻译结果。
2. 根据权利要求1所述的方法,其特征在于,所述方法还包括训练步骤, 所述训练步骤包括: 获取输入的双语平行语料的源语言训练句子和目标语言训练句子; 分别对所述源语言训练句子和所述目标语言训练句子进行词法分析,得到所述源语言 训练句子的词法分析结果和所述目标语言训练句子的词法分析结果; 利用所述源语言训练句子的词法分析结果,对所述源语言训练句子进行句法结构分 析,得到所述源语言训练句子的句法分析结果; 利用所述源语言训练句子的句法分析结果,抽取所述源语言训练句子的谓词论元结 构; 根据目标语言的句法特点,将所述源语言训练句子的谓词论元结构进行结构转换,得 到符合所述目标语言的句法特点的谓词论元结构; 利用转换后的所述谓词论元结构,抽取翻译规则,将所述翻译规则放入所述翻译规则 库中; 根据目标语言的语料库建立所述目标语言模型,将所述目标语言模型放入所述翻译规 则库中。
3. 根据权利要求1所述的方法,其特征在于,所述对所述源语言测试句子的词法分析 结果进行句法结构分析,得到所述源语言测试句子的句法分析结果,包括: 采用依存结构分析或短语结构分析的方法,对所述源语言测试句子的词法分析结果进 行句法结构分析,得到所述句法分析结果; 或, 采用依存结构树和短语结构树相互转化的方法,对所述源语言测试句子的词法分析结 果进行句法结构分析,得到所述句法分析结果。
4. 根据权利要求1所述的方法,其特征在于,所述利用所述源语言测试句子的句法分 析结果,抽取所述源语言测试句子的谓词论元结构,包括 : 采用谓词格框架,从所述句法分析结果中抽取谓词论元结构,得到所述源语言训练句 子的谓词论元结构; 或, 采用格语法或依存文法,从所述句法分析结果中抽取谓词论元结构,得到所述源语言 训练句子的谓词论元结构; 或, 采用所述源语言训练句子的依存树或短语结构树,从所述句法分析结果中抽取谓词论 元结构,得到所述源语言训练句子的谓词论元结构。
5. 根据权利要求1所述的方法,其特征在于,所述根据目标语言的句法特点,将所述谓 词论元结构进行结构转换,包括: 根据所述源语言训练句子中谓词所对应的目标语言的谓词的句法结构特点,将所述源 语言训练句子的谓词论元结构转化为目标语言的句法结构或目标语言的谓词论元结构。
6. 根据权利要求1所述的方法,其特征在于,在所述抽取所述源语言测试句子的谓词 论元结构之后,还包括: 对所述源语言测试句子的谓词论元结构中的构成元素分别进行泛化扩展; 在所述将所述谓词论元结构进行结构转换之后,还包括: 将转换后的所述谓词论元结构中的构成元素分别进行泛化扩展。
7. 根据权利要求1至6中任一所述的方法,其特征在于,所述利用转换后的所述谓词论 元结构和翻译规则库中训练得到的翻译规则以及建立的语言模型,对所述源语言测试句子 进行翻译,输出语言为所述目标语言的翻译结果,包括: 对所述源语言训练句子中的谓词以及谓词论元进行翻译; 按照转换后的所述谓词论元结构所对应的句法结构顺序,生成目标语言所对应句子框 架的翻译结果; 对所述源语言训练句子的谓词论元结构中的谓词论元以及谓词论元的子节点所构成 的语块进行翻译,生成子树的翻译结果; 将所述句子框架的翻译结果和所述子树的翻译结果进行整合,得到目标语言所对应句 子的翻译结果。
8. 根据权利要求1至6中任一所述的方法,其特征在于,所述对所述源语言测试句子进 行翻译,包括: 采用基于词、基于短语或基于句法结构的统计翻译模型以及建立的所述语言模型,对 所述源语言测试句子进行翻译解码。
9. 一种机器翻译系统,其特征在于,所述系统包括翻译子系统, 所述翻译子系统包括: 第一获取模块,用于获取输入的源语言测试句子; 第一词法分析模块,用于对所述第一获取模块获取到的所述源语言测试句子进行词法 分析,得到所述源语言测试句子的词法分析结果; 第一句法分析模块,用于对所述第一词法分析模块分析得到的所述源语言测试句子的 词法分析结果进行句法结构分析,得到所述源语言测试句子的句法分析结果; 第一抽取模块,用于利用所述第一句法分析模块分析得到的所述源语言测试句子的句 法分析结果,抽取所述源语言测试句子的谓词论元结构; 第一转换模块,用于根据目标语言的句法特点,将所述第一抽取模块抽取的所述谓词 论元结构进行结构转换,得到符合所述目标语言的句法特点的谓词论元结构; 翻译模块,用于利用所述第一转换模块转换后的所述谓词论元结构和翻译规则库中训 练得到的翻译规则以及建立的目标语言模型,对所述源语言测试句子进行翻译,输出语言 为所述目标语言的翻译结果。
10. 根据权利要求9所述的系统,其特征在于,所述系统还包括训练子系统, 所述训练子系统包括: 第二获取模块,用于获取输入的双语平行语料的源语言训练句子和目标语言训练句 子; 第二词法分析模块,用于分别对所述第二获取模块获取到的所述源语言训练句子和所 述目标语言训练句子进行词法分析,得到所述源语言训练句子的词法分析结果和所述目标 语言训练句子的词法分析结果; 第二句法分析模块,用于利用所述第二词法分析模块分析得到的所述源语言训练句子 的词法分析结果,对所述源语言训练句子进行句法结构分析,得到所述源语言训练句子的 句法分析结果; 第二抽取模块,用于利用所述第二句法分析模块分析得到的所述源语言训练句子的句 法分析结果,抽取所述源语言训练句子的谓词论元结构; 第二转换模块,用于根据目标语言的句法特点,将所述第二抽取模块抽取得到的所述 源语言训练句子的谓词论元结构进行结构转换,得到符合所述目标语言的句法特点的谓词 论元结构; 第三抽取模块,用于利用所述第二转换模块转换后的所述谓词论元结构,抽取翻译规 贝1J,将所述翻译规则放入所述翻译规则库中; 模型建立模块,用于根据目标语言的语料库建立所述目标语言模型,将所述目标语言 模型放入所述翻译规则库中。
11. 根据权利要求9所述的系统,其特征在于,所述第一句法分析模块,包括: 第一句法分析单元,用于采用依存结构分析或短语结构分析的方法,对所述源语言测 试句子的词法分析结果进行句法结构分析,得到所述句法分析结果; 或, 第二句法分析单元,用于采用依存结构树和短语结构树相互转化的方法,对所述源语 言测试句子的词法分析结果进行句法结构分析,得到所述句法分析结果。
12. 根据权利要求9所述的系统,其特征在于,所述第一抽取模块,包括: 第一抽取单元,用于采用谓词格框架,从所述第一句法分析模块分析得到的所述句法 分析结果中抽取谓词论元结构,得到所述源语言训练句子的谓词论元结构; 或, 第二抽取单元,用于采用格语法或依存文法,从所述第一句法分析模块分析得到的所 述句法分析结果中抽取谓词论元结构,得到所述源语言训练句子的谓词论元结构; 或, 第三抽取单元,用于采用所述源语言训练句子的依存树或短语结构树,从所述第一句 法分析模块分析得到的所述句法分析结果中抽取谓词论元结构,得到所述源语言训练句子 的谓词论元结构。
13. 根据权利要求9所述的系统,其特征在于,所述第一转换模块,还用于: 根据所述源语言训练句子中谓词所对应的目标语言的谓词的句法结构特点,将所述源 语言训练句子的谓词论元结构转化为目标语言的句法结构或目标语言的谓词论元结构。
14. 根据权利要求10所述的系统,其特征在于,所述翻译子系统还包括: 第一扩展模块,用于对所述第一抽取模块抽取得到的所述源语言测试句子的谓词论元 结构中的构成元素分别进行泛化扩展; 第二扩展模块,用于将所述第一转换模块转换后的所述谓词论元结构中的构成元素分 别进行泛化扩展。
15. 根据权利要求9至14中任一所述的系统,其特征在于,所述翻译模块,包括: 翻译单元,用于对所述源语言训练句子中的谓词以及谓词论元进行翻译; 第一生成单元,用于按照转换后的所述谓词论元结构所对应的句法结构顺序,生成目 标语言所对应句子框架的翻译结果; 第二生成单元,用于对所述源语言训练句子的谓词论元结构中的谓词论元以及谓词论 元的子节点所构成的语块进行翻译,生成子树的翻译结果; 整合单元,用于将所述第一生成单元生成的所述句子框架的翻译结果和所述第二生成 单元生成的所述子树的翻译结果进行整合,得到目标语言所对应句子的翻译结果。
16. 根据权利要求9至14中任一所述的系统,其特征在于,所述翻译模块,还用于: 采用基于词、基于短语或基于句法结构的统计翻译模型以及建立的所述语言模型,对 所述源语言测试句子进行翻译解码。
【文档编号】G06F17/27GK104268132SQ201410461325
【公开日】2015年1月7日 申请日期:2014年9月11日 优先权日:2014年9月11日
【发明者】徐金安, 刘江鸣, 吴培昊 申请人:北京交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1