语言实体关系分析方法和一种机器翻译装置和方法
【专利摘要】本发明公开了一种语言实体关系分析方法,涉及自然语言处理领域,该方法对输入的语串进行全解一体化计算,选出最优语义树。本发明还提供了一种基于此语言实体关系分析方法的机器翻译装置和方法,该翻译装置包括语义知识库模块、语言实体关系分析器、目标语言生成器。本发明提供一种全新的语言处理模型,在程序中,把握自然语言的全部逻辑,充分利用“组合爆炸”,建立完善的语言逻辑框架,基本上解决了语言的“组合爆炸”这个核心问题,能显著提高准确度和翻译速度。本系统没有规则体系的大量产生式规则,也没有统计体系的海量对齐语料和相应深加工资源,在工程上有明显优势。本发明还可为自然语言各种应用提供一个可靠基础。
【专利说明】语言实体关系分析方法和一种机器翻译装置和方法
【技术领域】
[0001]本发明涉及自然语言处理领域,更具体涉及语言实体关系分析方法和一种机器翻译装置和方法,用于自然语言处理以及机器翻译系统。
【背景技术】
[0002]对诸如互联网数据的开放数据源进行高质量的处理,以及人们对不同语言文明的迫切的了解需求,使得自然语言处理以及机器翻译几十年来一直处于语言智能研究的核心。
[0003]目前,规则体系和统计体系是自然语言处理和机器翻译的主流技术方案。
[0004]规则体系中的规则有I万-10万多条;模板性规则几万或者几十万条。解析执行体系的步骤相对简单。采用1-best, 7-best, 30-best等折中方案;无法得到全部解;规则调度中出现“现场过早收敛”,后续规则不响应;很难书写和维护具有复杂上下文的规则;系统在分词阶段、句法分析等阶段都存在误差,累积误差比较严重;在后期,添加新的规则变得异常困难。语言整体覆盖率不高,但某些领域中可以暂时实用;规则体系试图通过海量的规则以及模板来解决"组合爆炸"问题,但工程难度大,以及系统架构自身的问题,很难有较高性能的表现。
[0005]统计体系中,语料对齐本质上可以抽象为规则调度。如果统一归纳后,实际中人工调整的规则调度总数量是比较少的;对复杂语料,比如专利语料,无法提供有效解决方案;容易陷入词汇相关的问题,语料横向扩展严重,语料有效性降低。一些基于类似短语片段以及短语碎片的对齐,完全打乱了句子的结构;语料数目上升到一定层次后,因为它本身的调度逻辑有限,系统性能就会长期处于一定水平的徘徊状态。语料数目超过千万后,语料自身的误差已经开始影响系统的后续发展。统计体系试图通过统计海量对齐语料来覆盖"组合爆炸"的语言现象,需要的语料极其庞大;然而,人工语料对齐的逻辑调度能力有限,使得对语言逻辑的覆盖率不高,所以,目前性能较低。
[0006]早期语义体系,虽然体会到规则体系和统计体系的较明显的问题,但早期设计的语义层次其实也并没抓住〃组合爆炸〃这个核心问题;一般而言,这类体系,一般都采取一个“选择主动词”阶段,而这个阶段的误差也是影响很大的;其中,有些此类方案将“产生式规则”模拟性地写在程序模块中,也并没在整体上如何规划解决“组合爆炸”问题;另外,这个体系,往往设计非常复杂的知识体系,对知识的客观性和可计算性缺乏整体性的考虑,从而容易受到知识库复杂性的困扰。
[0007]在上面这些系统中,也都有自己的语言逻辑架构,而这些语言逻辑架构是通过海量规则或者海量语料被动体现出来的,并非主动去建立,最终得到的效果都是整体语言逻辑框架的一个子集。同时因为计算的复杂性,无法获得全解,所以都没有解决语言的核心问题,即“组合爆炸”问题。
【发明内容】
[0008]由于规则体系、统计体系或者早期语义体系,都没有重点解决语言的核心问题,gp“组合爆炸”问题,反而长期深深受“组合爆炸”的困扰,使得语言处理效果一直无法提高。本发明提出的语言实体关系分析方法,在程序中,把握全部的“语言逻辑点”,充分利用“组合爆炸”,建立起完善的“语言逻辑框架”,也建立了完备的权值体系,基本上解决了语言的核心问题。
[0009]一种语言实体关系分析方法,其特征在于包括以下步骤:
(1):对输入的语句进行篇章、段落、大句分割,进行步骤(2);然后,在段落、大句范围内,进行缺省指代等知识计算;
(2):对大句分割成小句,进行步骤(3);
(3):小句中的内嵌处理调用步骤(2);内嵌处理完,进行步骤(4);
内嵌说明,如语句:“我知道这个方法(采用A方案解决问题);”语串“(采用A方案解决问题)”就是小句中的内嵌,内嵌可以包含多个大句或者小句;
(4):对小句进行分词,如果有歧义,那么形成有限数目的子句,并对每个子句计算分词歧义权值,对每个子句进行预处理(数字,数量短语,特殊组合短语,时间短语,超长子句处理),对每个子句进行步骤(5);在此层次进行相应的权值计算,选出最优小句;
(5):对子句读取语义知识库信息,对动词、可作模拟动词处理的形容词和数量短语、介词、可带子句的连词等建立分析启动结构;进行步骤(6);
(6):对子句语串进行单句,并联句,形容词句,数量短语句,连动句,单实体句等分析;对于那些具有句子模式的句子,都能将其分解成为单句、多个单句,进行步骤(7);对于单实体句,进行步骤(10);在此层次进行相应的权值计算,选出最优分析结果;
(7):单句多动词处理,对子句中的多个动词,计算优先权值,进行步骤(8);多个动词处理完,在此层次进行相应的权值计算,选出最优核心动词;
(8):动词多义处理,对于动词的多种意义,分别进行步骤(9);动词多义处理完后,在此层次进行相应的权值计算,选出最优动词单义;
(9):动词多种关系模式处理,每个动词除有自己的基本句子关系模式外,还有变形句子关系模式,变形句子关系模式可以由程序按照基本句子关系模式自动生成;按照每个模式的语言实体情况,对每个语言实体部分,进行步骤(10),每个模式处理完,计算出这个模式的权值,这包括这个模式的多个语言实体的关联和这个模式的上下文方面的权值,以及一些特殊模式自身的权值计算;多种可能的模式处理完后,选出最优动词关系模式;
(10):语言实体处理分别有:纯语言实体分析,空语言实体分析(可以有副词串),句子语言实体分析;如果是句子语言实体分析,填充上下文,调用步骤(6);如果是空语言实体分析,那么进行步骤(11),步骤(12)后,进行全副词串分析,并计算权值;如果是纯语言实体分析,调用步骤(11),步骤(12),步骤(13),步骤(17),步骤(18),进行本语言实体的权值计算;
(11):命名实体组合,进行特殊名词组合串、人名识别、地点识别、机构识别、特殊副词串识别、特殊形容词串识别、复杂组合结构等识别;得到多个组合串,对每个组合串进行步骤(12)处理;
(12):介词组合结构处理:对多个介词,从右向左进行递归组合处理,介词类似动词模式,可以带语言实体,可以带句子,并且分别都可以带后边界;如果是带语言实体,那么调用步骤(13);如果是句子调用步骤(6);介词的模式检验在动词模式上下文下进行时,需要填充“需要进行的额外语言实体计算”的上下文;
(13):多语言实体分析,对语串片段按照特殊关联词(如汉语“的,和,或,”等,英语“that从句”等)进行划分,得到单个语言实体、多个语言实体、形容词修饰串、句子修饰串;对于单个实体、多个语言实体进行步骤(14)处理,对于形容词修饰串进行步骤(15);对句子修饰串进行步骤(16)处理;
(14):语言实体分割,对此时语串按照上下文进行多语言实体分割,并对每个语言实体计算权值(根据语言实体内形容词、副词、核心部分等来设计权值,并且当形容词部分含有一般动词、特殊动词、特殊动词搭配、非形容词词类时,进行相应的权值计算),并且计算这个多语言实体组合的权值;如果有并联关系,那么建立语言实体并联描述结构,并计算相应的权值;
(15):形容词修饰串的分析
对形容词修饰串,配合上下文进行分割检验,并建立形容词修饰描述结构,如果有并联,建立形容词修饰串并联描述结构,并计算权值;此处权值计算需要根据形容词串包含词类情况,特别是当形容词修饰串含有一般动词、特殊动词、特殊动词搭配、非形容词词类时;根据形容词修饰串跟所修饰的语言实体,计算相应的权值;当需要计算形容词修饰串并联情况时,(比如:“我和我的父亲”,“我父亲和小明的父亲”),需要进行相应的权值计算;
(16):句子修饰串的分析
对句子修饰串,配合上下文进行检验,调用步骤出);并建立句子修饰描述结构,如果有并联,建立句子修饰并联描述结构,并计算权值;根据句子修饰串跟所修饰的语言实体,计算相应的权值;当需要计算句子修饰串并联情况时,需要进行相应的权值计算;
(17):多语言实体和它们的修饰部分的整理
对分析后的多语言实体,形容词修饰串,句子修饰串,以及相应的并联描述结构,进行整理,对每个语言实体,建立起一个单个语言实体描述结构,此结构包括此语言实体本身以及修饰这个语言实体的形容词修饰部分和句子修饰部分以及并联描述;并且在这个层次,对语言实体进行权值计算;并且选择最优的多语言实体组合;此处的语言实体,根据形容词修饰串、句子修饰串以及并联结构,进行权值计算;多个语言实体并排时,也计算相应的权值;
(18):将此语言实体分析结果进行填充,并进行问句和特殊句子中的问词点和特殊检验点的定位;并且,上传上下文语言实体分析结果;
(19):句子模式转换以及归一化处理
按照句子类型以及所包含的单句类型进行模式转换和归一化;
(20):最优语义树的输出
对最优的句子类型,进行最优语义树输出;对于机器翻译系统,直接使用系统内存中的最优语义树。
[0010]本发明还提出一种基于语言实体关系分析方法的机器翻译方法,其步骤包括:
(I)创建语义知识库,其中,包含源语言单词和短语以及相应的语义知识和相应的目标语言译文; (2)分析源语言串,得到最优语义树;
(3)对所得最优语义树,根据此语义树本身的句子类型和动词关系模式类型进行译文生成,得到最终译文。
[0011]上述机器翻译方法中,所述步骤(I)中,所述语义知识库中存储的词条按照翻译系统的要求进行标注,注明相关的语义信息。
[0012]上述机器翻译方法中,所述步骤(2)中,通过语言实体关系分析器对源语言进行分析,所述语言实体关系分析器是根据权利要求1中所述的方法建造的。
[0013]本发明还提出一种基于语言实体关系分析方法的机器翻译装置,其特征在于,包括:
语义知识库模块:用于存储源语言单词和短语以及相应的语义知识和相应的目标语言译文;
语言实体关系分析器:连接语义知识模块,用于按照语言实体关系分析方法对原文进行分析,得到最优语义树;
目标语言生成器:连接语义实体关系分析器,用于根据上述得到的最优语义树本身的句子类型以及动词关系模式类型进行译文生成,最终得到译文;译文的质量优化,采用动宾短语搭配译文优化,定中短语译文优化等优化,以及利用词库中已经存在的组合词组对远距离动宾结构等进行译文优化,这些优化措施将会大幅提高译文的流利度。
[0014]对语言现象的重新认识:
对应程序的具体实现,归纳出语言的五方面主要特性:(I)分层性;(2)分裂性;(3)递归性;(4)组合复杂性;(5)歧义的局部可约束性;
1):分层性:语言的问题可分解到多个层次,依次处理。在本发明中,从“篇章”到“形容词修饰串分析和句子修饰串分析”,大概有15层以上,这种完全基于计算的划分,基本上超出了其他理论设计的粒度;所以,在复杂语言领域,比如专利领域,就能表现出很明显的效果;
2):分裂性:属于同层中不同类型的子现象,需要并行处理,如:动词的“普通模式”和“把、被”模式等;
3):递归性:动词或者介词都可带子句,而子句本身又可同样递归;这就是语言复杂的一个重要因素。比如:专利语料中的递归次数一般都是3-4次;
4):组合复杂性:
每个层约5个左右分裂,经过约12层(语言逻辑主要层次)排列组合,就得到上亿语言现象(5~12约等2.4亿)。经过2次-3次递归,就产生海量语言现象,即人们常说的语言的〃组合爆炸〃现象;
5):歧义的局部可约束性:
在每层的各分裂局部,根据丰富的上下文,就可用权值来准确体现一个语串的各歧义的局部差别;这个权值跟语言逻辑是很相关的,比其他系统的权值更客观,经排列组合,能将歧义很明显地区分开来。
[0015]下面介绍一些定义:
I)语言实体关系”
(1)“语言实体”(a)可以是表示人的词,表示物体的词,无意义语串,或者完整句子(句子语言实体)等;
如:“我吃苹果”中的“我”,“石头吃人”中的“石头”都可以是动词“吃”这个动作的主体。这种抽象主要是为了避免语法和语义的争论;
(2) “关系”(R)是指“语言实体”之间的关系模式
如:“我吃饭”这种“ara”模式,”我告诉你一件事情”这种“adaa”模式,实际中的关系模式也是有限的;
2): “语言逻辑框架”
(1)“分层、分裂、递归”的条件跟实际语言现象都是对应的,我们称这些条件为“语言逻辑点”,约为200多个,共同形成一个“语言逻辑框架”;
(2)可以在计算机程序中很自然地实现“语言逻辑框架”,并且,分析树都存在内存中,就有了丰富且准确的上下文来把握语言细节,而“规则系统”和“统计系统”都是“上下文不完备”的。
[0016]本发明词语的概念分类:
1):以系统应用为目的,避免语法和语义的争论,本发明将自然语言中的词语进行概念分类,大概如下:
方位词(O),时间⑴,空间(L),数⑷,量纲(U),名词(η),形容词(adj),副词(f),助词(h),标点符号(P),动词(V),,判断词(j),代词(r),介词(i),动作情况描述词(s);
2):对于每一类,还会有子类,用“+ ”和英文字母扩展来表示,详细见图5。
[0017]词语概念的归一化:
(1)为了方便填写动词的主谓宾的概念限制,需要将词语的概念类别进行归一化。在程序中也会存在一个相应转换模块;
(2)归一化语义概念:
大致为:人(P)、有生物(b)、无生物(d) 、组织(O) 、抽象物(a)、
活动(h)、空间(L) 、时间⑴、名词实体(η)、句子(s)
(3)这些语义概念用来限制动词的主谓宾的可选概念;但不是绝对限制,实际系统中,会采用模糊匹配;
例如:动词“收到”有动词关系模式“<v_r>[n:p] [r] [η:da] ;〈/v_r>”,
其中,主语概念限制“ [n:P] ”,表明主语可以是“人”;宾语概念限制“ [n:da] ”,表明宾语可以是“无生物、抽象物”。
[0018]动词关系模式举例说明:
I)动词的关系模式表明了可能的“语言实体”的关系模式,系统中根据这个关系模式来进行分析测试;如:
(I)普通关系模式(C)
我喜欢苹果;
动词“喜欢”有动词关系模式:“<v_r>[n:p] [r] [n:pbdoah] ;〈/v_r>”
(2)双宾语关系模式(d)
我送她苹果;
动词“送”有动词关系模式:“<v_r> [n:pod] [d] [n:pbo] [n: d] ;〈/v_r>”
(3)使动关系模式(m)他强迫大家吃饭;
动词“强迫”有动词关系模式:“<v_r>[n:pdoh] [m] ;〈/v_r>”
2)动词关系模式详细见图6。
[0019]分析启动项说明:
对于类似动词(如 “<v_r> [n:p] [r] [n:pbdoah] ;〈/v_r>”)、
介词(如“<i_r>[n:dotl] [n:kjx] ; [s] [n:kjx] ;〈/i_r>”)等有可以用来启动分析的语义项;一些词也有特殊的功能词块,也是为了启动特殊的语言分析。
[0020]动词关系模式的变种:
在某种动词关系模式下,可能存在不同变种,这些变种都是在程序内用不同的程序模块来自动启动测试的;
例如:
(1)普通关系模式(C)
基本模式:我吃了苹果;
宾语提前模式: 苹果我吃了;
主动模式:我把苹果吃;·
(2)使动关系模式(m)
基本模式:我带领他完成这项任务;
主动模式:我把他带领完成这项任务;。
[0021]介词的说明:
介词是退化的动词,它也有类似“动词模式”的“介词模式”,这些〃介词模式〃指导着介词的分析,得到介词短语;
介词短语的组合结构是:
(DI+IK+IB
⑵ I+IK
(3)IK+IB
(4)I+S+IB
(5)I+S
(6)S+IB
其中"I"表示介词,〃IK"表示介词核心,"IB"表示特殊的介词对应边界(如:〃时〃,〃上,下,之下〃等等),〃S〃表示完整的句子。
[0022]一些特殊“关系”的形式:
(1)"的〃字之前的修饰部分也是可以跟后面的〃语言实体〃形成〃关系〃的,这个分析是很有必要的;
比如:“我喜欢你发明的机器”,“你发明”跟“机器”是有作用关系的,复原后就是〃你发明机器";
(2)类似的模式也有好几种:语句分析过程中,主要关注“语言实体”和“关系”,在“语言逻辑框架”的流程循环中,在“语言逻辑点”的引导下,逐渐划清“语言实体”边界,分解“语言实体”之间的“关系”,从而实现了语句的分析。
[0023]核心问题说明: 传统规则体系和统计体系基本上都是以“自下而上”的“归约”形式为主要操作方式的;而本发明是采用“自上而下”的方式进行操作的,那么会产生不同的处理难点;如下:
1):“语言实体”分割
(1){〈我>}吃苹果;
(2){〈苹果 >〈我>}吃了 ;
(3)我告诉{〈他X我>}吃苹果;
(4)我告诉{〈他X苹果X我>}吃了;
说明:
〈I〉:在分析{”和之间的语串时,我们想得到的东西都是预设的,
比如:〃吃〃有动词模式〃ara〃,那么碰到〃吃〃,我们有预期〃ara〃的可能性,用这个可能性,语串“我吃苹果”,就能分析了 ;通常"ara"有"aar"变种,那么碰到〃吃",我们在有预期"ara"的可能性的同时,也有"aar"的预期,关系“吃”的前面的语串部分,就预期两个实体〃 aa〃出现,那么〃苹果我吃了〃,就能分析了;同样,〃告诉〃有〃ars"模式,〃s〃又可以继续向下演化,从而进行递归分析;所以,在例子(4)中你就看到了三个实体并排的预期;
<2>: “动词”和“介词”的模式都会引起多个语言实体并排;
2):权值体系
在几百个“语言逻辑点”处,进行权值设计和计算,最终选出最优结果;
(1)例子:
我送他和你苹果;
(2)上面例子的两个可能结果 〈1>我送{〈他〉和〈你苹果>};
<2>我送{他和你} {苹果};
(3)结果“<1>”中,语言实体“〈他〉”和苹果〉”并联,概念属性不太一致,在相应的“权值计算点”,就会扣分,最后结果“<2>”被选择出来;
(4)类似的“权值计算点”目前有1000多个,它们来源于人们的语言逻辑和语言习惯,以及上下文约束,是分布在整个“语言逻辑框架”中的,跟分析同步计算的。
[0024]本发明的优势:
本发明在程序中,把握全部的语言逻辑点,充分利用“组合爆炸”,建立起完善的语言逻辑框架,能够进行全解和语言现象一体化计算,基本上解决了语言的“组合爆炸”这个核心问题,能够显著地提高准确度。
【专利附图】
【附图说明】
[0025]图1为实施例中汉英机器翻译装置的结构组成示意图。
[0026]图2为实施例中汉英机器翻译方法的流程示意图。
[0027]图3为本发明提供的语言实体关系分析方法总体技术方案的实现流程图。
[0028]图4为实施例中得到的语义分析树示意图。
[0029]图5 (包括5a和5b)为实施例中的词汇概念分类表。
[0030]图6为实施例中的动词关系模式分类表。【具体实施方式】
[0031 ] 下面将配合附图,通过具体实施例,来详细说明本发明。
[0032]如图3所示,本发明提供的语言实体关系分析方法总体技术方案的实现流程图,该方法包括以下步骤:
(1):对输入的语句进行篇章、段落、大句分割,进行步骤(2);然后,在段落、大句范围内,进行缺省指代等知识计算;
(2):对大句分割成小句,进行步骤(3);
(3):小句中的内嵌处理调用步骤(2);内嵌处理完,进行步骤(4);
内嵌说明,如语句:“我知道这个方法(采用A方案解决问题);”语串“(采用A方案解决问题)”就是小句中的内嵌,内嵌可以包含多个大句或者小句;
(4):对小句进行分词,如果有歧义,那么形成有限数目的子句,并对每个子句计算分词歧义权值,对每个子句进行预处理(数字,数量短语,特殊组合短语,时间短语,超长子句处理),对每个子句进行步骤(5);在此层次进行相应的权值计算,选出最优小句;
(5):对子句读取语义知识库信息,对动词、可作模拟动词处理的形容词和数量短语、介词、可带子句的连词等建立分析启动结构;进行步骤(6);
(6):对子句语串进行单句,并联句,形容词句,数量短语句,连动句,单实体句等分析;对于那些具有句子模式的句子,都能将其分解成为单句、多个单句,进行步骤(7);对于单实体句,进行步骤(10);在此层次进行相应的权值计算,选出最优分析结果;
(7):单句多动词处理,对子句中的多个动词,计算优先权值,进行步骤(8);多个动词处理完,在此层次进行相应的权值计算,选出最优核心动词;
(8):动词多义处理,对于动词的多种意义,分别进行步骤(9);动词多义处理完后,在此层次进行相应的权值计算,选出最优动词单义;
(9):动词多种关系模式处理,每个动词除有自己的基本句子关系模式外,还有变形句子关系模式,变形句子关系模式可以由程序按照基本句子关系模式自动生成;按照每个模式的语言实体情况,对每个语言实体部分,进行步骤(10),每个模式处理完,计算出这个模式的权值,这包括这个模式的多个语言实体的关联和这个模式的上下文方面的权值,以及一些特殊模式自身的权值计算;多种可能的模式处理完后,选出最优动词关系模式;
(10):语言实体处理分别有:纯语言实体分析,空语言实体分析(可以有副词串),句子语言实体分析;如果是句子语言实体分析,填充上下文,调用步骤(6);如果是空语言实体分析,那么进行步骤(11),步骤(12)后,进行全副词串分析,并计算权值;如果是纯语言实体分析,调用步骤(11),步骤(12),步骤(13),步骤(17),步骤(18),进行本语言实体的权值计算;
(11):命名实体组合,进行特殊名词组合串、人名识别、地点识别、机构识别、特殊副词串识别、特殊形容词串识别、复杂组合结构等识别;得到多个组合串,对每个组合串进行步骤(12)处理;
(12):介词组合结构处理:对多个介词,从右向左进行递归组合处理,介词类似动词模式,可以带语言实体,可以带句子,并且分别都可以带后边界;如果是带语言实体,那么调用步骤(13);如果是句子调用步骤(6);介词的模式检验在动词模式上下文下进行时,需要填充“需要进行的额外语言实体计算”的上下文;
(13):多语言实体分析,对语串片段按照特殊关联词(如汉语“的,和,或,”等,英语“that从句”等)进行划分,得到单个语言实体、多个语言实体、形容词修饰串、句子修饰串;对于单个实体、多个语言实体进行步骤(14)处理,对于形容词修饰串进行步骤(15);对句子修饰串进行步骤(16)处理;
(14):语言实体分割,对此时语串按照上下文进行多语言实体分割,并对每个语言实体计算权值(根据语言实体内形容词、副词、核心部分等来设计权值,并且当形容词部分含有一般动词、特殊动词、特殊动词搭配、非形容词词类时,进行相应的权值计算),并且计算这个多语言实体组合的权值;如果有并联关系,那么建立语言实体并联描述结构,并计算相应的权值;
(15):形容词修饰串的分析
对形容词修饰串,配合上下文进行分割检验,并建立形容词修饰描述结构,如果有并联,建立形容词修饰串并联描述结构,并计算权值;此处权值计算需要根据形容词串包含词类情况,特别是当形容词修饰串含有一般动词、特殊动词、特殊动词搭配、非形容词词类时;根据形容词修饰串跟所修饰的语言实体,计算相应的权值;当需要计算形容词修饰串并联情况时,(比如:“我和我的父亲”,“我父亲和小明的父亲”),需要进行相应的权值计算;
(16):句子修饰串的分析
对句子修饰串,配合上下文进行检验,调用步骤出);并建立句子修饰描述结构,如果有并联,建立句子修饰并联描述结构,并计算权值;根据句子修饰串跟所修饰的语言实体,计算相应的权值;当需要计算句子修饰串并联情况时,需要进行相应的权值计算;
(17):多语言实体和它们的修饰部分的整理
对分析后的多语言实体,形容词修饰串,句子修饰串,以及相应的并联描述结构,进行整理,对每个语言实体,建立起一个单个语言实体描述结构,此结构包括此语言实体本身以及修饰这个语言实体的形容词修饰部分和句子修饰部分以及并联描述;并且在这个层次,对语言实体进行权值计算;并且选择最优的多语言实体组合;此处的语言实体,根据形容词修饰串、句子修饰串以及并联结构,进行权值计算;多个语言实体并排时,也计算相应的权值;
(18):将此语言实体分析结果进行填充,并进行问句和特殊句子中的问词点和特殊检验点的定位;并且,上传上下文语言实体分析结果;
(19):句子模式转换以及归一化处理
按照句子类型以及所包含的单句类型进行模式转换和归一化;
(20):最优语义树的输出
对最优的句子类型,进行最优语义树输出;对于机器翻译系统,直接使用系统内存中的最优语义树。
[0033]图1为基于语言实体关系分析方法的机器翻译装置100的结构组成示意图;图2为利用该装置进行机器翻译的实现流程图。
[0034]请参考图1,装置100包括:语义知识库模块110,用于存储源语言单词和短语以及相应的语义知识和相应的目标语言译文;语言实体关系分析器120,用于按照语言实体关系分析方法对原文进行分析,得到最优语义树;目标语言生成器130:连接语义实体关系分析器,用于根据上述得到的语义树本身的句子类型以及动词关系模式类型进行译文生成,最终得到译文。
[0035]下面结合图1和图2,以源语言为汉语、目标语言为英文为例,来说明具体的翻译过程,主要包括如下步骤:
1)使用语言实体关系分析器对输入的源语言串进行分析,得到最优语义树;
2)对上述最优语义树,根据此语义树本身的句子类型以及动词关系模式类型进行译文生成,得到最终译文;
3)在动词关系模式翻译中,考虑到不同的上下文翻译需求以及疑问句特殊翻译需求等,这都在程序中进行实现;
4)对于语言实体本身翻译,考虑到单复数、人称等,都用特殊的描述数据结构进行标示,然后在程序中进行实现以及译文转换;
5)对于语言实体的形容词部分、形容词修饰串部分、句子修饰串部分、介词短语、特殊组合结构翻译等,都在程序中分别实现翻译策略;
6)译文的质量优化,采用动宾短语搭配译文优化,定中短语译文优化等优化,以及利用词库中已经存在的组合词组对远距离动宾结构等进行译文优化,这些优化方案将会大大提高译文的流利度。
[0036]所述语义知识库中保存的词条按机器翻译系统的要求进行了标注,注明了相关的语义属性,如下:
<rs><rk> 橘子〈/rk>〈mean>〈en>tangerine〈/en>〈ssetXcat>n+a+s+c+d〈/cat>〈/sset>
</mean></rs>`
<rs><rk> 谁 </rk><mean><en>who</en>〈sset>〈cat>r+a〈/cat><ask>k</ask><rw_z>who〈/rw_z>〈rw—b>whom〈/rw—b>〈rw_a>whose〈/rw_a>〈rw_n>whose〈/rw_n>〈/sset></mean></rs>
<rs><rk> 告诉 </rk><mean><en>tel I; </en><sset><cat>v</cat>
<v_r> [n:po][d][n:po][s];[n:po][d][n:po][n:n];</v_r></sset></mean></rs>
<rs><rk> 收到 </rk><mean><en>receive; </en><sset><cat>v</cat>
<v_r>[n:p][r][n:da];</v_r></sset></mean></rs>
<rs><rk> 在 </rk><mean><en>in;</en><sset><cat>i+d+z</cat>
<i_r> [n: dotl] [n:kjx] ; [s] [n:kjx] ;〈/i—r>〈i_s>d〈/i_sX/sset>〈/meanX/rs>0
[0037]所述机器翻译系统的要求指的是语义知识库规范,是分析系统开发者定义的,一般标注了词条的基本语义属性、功能属性,是根据本发明的语言模型制定的。
[0038]下面提供一个具体实例,来说明具体的语义树分析过程和翻译过程,该实例需要翻译的句子为:
“已经离开北京的朋友告诉谁在明天你们会收到他们家乡的橘子? ”。
[0039]下面介绍语义树分析过程和翻译过程的具体步骤:
(I):输入的语句被分割为一个篇章、一个段落、一个大句,进行步骤(2);然后,在段落、大句范围内,进行缺省指代等知识计算;(2):此大句分割成一个小句,进行步骤(3);
(3):此小句中没有内嵌,进行步骤⑷;
(4):对小句进行分词,如果有歧义,那么形成有限数目的子句,并对每个子句计算分词歧义权值,对每个子句进行预处理(数字,数量短语,特殊组合短语,时间短语,超长子句处理),对每个子句进行步骤(5);在此层次进行相应的权值计算,选出最优小句;
(5):对子句读取语义知识库信息,对动词、可做模拟动词处理的形容词和数量短语、介词、可带子句的连词等建立分析启动结构。进行步骤(6);
(6):对子句语串进行单句,并联句,形容词句,数量短语句,连动句,单实体句等分析。单句分析,进行步骤(7),得到最优子句权值为-10;连动句分析,并联句分析,均失败;未启动形容词句分析和数量短语句;单实体句分析,进行步骤(10),得到权值为-113;所以最终选择单句分析的最优结果;
(7):单句多动词处理,此子句有动词“离开”、“告诉”、“会”、“收到”,分别进行步骤⑶;动词“离开”的分析权值是-50 ;动词“告诉”的分析权值是-10 ;动词“收到”的分析权值是-245 ;动词“会”的分析失败。所以选择最优动词“告诉”;
(8):动词多义处理,以动词“告诉”为例,对于动词的多种意义,分别进行步骤(9);单义“ [n:po] [d] [n:po] [s]; ” 的分析权值是-10 ;单义“ [n:po] [d] [n:po] [n:n]; ” 的分析权值是-60 ;所以选出最优单义“ [n:po] [d] [n:po] [s]; ” ;
(9):动词多种关系模式处理,以动词“告诉”的单义“[n:po] [d] [n:po] [s]; ”为例;动词模式“adas”分析权值是-10 ;这种单义下,只有一种关系模式,即动词模式“adas”,所以最优动词模式为“adas” ;下面介绍此动词模式的分析步骤:` <1>动词“告诉”的左边语串“已经离开北京的朋友”(简称“语串A”),因为目前动词“告诉”是主句动词,没有上下文,所以只进行单语言实体分析上下文填充,要得到一个纯语言实体(简称“语言实体TA1”),进行步骤(10),(简称“分析FA1”),分析权值为-15;
<2>动词“告诉”的右边语串“谁在明天你们会收到他们家乡的橘子;”(简称“语串B”),预期要得到一个纯语言实体(简称“语言实体TB3”)和一个句子语言实体(简称“语言实体TB4”),系统设计为:进行一个句子语言实体分析,并且带有一个“需要分析出一个左边语言实体”的上下文,进行步骤(10),(简称“分析FBI”),分析权值为15 ;
<3>对此动词模式,进行整体的多实体关联权值计算,得到权值为-10 ;
(10):语言实体处理分别有:纯语言实体分析,空语言实体分析(可以有副词串),句子语言实体分析。下面以上述的“分析FBI”中的情况为例子:
<1>此分析中,当分析动词“收到”时,有动词单义“ [n:p] [r] [n:da]; ”,在动词模式“m0:ara”中,动词“收至『的左边语串“谁在明天你们会”(简称“语串C”),
〈2>对“语串C”,除了动词“收到”的本身左边语言实体(简称“语言实体TC1”)的分析,还需要根据上边传下来的上下文,同时分析另外一个语言实体(即前面提到的“语言实体TB3”),所以这个分析即涉及2个语言实体的分析,(简称“分析FC1”),调用步骤(11),步骤(12),步骤(13),步骤(17),步骤(18);进行本语言实体的权值计算;
(11):对“语串C”进行命名实体组合,得到一个
组合串“谁在明天你们会”(简称“组合串Z1”),对“组合串Z1”进行步骤(12)处理;
(12):介词组合结构处理:对“组合串Z1”,存在介词“在”,进行介词分析;分析步骤: 〈1>对介词“在”,
右边语串“明天你们会”(简称“语串D”)
<2>对于介词“在”的介词模式“ [n: dotl] [n:kjx]; ”,
此模式下,对“语串D”,进行介词边界“ [n:kjx];”查找,不存在介词边界,下面进行介词的语言实体分析,即对“语串D”进行概念类别为“ [n:dotl] ”的语言实体分析,采用近似遍历方式,会有3个备选答案(“明天”、“你们”、“会”),对每个备选进行步骤(13),得到相应的组合串;
<3>对于介词“在”的介词模式“ [s] [n:kjx]; ”,
此模式下,对“语串D”,进行介词边界“ [n: kjx]; ”查找,不存在介词边界,下面进行介词的句子类型语言实体分析,即对“语串D”进行步骤(6),得到相应的组合串;
〈4>这样,递归调用进行介词组合,得到多个组合串;对于“语串D”的多个组合串,有一个组合串“谁[在明天]你们会”,(简称“组合串II”,下面的步骤将使用这个组合串做例子);
(13):多语言实体分析,对“组合串II”按照特殊关联词进行划分,此例子中结果仍为“组合串II”,进行步骤(14)处理;
(14):语言实体分割,按照“分析FC1”,需对“组合串II”,进行2个语言实体分割。分割步骤:
〈1>对“组合串II”,进行2个语言实体分割,会有几种分割情况;
〈2>权值比较后,
分割结果“ {谁} I I [在明天]{你们}会”为最优分割结果。(“语言实体TB3”为“ {谁} ” ;“语言实体TC1”为“[在明天]{你们}会”,核心部分为“ {你们} ”);
(15):形容词修饰串的分析,
“分析FBI”中的情况为例子:
<1>此分析中,当分析动词“收到”时,动词“收到”的右边语串“他们家乡的橘子”(简称“语串J”),
〈2>对“语串J”,按照动词“收到”的动词单义“ [n:p] [r] [n: da]; ”,动词“收到”右边需要获得一个语言实体;
<3> “语串J”中,“的”的后面语串“橘子”(简称“语串K”)被选为语言实体核心部分,“的”的前面“他们家乡”(简称“语串L”),就是修饰串部分,需要进行形容词修饰串的分析,并计算权值。并建立形容词修饰串描述结构;
(16):句子修饰串的分析,
“分析FA1”中的情况为例子:
<1> “语串A”中,“的”的后面语串“朋友”(简称“语串M”)被选为语言实体核心部分,“的”的前面“已经离开北京”(简称“语串N”),就是句子修饰串部分,需要进行句子修饰串的分析,进行步骤(6),并计算权值。(此串也会进行形容词修饰串的分析);
〈2> “语串N”的句子分析结果为一个句子语义树;
“语串M”的语言实体核心部分,可以跟“语串N”的句子分析结果的空缺语言实体位置建立句子修饰串描述结构;
<3>与“形容词修饰串的分析”的分析权值比较后,“句子修饰串的分析”的分析权值最大,所以,“语串N”的分析结果选“句子修饰串的分析结果”;
(17):多语言实体和它们的修饰部分的整理
对分析后的多语言实体,形容词修饰串,句子修饰串,以及相应的并联描述结构,进行整理,对每个语言实体,建立起一个单个语言实体描述结构,此结构包括此语言实体本身以及修饰这个语言实体的形容词修饰部分和句子修饰部分以及并联描述;并且在这个层次,对语言实体进行权值计算;并且选择最优的多语言实体组合;此处的语言实体,根据形容词修饰串、句子修饰串以及并联结构,进行权值计算;多个语言实体并排时,也计算相应的权值;
(18):将此语言实体分析结果进行填充,问句和特殊句子中的问词点和特殊检验点的定位。并且,上传上下文语言实体结果;
如:动词“告诉”分析完后,“语言实体TB3 ”中语串“谁”为问词,所以需要进行问词标
记;
(19):句子模式转换以及归一化处理
按照句子类型,以及包含单句类型进行模式转换和归一化;
如:上述动词“告诉”的动词模式“adas”直接进行“一对一”对应转换,动词模式不变;
(20):最优语义树的输出
对最优的句子类型,进行最优语义树输出。对于机器翻译系统,直接使用内存的语义树。本实施例的最优语义树为图4所示;
(21):翻译输出
在目标语言生成器中,从篇章到小句进行翻译,本实例只有一个小句;根据动词“告诉”的动词模式“adas”设计翻译结果的格式,同时考虑到动词“告诉”的第三个语言实体为问词,并且此句子为问句,所以,整体进行特殊问词的提前;
最终译文为:
“Whom does friend that has left Beijing tell that you can receive tangerineof their hometown in tomorrow ? ”;
(22):权值体系的说明
本实施例的权值计算点目前有1000多个,它们来源于人们的语言逻辑和语言习惯,以及上下文约束,是分布在整个“语言逻辑框架”中的,跟分析同步计算的;
本实施例的一些权值计算举例如下:
<1>对“组合串Z1”中的介词“在”进行分析时,对“语串D”进行概念类别为“ [n:dotl] ”的语言实体分析,当选“昨天”为结果时,因为“在”可以带时间边界,且“昨天”前为空,那么加分20分;· 〈2>在“分析FC1”中,对“组合串II”,进行2个语言实体分害I],会有分割结果“ {谁} I I [在明天]你们{会} ”。其中“语言实体TB3”为“ {谁} ” ;“语言实体TC1”为“[在明天]你们{会} ”,核心部分为“ {会} ” ;对于“语言实体TCl ”,核心部分“ {会} ”为情态词,并且这个语言实体是动词的左边部分,那么扣分100分;
〈3>在步骤(7)中,检验核心动词“会”的时候,左边语言实体分析,会有分割结果
“已经离开北京的朋友告诉谁[在明天]{你们} ”,核心部分为“你们”,因为核心部分“你们”为人称代词,并且不是指代组合(如“这人”),也不是反身代词(如“本人”),这个时候,会发现,修饰部分“已经离开北京的朋友告诉谁[在明天]”存在代词“谁”,那么扣分100 分;
<4> “权值计算点”的添加,以及“权值计算点”处的权值调整,都是根据较全面的测试语句的语言逻辑进行设计的。这些“权值计算点”形成一个完整的体系,跟自然语言整体逻辑相对应。
[0040] 申请人:在实用的专利领域以及公共领域的汉英机器翻译系统上对本发明“语言实体关系分析方法和一种机器翻译装置和方法”进行了实验和实际应用开发。本系统既无需外在的大量的产生式规则,也无需海量的对齐语料和相应的深加工计算资源,通过7000多句段复杂语料,“语言逻辑框架”已基本成熟,系统也基本可用,各方面都有明显的优势,特别在专利领域则更突出。系统代码量近40万行,语义知识库已经可用,系统运行速度是传统系统的30-100倍,并且还有很大的潜力;这样,一个高性能的语言分析平台基本建立;这个方案在系统性能和工程实施上都有十分显著的优势。
[0041 ] 最后所应说明的是,以上通过本发明的具体实施例对本发明的理论原理和技术方案以及有益效果进行了详细的说明。本领域的普通技术人员应当理解,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,对本发明的技术方案进行修改或者等同替换或者改进,均应包含在本发明的保护范围之内。
【权利要求】
1.一种语言实体关系分析方法,其特征在于包括以下步骤: (1):对输入的语句进行篇章、段落、大句分割,进行步骤(2);然后,在段落、大句范围内,进行缺省指代等知识计算; (2):对大句分割成小句,进行步骤(3); (3):小句中的内嵌处理调用步骤(2);内嵌处理完,进行步骤(4); (4):对小句进行分词,如果有歧义,那么形成有限数目的子句,并对每个子句计算分词歧义权值,对每个子句进行预处理(数字,数量短语,特殊组合短语,时间短语,超长子句处理),对每个子句进行步骤(5);在此层次进行相应的权值计算,选出最优小句; (5):对子句读取语义知识库信息,对动词、可作模拟动词处理的形容词和数量短语、介词、可带子句的连词等建立分析启动结构;进行步骤(6); (6):对子句语串进行单句,并联句,形容词句,数量短语句,连动句,单实体句等分析;对于那些具有句子模式的句子,都能将其分解成为单句、多个单句,进行步骤(7);对于单实体句,进行步骤(10);在此层次进行相应的权值计算,选出最优分析结果; (7):单句多动词处理,对子句中的多个动词,计算优先权值,进行步骤(8);多个动词处理完,在此层次进行相应的权值计算,选出最优核心动词; (8):动词多义处理,对于动词的多种意义,分别进行步骤(9);动词多义处理完后,在此层次进行相应的权值计算,选出最优动词单义; (9):动词多种关系模式处理,每个动词除有自己的基本句子关系模式外,还有变形句子关系模式,变形句子关系模式可以由程序按照基本句子关系模式自动生成;按照每个模式的语言实体情况,对每个语言实体部分,进行步骤(10),每个模式处理完,计算出这个模式的权值,这包括这个模式的多个语言实体的关联和这个模式的上下文方面的权值,以及一些特殊模式自身的权值计算;多种可能的模式处理完后,选出最优动词关系模式; (10):语言实体处理分别有:纯语言实体分析,空语言实体分析(可以有副词串),句子语言实体分析;如果是句子语言实体分析,填充上下文,调用步骤(6);如果是空语言实体分析,那么进行步骤(11),步骤(12)后,进行全副词串分析,并计算权值;如果是纯语言实体分析,调用步骤(11),步骤(12),步骤(13),步骤(17),步骤(18),进行本语言实体的权值计算; (11):命名实体组合,进行特殊名词组合串、人名识别、地点识别、机构识别、特殊副词串识别、特殊形容词串识别、复杂组合结构等识别;得到多个组合串,对每个组合串进行步骤(12)处理; (12):介词组合结构处理:对多个介词,从右向左进行递归组合处理,介词类似动词模式,可以带语言实体,可以带句子,并且分别都可以带后边界;如果是带语言实体,那么调用步骤(13);如果是句子调用步骤(6);介词的模式检验在动词模式上下文下进行时,需要填充“需要进行的额外语言实体计算”的上下文; (13):多语言实体分析,对语串片段按照特殊关联词(如汉语“的,和,或,”等,英语“that从句”等)进行划分,得到单个语言实体、多个语言实体、形容词修饰串、句子修饰串;对于单个实体、多个语言实体进行步骤(14)处理,对于形容词修饰串进行步骤(15);对句子修饰串进行步骤(16)处理; (14):语言实体分割,对此时语串按照上下文进行多语言实体分割,并对每个语言实体计算权值(根据语言实体内形容词、副词、核心部分等来设计权值,并且当形容词部分含有一般动词、特殊动词、特殊动词搭配、非形容词词类时,进行相应的权值计算),并且计算这个多语言实体组合的权值;如果有并联关系,那么建立语言实体并联描述结构,并计算相应的权值; (15):形容词修饰串的分析 对形容词修饰串,配合上下文进行分割检验,并建立形容词修饰描述结构,如果有并联,建立形容词修饰串并联描述结构,并计算权值;此处权值计算需要根据形容词串包含词类情况,特别是当形容词修饰串含有一般动词、特殊动词、特殊动词搭配、非形容词词类时;根据形容词修饰串跟所修饰的语言实体,计算相应的权值;当需要计算形容词修饰串并联情况时,(比如:“我和我的父亲”,“我父亲和小明的父亲”),需要进行相应的权值计算; (16):句子修饰串的分析 对句子修饰串,配合上下文进行检验,调用步骤出);并建立句子修饰描述结构,如果有并联,建立句子修饰并联描述结构,并计算权值;根据句子修饰串跟所修饰的语言实体,计算相应的权值;当需要计算句子修饰串并联情况时,需要进行相应的权值计算; (17):多语言实体和它们的修饰部分的整理 对分析后的多语言实体,形容词修饰串,句子修饰串,以及相应的并联描述结构,进行整理,对每个语言实体,建立起一个单个语言实体描述结构,此结构包括此语言实体本身以及修饰这个语言实体的形容词修饰部分和句子修饰部分以及并联描述;并且在这个层次,对语言实体进行权值计算;并且选择最优的多语言实体组合;此处的语言实体,根据形容词修饰串、句子修饰 串以及并联结构,进行权值计算;多个语言实体并排时,也计算相应的权值; (18):将此语言实体分析结果进行填充,并进行问句和特殊句子中的问词点和特殊检验点的定位;并且,上传上下文语言实体分析结果; (19):句子模式转换以及归一化处理 按照句子类型以及所包含的单句类型进行模式转换和归一化; (20):最优语义树的输出 对最优的句子类型,进行最优语义树输出;对于机器翻译系统,直接使用系统内存中的最优语义树。
2.一种基于语言实体关系分析方法的机器翻译方法,其步骤包括: (1)创建语义知识库,其中,包含源语言单词和短语以及相应的语义知识和相应的目标语言译文; (2)分析源语言串,得到最优语义树; (3)对所得最优语义树,根据此语义树本身的句子类型和动词关系模式类型进行译文生成,得到最终译文。
3.如权利要求2所述的方法,其特征在于,所述步骤(1)中,所述语义知识库中存储的词条按照翻译系统的要求进行标注,注明相关的语义信息。
4.如权利要求2所述的方法,其特征在于,所述步骤(2)中,通过语言实体关系分析器对源语言进行分析,所述语言实体关系分析器是根据权利要求1中所述的方法建造的。
5.一种基于语言实体关系分析方法的机器翻译装置,其特征在于,包括: 语义知识库模块:用于存储源语言单词和短语以及相应的语义知识和相应的目标语言译文; 语言实体关系分析器:连接语义知识模块,用于按照语言实体关系分析方法对原文进行分析,得到最优语义树; 目标语言生成器:连接语义实体关系分析器,用于根据上述得到的最优语义树本身的句子类型以及动词关系模式类型进行译文生成,最终得到译文;译文的质量优化,采用动宾短语搭配译文优化,定中短语译文优化等优化,以及利用词库中已经存在的组合词组对远距离动宾结构等进行译文优化,这些`优化措施将会大幅提高译文的流利度。
【文档编号】G06F17/27GK103631770SQ201310649137
【公开日】2014年3月12日 申请日期:2013年12月6日 优先权日:2013年12月6日
【发明者】刘建勇, 董亦农, 尹德春 申请人:刘建勇, 董亦农, 尹德春