藏语句法和语义角色联合标注方法

文档序号:6511758阅读:1008来源:国知局
藏语句法和语义角色联合标注方法
【专利摘要】本发明涉及将少数民族文字处理成汉语的方法,尤其涉及一种藏语句法和语义角色联合标注方法。其包括下列步骤:a)单复句区分;b)语义角色标记;c)谓词识别;d)动词语义分类;e)句法结构标注;f)编辑修订语义角色标注结果。本发明提取藏语句法和语义特征,一方面,可以直接利用藏语的语法标记,标注句子中所表达的施事、受事、时间、地点、方式等语义角色信息;另一方面,针对谓词的语义角色标注结果,可以反作用于句法解析过程,减少句法标记不能唯一确定的影响,从而提高句处理系统的性能。
【专利说明】藏语句法和语义角色联合标注方法
【技术领域】
[0001]本发明涉及将少数民族文字处理成汉语的方法,尤其涉及一种藏语句法和语义角色联合标注方法。
【背景技术】
[0002]藏文信息处理领域研究内容百花齐放,在字、词和短语处理方面陆续取得了突破,句处理阶段的攻关已经开始。
[0003]语义分析是计算语言学领域最具挑战性的课题之一,也是制约语言信息技术大规模应用的主要瓶颈。语义分析就是根据句子结构和句中实词的词义,推导出句子的实际语义,这是句处理的主要目标。
[0004]语义角色标注的任务,就是找出句子中谓词的相应语义角色成分,如:施事、受事、时间、地点、方式等,这些成分的标注对于理解一个句子的语义起着重要作用。
[0005]句法分析是根据给定语法,推导出句子的语法结构,一是确定句子所包含的谱系结构,一是确定句子的组成成分。句法分析结果的表达形式是句法树。
[0006]一般的语义角色标注方法,是在给定句法树的情况下,研究如何应用于各种特征作用于机器学习算法。
[0007]传统的语义角色标注研究,一般是在句法处理基础上进行的。但是目前,很难获得藏语深层句法分析的结果。现有的藏文句法分析系统在通用领域的表现也不尽如人意。

【发明内容】

[0008]针对现有技术上存在的不足,本发明提供一种藏语句法和语义角色联合标注方法。
[0009]为了实现上述目的,本发明是通过如下的技术方案来实现:
[0010]一种藏语句法和语义角色联合标注方法,其包括下列步骤:
[0011]a)单复句区分:将长句划分为若干短句;
[0012]b)语义角色标记:格标记,包括语法角色成分、名物化或非谓动词组块标记,去除非标注内容;
[0013]c)谓词识别:针对谓词特征,确定谓词所属的语义结构类别是形容词谓语句或动词谓语句;
[0014]d)动词语义分类:针对动词后缀标记特征,确定动词语义结构类型;
[0015]e)句法结构标注:针对动词语义结构类型,利用浅层语义分析,筛选、识别语义角色,再次对语义结构类型分类;
[0016]f)编辑修订语义角色标注结果。
[0017]上述的藏语句法和语义角色联合标注方法,其步骤b)标记在句子里充当施事、受事、涉事、领属、对象、目的、处所、材料、来源或工具的语法角色成分,去除语气词、指示代词、不定指示词、疑问代词、复数后缀或敬语语素,不考虑时态信息。[0018]上述的藏语句法和语义角色联合标注方法,其步骤b)中的名物化标记包括做事者或方式、方法、情形或手工、手艺、材料、事物或动作、有关事物或习惯、规则或态度、情况或心灵、精神或数量、标准、地方或时候或空闲或更迭、轮流或某方面。
[0019]上述的藏语句法和语义角色联合标注方法,其步骤b)中的所述语法角色为ArgO-5, ArgO表示动作的施事,Argl表示动作的影响,Arg2_5根据谓词确定为不同的语义含义。
[0020]上述的藏语句法和语义角色联合标注方法,其步骤b)中的所述语法角色成分包括施事主语、领有主语、受事宾语、对象宾语、结果宾语、处所宾语、动词谓语和形容词谓语。
[0021]上述的藏语句法和语义角色联合标注方法,其步骤c)中所述谓词包括动词、助动词、动词后缀或语气词。
[0022]上述的藏语句法和语义角色联合标注方法,其步骤c)中所述谓词包括通格或共同格、受格、施格、领有格、位格、与格、对象格、从属格、工具格、从格、结果格或使役格。
[0023]上述的藏语句法和语义角色联合标注方法,其步骤d)中动词包括及物动词、不及物动词、自主动词、不自主动词、情态助动词、性状动词、动作动词、心理动词、感知动词、变化动词、趋向动词、述说动词、关系动词、领有动词、存在动词、互动动词、使役动词。
[0024]有益效果:
[0025]本发明提取藏语句法和语义特征,一方面,可以直接利用藏语的语法标记,标注句子中所表达的施事、受事、时间、地点、方式等语义角色信息;另一方面,针对谓词的语义角色标注结果,可以反作用于句法解析过程,减少句法标记不能唯一确定的影响,从而提高句处理系统的性能。
【具体实施方式】
[0026]为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合【具体实施方式】,进一步阐述本发明。
[0027]本发明其包括下列步骤:
[0028]a)单复句区分:将长句划分为若干短句;
[0029]b)语义角色标记:格标记,包括语法角色成分、名物化或非谓动词组块标记,去除非标注内容;
[0030]根据藏语的格标记和语义角色标注需要,明确藏文的语义角色。核心的语义角色为ArgO-5, ArgO表示动作的施事(施事格),Argl表示动作的影响(结果格),Arg2_5根据谓语动词不同会有不同的语义含义,增加部分附加语义角色,如ArgM-LOC (位格)。
[0031]标记在句子里充当施事、受事、涉事、领属、对象、目的、处所、材料、来源或工具的语法角色成分,去除语气词、指示代词、不定指示词、疑问代词、复数后缀或敬语语素,不考虑时态信息。
[0032]藏语具有丰富的格标记,与语义角色标注有关的有三十多种,如:施格、宾格、受益格、同类比较格、占有格、目的格等。有的格对应于一种语义角色(如施格);有的格标记可能对应于多个语义角色,或者一个语义角色对应多种格标记,如Argl (结果格、受益格)等。
[0033]c)谓词识别:针对谓词特征,确定谓词所属的语义结构类别是形容词谓语句或动词谓语句;[0034]谓词词性主要区分形容词谓语句和动词谓语句,形容词谓语句根据句式特征识另IJ,动词谓语句:与谓语动词相关的句法标记,如时、体后缀,语气词,助动词等。
[0035]d)动词语义分类:针对动词后缀标记特征,确定动词语义结构类型;
[0036]基于动词后缀语义信息的句式分析。
[0037]e)句法结构标注:针对动词语义结构类型,利用浅层语义分析,筛选、识别语义角色,再次对语义结构类型分类;
[0038]f)编辑修订语乂角色标注结果.
[0039]本发明中的标注内容包括:
[0040]1.句法成份标记
[0041]
【权利要求】
1.一种藏语句法和语义角色联合标注方法,其特征在于,包括下列步骤: a)单复句区分:将长句划分为若干短句; b)语义角色标记:格标记,包括语法角色成分、名物化或非谓动词组块标记,去除非标注内容; c)谓词识别:针对谓词特征,确定谓词所属的语义结构类别是形容词谓语句或动词谓语句; d)动词语义分类:针对动词后缀标记特征,确定动词语义结构类型; e)句法结构标注:针对动词语义结构类型,利用浅层语义分析,筛选、识别语义角色,再次对语义结构类型分类; f)编辑修订语义角色标注结果。
2.根据权利要求1所述的藏语句法和语义角色联合标注方法,其特征在于,步骤b)标记在句子里充当施事、受事、涉事、领属、对象、目的、处所、材料、来源或工具的语法角色成分,去除语气词、指示代词、不定指示词、疑问代词、复数后缀或敬语语素,不考虑时态信息。
3.根据权利要求1所述的藏语句法和语义角色联合标注方法,其特征在于,步骤b)中的名物化标记包括做事者或方式、方法、情形或手工、手艺、材料、事物或动作、有关事物或习惯、规则或态度、情况或心灵、精神或数量、标准、地方或时候或空闲或更迭、轮流或某方面。
4.根据权利要求1所述的藏语句法和语义角色联合标注方法,其特征在于,步骤b)中的所述语法角色为ArgO-5, ArgO表示动作的施事,Argl表示动作的影响,Arg2_5根据谓词确定为不同的语义含义。
5.根据权利要求1所述的藏语句法和语义角色联合标注方法,其特征在于,步骤b)中的所述语法角色成分包括施事主语、领有主语、受事宾语、对象宾语、结果宾语、处所宾语、动词谓语和形容词谓语。
6.根据权利要求1所述的藏语句法和语义角色联合标注方法,其特征在于,步骤c)中所述谓词包括动词、助动词、动词后缀或语气词。
7.根据权利要求1所述的藏语句法和语义角色联合标注方法,其特征在于,步骤c)中所述谓词包括通格或共同格、受格、施格、领有格、位格、与格、对象格、从属格、工具格、从格、结果格或使役格。
8.根据权利要求1所述的藏语句法和语义角色联合标注方法,其特征在于,步骤d)中动词包括及物动词、不及物动词、自主动词、不自主动词、情态助动词、性状动词、动作动词、心理动词、感知动词、变化动词、趋向动词、述说动词、领有动词、存在动词、互动动词、使役动词。
【文档编号】G06F17/27GK103440236SQ201310421074
【公开日】2013年12月11日 申请日期:2013年9月16日 优先权日:2013年9月16日
【发明者】邱莉榕 申请人:中央民族大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1