一种基于标点符号处理的汉语句法分析方法及装置的制造方法
【技术领域】
[0001] 本发明涉及自然语言处理技术领域,特别涉及一种基于标点符号处理的汉语句法 分析方法及装置。
【背景技术】
[0002] 句法分析是自然语言处理的核心技术之一,是对语言进行深入理解的基础,而自 然语言理解又是机器翻译、信息抽取、语义检索等众多语言处理技术的基础。因此,句法分 析是中文信息处理的一项不可或缺的核心与基础技术。
[0003] 标点符号是书面汉语的一个重要的组成部分,绝大多数现有的自动句法分析系统 都忽略了它们的作用。论文《引入标点处理的层次化汉语长句句法分析方法》(李幸,宗成 庆,中文信息学报,第20卷,第4期)指出,在英语句法分析方面,一些与标点符号相关的研 究已经开展,但对于汉语标点符号从自然语言处理角度的研究开展的很少。上引论文提出 了一种基于标点处理的层次化汉语长句句法分析方法,但该论文把标点简单地划分为"分 割标点"和"普通标点",并采用概率上下文无关方法来处理标点。这种方法对标点符号的 处理不够全面,忽略了标点符号的部分语法和语义信息,而且层次不够清晰,难以处理复杂 的标点符号的嵌套使用问题。
[0004] 本发明根据标点符号的用法和形式特征对标点符号进行分类,用分层分级法对原 始输入句中的标点符号及标点符号分隔开来的子句赋予不同的标记,生成标记表,然后用 标记消解法进行基于标点符号处理的句法分析。所述方法以GB/T 15834-2011《标点符号 用法》为依据,在句法分析中充分利用了标点符号的语法和语义信息,使句法分析的层次更 加清晰,有助于分隔长句、确定子句的层次和边界,大大减少时间消耗和歧义边的个数,提 高句法分析的准确率和召回率。同时,该方法可以非常简便清晰地解决标点符号的嵌套使 用问题,而不用穷举所有的标点符号组合用法。
【发明内容】
[0005] 在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本 理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的 关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概 念,以此作为稍后论述的更详细描述的前序。
[0006] 本申请的目的是为了克服现有汉语句法分析方法对标点符号处理的不足,提供 一种新的基于标点符号处理的汉语句法分析方法及工具。
[0007] 为实现上述目的,根据本申请所提供的一种实施例,提供了一种基于标点符号处 理的汉语句法分析方法,该方法基于以下思想: 根据上述国标对汉语标点符号用法的说明,标点符号是有层次而且可以被分层分级 的,其依据是标点符号停顿时间的长短、分割句子的能力和语义(例如语气、特殊含义、补充 说明等)等方面的信息。相应地,被标点符号分隔开来的子句也可以被分层分级,这将为句 法分析提供极大的便利。
[0008] 上述思想为从句法分析角度研究标点符号提供了理论基础,本申请提供的一种基 于标点符号处理的汉语句法分析方法包括标记阶段和消解阶段,标记阶段采用的方法为分 层分级法,消解阶段采用的方法为标记消解法。
[0009] 本申请提供的分层分级法根据原始输入句中标点符号和标点符号分隔开来的子 句的层次和级别,生成一系列标记,最终输出标记表。所述标记表中标记的层次和级别,决 定了标点符号及其子句的处理次序和方法。
[0010] 在充分获取标点符号提供的语法和语义信息的基础上,本申请提供了标记消解法 来进行句法分析。所述标记消解法,是指按层次和级别提取标记表中的标记,进入子句句法 分析程序和子树拼接程序,分析和拼接过程中调用消解规则,最后生成完整句法树作为句 法分析结果。
[0011] 相应地,提供了一种基于标点符号处理的汉语句法分析装置,主要包括分层分级 装置、标记消解装置、句法分析装置和子树拼接装置。分层分级装置的运行原理即所述分层 分级法,标记消解装置的运行原理即所述标记消解法。
[0012] 本发明的有益效果是,所述分层分级法生成的标记的级别就充分说明了句法分析 过程中已经做过的处理程序和有待进行的处理程序,而且所述标记中的信息比较全面,使 标点符号的处理层次分明,简单有效;标记消解法与不考虑标点符号的一遍分析方法和仅 利用标点符号来分割长句的分析方法相比的优点主要在于:第一,句法分析的层次更加清 晰,有利于分割句子,减少进入句法分析程序的子句的长度;第二,充分利用了标点符号提 供的语法和语义信息,包括被标点符号分隔开来的子句的类型信息,大大减少了时间消耗 和歧义边的个数,提高了句法分析的准确率和召回率;第三,可以非常简便清晰地解决标点 符号的嵌套使用问题,而不用穷举所有的标点符号组合用法。
【附图说明】
[0013] 参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其 它目的、特点和优点。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图 标记来表示。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一 部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。显而易 见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来 讲,还可以根据这些附图获得其他的附图。
[0014] 图1是能够用于实现本申请的实施例的基于标点符号处理的汉语句法分析装置 结构图。
[0015] 图2是本申请的基于标点符号处理的汉语句法分析方法的一种实施方式的流程 图。
[0016] 图3是根据一种实施方式的分层分级法的流程图。
[0017] 图4是根据一种实施方式的标记消解法的流程图。
【具体实施方式】
[0018] 在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见, 在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施 例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符 合与句法分析方法相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而 有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公 开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
[0019] 在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中 仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明 关系不大的其他细节。
[0020] 如图1所示,是本发明技术方案中所涉及的基于标点符号处理的汉语句法分析装 置,分层分级装置(102)与标记消解装置(104)串联,标记消解装置(104)包含句法分析 装置(105)和子树拼接装置(106),句法分析装置(105)与子树拼接装置(106)串联,句法 分析装置(105)和子树拼接装置(106)在运行过程中调用消解规则表(107),分层分级装 置(102)的输入为原始输入句(101),输出为标记表(103),整个系统的输出为完整句法树 (108)〇
[0021] 分层分级装置,其功能在于将原始输入句中的标点符号和标点符号分隔开来的子 句,划分为不同的层次和级别,生成标记表。所述装置采用的方法,就是上述的分层分级法。 分层分级法根据上述国标中对汉语标点符号用法的说明,在进行句法分析前,对句子进行 语法上的处理和语义上的处理。所述语法上的处理指根据标点符号将句子分割为语块、半 语块和/或非语块,并标明层次和级别,所述语义上的处理指标点符号本身所具有的语义 信息要在句法分析结果中标记,留待语义分析阶段处理。例如:引号表引用、着重、特殊含 义,书名号表示各种作品的名称这样的意义,如果在句法分析中被视为透明的,则会给语义 分析造成困难,应该在句法分析结果中进行标记,留待语义分析阶段处理。
[0022] 标记消解装置,包含句法分析装置和子树拼接装置,其功能在于进行子句句法分 析和子树拼接,在此过程中调用消解规则表中的消解规则,将标记表中的语法和语义信息 加入到句法分析结果中,或作为句法分析成功与否的判断依据。
[0023] 句法分析装置,其功能在于对子句进行句法分析。
[0024] 子树拼接装置,其功能在于对子树进行拼接,主要是指对第二层、第三层和第四层 的标点符号所分隔开的子树进行拼接,最终生成一棵完整的句法树。
[0025] 如图2所示,是本申请的基于标点符号处理的汉语句法分析方法的一种实施方式 的流程图。本发明提供的基于标点符号处理的汉语句法分析技术的具体步骤如下: 步骤101 :接收输入的原始句(对应图1中的101); 步骤202 :进入分层分级程序,依据句子中的标点符号及子句的层次级别关系,将原始 输入句转化为一系列标记,生成标记表(对应图1中的102和103); 步骤203 :进入标记消解程序,根据标记表中标记的级别逐级进入句法分析程序和子 树拼接程序,消解标记(对应图1中的104); 步骤204 :判断是否有应该被分析为完整子树的子句没有生成完整子树; 步骤205 :如果没有步骤204中的情形,则判断是否消解完所有的标记,如果没有消解 完,转步骤203 ; 步骤206 :如果有步骤204中的情形,则句法分析失败退出; 步骤108 :如果步骤205中已经消解完所有的标记,则输出完整句法