的标记 序列后,已没有-1级标记,进入普通消解程序消解剩余标记。
[0093] 上面对本发明的一些实施方式进行了详细的描述。如本领域的普通技术人员所能 理解的,本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算设备(包括 处理器、存储介质等)或者计算设备的网络中,以硬件、固件、软件或者它们的组合加以实 现,这是本领域普通技术人员在了解本发明的内容的情况下运用他们的基本编程技能就能 实现的,因此不需在此具体说明。
[0094] 此外,显而易见的是,在上面的说明中涉及到可能的外部操作的时候,无疑要使用 与任何计算设备相连的任何显示设备和任何输入设备、相应的接口和控制程序。总而言之, 计算机、计算机系统或者计算机网络中的相关硬件、软件和实现本发明的前述方法中的各 种操作的硬件、固件、软件或者它们的组合,即构成本发明的设备及其各组成部件。
[0095] 因此,基于上述理解,本发明的目的还可以通过在任何信息处理设备上运行一个 程序或者一组程序来实现。所述信息处理设备可以是公知的通用设备。因此,本发明的目 的也可以仅仅通过提供包含实现所述方法或者设备的程序语义代码的程序产品来实现。也 就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本 发明。显然,所述存储介质可以是本领域技术人员已知的,或者将来所开发出来的任何类型 的存储介质,包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。
[0096] 在本发明的方法和装置中,显然,各部件或各步骤是可以分解、组合和/或分解后 重新组合的。这些分解和/或重新组合应视为本发明的等效方案。
[0097] 本发明申请中并未列出全部的消解规则,应当理解,这些消解规则可以用程序代 码、数据或其它方式来实现,而且所述消解规则仅是示范性的。同样,标记表中标记的数据 结构和所用的符号也可以采用其它形式。本领域技术人员可以对所述消解规则的内容及其 实现方式、标记的数据结构和符号进行各种修改和变更,而不背离本发明的实质和范围。
[0098] 还需要指出的是,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺 序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
[0099] 虽然已经结合附图详细说明了本发明的实施方式及其优点,但是应当理解,上面 所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术 人员来说,可以对上述实施方式作出各种修改和变更而不背离本发明的实质和范围。因此, 本发明的范围仅由所附的权利要求及其等效含义来限定,在不超出由所附的权利要求所限 定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。
【主权项】
1. 一种基于标点符号处理的汉语句法分析方法,其特征在于该方法包括标记阶段和消 解阶段,其中, 标记阶段: a) 研究汉语标点符号的用法和形式特征,以及被标点符号分隔开来的子句的句法特 征,将其分层分级; b) 依据a)所述标点符号及子句的特征,编写消解规则,生成消解规则表; c) 依据a)所述标点符号及子句的层次级别关系,将原始输入句转化为一系列标记,生 成标记表; 消解阶段: aa) 搜索所述标记表,看是否有语段级(即-1级)标记; bb)如果没有上述语段级标记,则进入普通消解程序,按层级提取标记进行消解; cc)如果有上述语段级标记,则进入特殊消解程序,消解完成后转步骤aa); dd)判断标记表是否为空,如果为空则输出整个句子的完整句法树,否则转步骤bb); ee)上述过程中,有任何一个应该被分析为完整子树的子句没有生成完整子树,则句法 分析失败。2. 如权利要求1所述的方法,其特征在于,标记阶段中步骤a)从句法分析的角度研究 汉语标点符号的用法和形式特征,以及被标点符号分隔开来的子句的句法特征,以所述特 征为依据将标点符号及其分隔开来的子句分层分级。3. 如权利要求1所述的方法,其特征在于,标记阶段步骤b)中的消解规则的内容,是在 句法分析和子树拼接中如何处理标点符号包含的语法和语义信息以及如何去除标点。4. 如权利要求1所述的方法,其特征在于,标记阶段步骤c)中的所述标记有包含和被 包含关系,依据是标记中子句的起始位置和终止位置,分层分级法生成标记表的具体步骤 如下: l) 生成两张表,即待分析标记表(为方便描述,以下称表1)和已处理标记表(为方便描 述,以下称表2),并初始化为空; 2) 将整个原始输入句(根据句法分析方法的不同,可能是词序列和/或词性序列,也可 能是其它序列)生成种子标记,标记为O级,即未处理整句,压入表1 ; 3) 判断表1是否为空; 4) 如果表1为空,则分层分级程序结束,输出表2为标记表; 5) 如果表1不为空,弹出表1顶层的标记,从第一层到第五层逐层逐级检测其中包含的 标点符号和子句; 6) 判断是否检测到标点符号和子句; 7) 如果没有检测到,则升级到相应的级别,压回表1 ; 8) 如果检测到,则判断是否已经为10级; 9) 如果为10级,直接压入表2,转步骤3); 10) 如果不是10级,则生成新标记,升级到相应的级别后,压入表2,同时压入表1,转步 骤3); 步骤6)中,如果检测到语段级(主要是指引号、括号、书名号内部的子句),则内部的子 句生成新标记,标记为-1级,压入表1和表2,再逐级向上检测,-1级(即语段级)标记一侧 或两侧如果不为空,也生成新标记,并升级到相应级别(分别为7级、8级和9级),但只压入 表1不压入表2。5. 如权利要求1所述的方法,其特征在于,消解阶段步骤aa)中所述语段是指还未被分 析的语言单位,可以是句群和/或引号、括号、书名号内部的子句,可能是词、短语、句子、句 群等。6. 如权利要求1所述的方法,其特征在于,消解阶段步骤bb)所述普通消解程序的具体 步骤为: 1) 在所述标记表中搜索级别低于10级(即最高级)的最高级别标记(为方便描述,以下 称标记1); 2) 在所述标记表中搜索标记1范围内级别为10级的标记(为方便描述,以下称标记2), 并弹出; 3) 对标记2中的子句进行句法分析,分析过程中调用消解规则; 4) 对标记2中的子句进行子树拼接,拼接过程中调用消解规则; 5) 将标记2的分析结果赋予标记1,并将标记1升为10级。7. 如权利要求1所述的方法,其特征在于,消解阶段中步骤cc)所述特殊消解程序有一 个递归过程,如果消解完所述最内层语段级标记,则判断标记表中是否还有语段级标记,如 果有则递归调用特殊消解程序,否则调用普通消解程序,所述特殊消解程序的具体步骤如 下: 1) 提取最内层语段级(即-1级)标记(为方便描述,以下称标记3)范围内所包含的标 记序列,如果所述标记序列只有一个标记且为10级(此时语段只包含词和/或短语,没有标 点符号),则直接进入句法分析程序,然后转步骤4),否则转步骤2); 2) 进入普通消解程序消解上述标记序列中的标记; 3) 判断上述标记序列是否为空,如果不为空则转步骤2); 4) 如果上述标记序列为空,则调用-1级标记消解规则消解标记3,转消解阶段的步骤 BB )〇8. 如权利要求6所述的方法,其特征在于,步骤3)中的句法分析程序不限于某一种句 法分析方法,包括现有的和将来可能出现的句法分析方法和/或它们的组合。9. 如权利要求6所述的方法,其特征在于,步骤4)中的子树拼接程序是指将标点符号 两侧的完整子树或非完整子树拼接为一棵完整子树,并且主要是指分号、冒号、逗号两侧和 引号、括号、书名号内部及两侧子树的拼接。10. -种基于标点符号处理的句法分析装置,其特征在于,由分层分级装置、标记消解 装置、句法分析装置、子树拼接装置组成,其中, 分层分级装置,其功能在于将原始输入句中的标点符号和标点符号分隔开来的子句, 划分为不同的层次和级别,生成标记表,所述装置采用的方法,就是上述的分层分级法; 标记消解装置,包含句法分析装置和子树拼接装置,其功能在于进行子句句法分析和 子树拼接,在此过程中调用消解规则表中的消解规则,将标记表中的语法和语义信息加入 到句法分析结果中,或作为句法分析成功与否的判断依据; 句法分析装置,其功能在于对子句进行句法分析; 子树拼接装置,其功能在于对子树进行拼接,主要是指对分号、冒号、逗号、引号、括号 和书名号所分隔开的子树进行拼接,最终生成一棵完整的句法树。
【专利摘要】本发明涉及自然语言处理技术领域,特别涉及一种基于标点符号处理的汉语句法分析方法及装置。该方法包括:研究汉语标点符号及子句的句法、形式特征,将其分层分级;依据所述特征,编写消解规则表;依据标点符号及子句的层次级别关系,将原始输入句转化为一系列标记,生成标记表;根据标记表中标记的层次和级别,进行句法分析和子树拼接,分析和拼接过程中调用消解规则。与不考虑标点符号的一遍分析方法和利用标点符号来分解长句的分析方法相比,该方法使句法分析的层次更加清晰,充分利用了标点符号的语法和语义信息,提高了句法分析的效率和准确率,而且可以非常简便清晰地解决标点符号的嵌套使用问题,而不用穷举所有的标点符号组合用法。
【IPC分类】G06F17/28
【公开号】CN105243056
【申请号】CN201510562372
【发明人】饶志刚
【申请人】饶志刚
【公开日】2016年1月13日
【申请日】2015年9月7日