一种基于标点符号处理的汉语句法分析方法及装置的制造方法_3

文档序号:9489418阅读:来源:国知局
"他",终止位置 为14,表不句子最后的标点符号后引号,未赋值的数据表不空值。
[0060] 弹出表1顶层的标记1. 1,从第一层到第五层逐层逐级检测标点符号及子句。首先 检测前四种组合整句符号,此处检测到,生成新标记,升级为1级,压入表2,同时压入表1, 此时表2中的标记为: 〈2. 1,1,14,整句,? ",1,>。
[0061] 表1中的标记为: 〈1. 2,1,14,整句,? ",1,>。
[0062] 再弹出表1顶层的标记1. 2,检测句外括号,没有检测到,升为2级,压回表1,此时 表1中的标记为: 〈1. 2,1,14,整句,? ",2,>。
[0063] 再弹出表1顶层的标记1. 2,检测单用整句符号,没有检测到,升为3级,压回表1, 此时表1中的标记为: 〈1. 2,1,14,整句,? ",3,>。
[0064] 弹出表1顶层的标记1. 2,检测冒号,此处检测到,冒号左右两侧分别生成新标记, 升为4级,压入表2,同时压入表1,此时表2中的标记为: 〈2. 1,1,14,整句,? ",1,> 〈2. 2,1,2,语块,:,4,> 〈2. 3,4,14,语块,:,4,>。
[0065] 表1中的标记为: 〈1. 3,1,2,语块,:,4,> 〈1.4,4,14,语块,:,4,>。
[0066] 如上所述逐层逐级检测,检测到引号时,生成新标记,标记为-1级,压入表2,同 时压入表1,再如上所述从0级、1级往上检测。最后,表2中的标记为: 〈2. 1,1,14,整句,? ",1,> 〈2. 2,1,2,语块,:,4,> 〈2. 3,4,14,语块,:,4,> 〈2. 4, 5,13,语段,"",-1,> 〈2.5,5,12,语块,?,3,> 〈2.6,5,5,半语块,,,6,> 〈2.7,7,12,半语块,,,6,> 〈2.8,8,8,语段,'',-1,> 〈2.9,8,8,语块,'',10,> 〈2. 10,10,12,半语块,',10,> 〈2.11,5,5,半语块,,,10,> 〈2. 12,1,2,语块,:,10,>。
[0067] 此时,表1为空,输出表2为标记表。
[0068] 如图4所示,是根据本发明的标记消解法的一种实施方式的流程图。
[0069] 下面说明标记消解法的具体步骤。
[0070] 步骤401 :搜索所述标记表(标记表对应图1中的103),看是否有语段级(即-1级) 标记; 步骤402:如果没有上述语段级标记,则进入普通消解程序,按层级提取标记进行消 解; 步骤403 :如果有上述语段级标记,则进入特殊消解程序,消解完成后转步骤401 ; 步骤410:判断标记表是否为空,如果为空则输出整个句子的完整句法树(对应图1中 的108),否则转步骤402。
[0071] 下面说明上述标记消解法中步骤402所述普通消解程序的具体步骤。
[0072] 步骤404 :在标记表中搜索级别低于10级(即最高级)的最高级别标记(为方便描 述,以下称标记1); 步骤405:在标记表中搜索标记1范围内级别为10级的标记(为方便描述,以下称标记 2),并弹出; 步骤105:对标记2中的子句进行句法分析(对应图1中的105),分析过程中调用消解 规则(对应图1中的107); 步骤106:对标记2中的子句进行子树拼接(对应图1中的106),拼接过程中调用消解 规则(对应图1中的107); 步骤406 :将标记2的分析结果赋予标记1,并将标记1升为10级。
[0073] 下面说明上述标记消解法中步骤403所述特殊消解程序的具体步骤。
[0074] 步骤407:弹出最内层语段级(即-1级)标记(为方便描述,以下称标记3)范围内 所包含的标记序列,如果所述标记序列只有一个标记且为10级(此时语段只包含词和/或 短语,没有标点符号),则直接进入句法分析程序,然后转步骤409,否则转步骤402 ; 步骤402:进入普通消解程序消解上述标记序列中的标记; 步骤408 :判断上述标记序列是否为空,如果不为空则转步骤402 ; 步骤409:如果上述标记序列为空,则调用相应的-1级标记消解规则消解标记3,转步 骤 401。
[0075] 上述特殊消解程序中有一个递归过程,如果消解完所述最内层语段级标记,则判 断标记表中是否还有语段级标记,如果有则递归调用特殊消解程序,否则调用普通消解程 序。
[0076] 上述标记消解法中步骤105中的句法分析程序不限于某一种句法分析方法,包括 现有的和将来可能出现的句法分析方法和/或它们的组合。
[0077] 上述标记消解法中步骤106中的子树拼接程序是指将标点符号两侧的完整子树 或非完整子树拼接为一棵完整子树,并且主要是指第二层、第三层和第四层标点符号内部 及两侧子树的拼接。
[0078] 消解规则表中消解规则的内容,是在句法分析和子树拼接过程中如何处理标点符 号包含的语法和语义信息以及如何去除标点,主要是根据上述国标和语言学分析得到。
[0079] 以句号和引号的消解规则为例。句号如果不在引号、括号内,则其左侧为语块,生 成标记时去除句号。如果左侧语块不能生成完整子树则句法分析失败,否则外部功能标记 为cs|qs(即陈述句或祈使句)。
[0080] 引号内部为语段,两侧为半语块。引号内部的语段(如果引号内部有多个句子,一 律视为一个句子内部的子句,多个子句之间的内部结构标注为"LS")生成-1级标记,再根 据语段内标点符号逐级向上生成相应标记,消解时调用相应的消解规则。如引号内部不能 生成完整子树,则句法分析失败,否则将句法分析结果赋予上述-1级标记的分析结果字 段,外部功能标记为"yh"(S吲号),去除引号升为10级,压回标记表。如果引号有特殊含 义,留待语义分析阶段处理,在句法分析阶段只需作出标记。如果引号一侧或两侧不为空, 则需要进行子树拼接。拼接时,将引号内部和外部的子句生成的子树当作输入,运行句法分 析程序,看能否生成完整子树。
[0081 ] 上述规则可以体现在分层分级法和标记消解法的程序中,而难以用一条概括的语 法规则来描述。
[0082] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部 分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于本申请 的基于标点符号处理的汉语句法分析装置实施例而言,由于其分层分级装置和标记消解装 置的运行原理基本相似于相应的方法实施例,所以描述得比较简单,相关之处参见方法实 施例的部分说明即可。
[0083] 下面继续以上述示例为例,说明标记消解法的具体步骤。
[0084] 在上述标记表中搜索-1级标记,在本例中,最内层-1级标记为标记2. 8 :〈2. 8,8, 8,语段,'',-1,>。
[0085] 进入特殊消解程序,在本例中,标记2. 8范围内所包含的标记序列为标记2. 9 : 〈2.9,8,8,语块,'',10,>。
[0086] 所述标记序列只有一个标记且为10级,直接进入句法分析程序,句法分析成功后 调用上述引号的消解规则(在分层分级程序和句法分析程序中也体现了引号消解规则中的 内容)消解标记2. 8,此时标记表中标记2. 9已经弹出,标记2. 8被修改为:〈2. 8,8,8,子树, '',10, [yh七月流火]〉。其中,"[yh七月流火]"为句法分析结果,"yh"为外部功能标记。 需要说明的是,此处的标注仅是示范性的,根据句法分析方法的不同,输出结果也不相同。
[0087] 再次在上述标记表中搜索-1级标记,搜索到最内层-1级标记为标记2.4:〈2.4, 5,13,语段,"",-1,>。
[0088] 进入特殊消解程序,此时标记2. 4范围内所包含的标记序列为: 〈2.5,5,12,语块,?,3,> 〈2.6,5,5,半语块,,,6,> 〈2.7,7,12,半语块,,,6,> 〈2.8,8,8,子树,'',10,[77七月流火]> 〈2. 10,10,12,半语块,',10,> 〈2.11,5,5,半语块,,,10,>。
[0089] 进入普通消解程序消解上述标记序列。低于10级的最高级别标记为标记2. 6和 标记2. 7,先消解标记2. 6。
[0090] 标记2. 6范围内级别为10级的标记为标记2. 11,弹出标记2. 11并对其中的子句 进行句法分析,然后将分析结果赋予标记2. 6的分析结果字段,将标记2. 6升为10级。此 时标记2. 6被修改为〈2. 6, 5, 5,子树,,,6, [np老师]〉,"np"表示外部功能为名词短语。
[0091] 标记2. 7范围内级别为10级的标记为标记2. 8和标记2. 10,标记2. 8的子句类型 字段已经为"子树",不需要再进行句法分析,标记2. 10的子句类型字段为半语块,需要进 行句法分析,然后进入子树拼接程序,将拼接结果赋予标记2. 7的分析结果字段,并将标记 2. 7升为10级。
[0092] 其余步骤与上述步骤类似,在此不再赘述。消解完标记2. 4范围内所包含
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1