专利名称:一种基于多代理机制的多词表达抽取系统及方法
技术领域:
本发明涉及一种多词表达抽取系统及方法,尤其涉及一种基于多代理机制的多词 表达抽取系统及方法。
背景技术:
随着对自然语言处理领域中的机器翻译、信息检索、词义消歧等的深入研究,研究 者发现影响性能提升的一个主要因素与一种有很强搭配关系的多个词组成的语言单位的 准确抽取和翻译有关。例如“各付各”(go Dutch),“奶咖啡”(white coffee),“再来点”(want some more)。在汉语分词时,“各/付/各”,“奶/咖啡”,“再/来/点”被分离开来,导致 它们不能被翻译成一个完整的语言单位。这些语言单位在日常语言中频繁使用,通常用来 表达完整的概念,而这些概念不能拆成单个词汇来表达。它们有自己的语法或语义特性但 是结构上又有大量的松散和变化的表达形式,这些构成部件之间有着较为复杂的关联。该 语言单位被称为多词表达(Multiword Expression)简称MWE。MWE 一般被分为以下几种(1)习语指语法语义上可以复合生成,但是已经约定俗成,一般不会出现变体。 例如,strong tea,,。(2)词汇化的短语包括句法松散的表达,如“ touch a nerve (touch/find a raw nerve)";半固定表达,如复合名词;固定表达,如“ad hoc”,“in addition”。利用计算机来自动抽取和应用MWE被认为是进一步研究的瓶颈。MWE抽取就是识 别出文本中的非嵌套的特定短语结构。鉴于MWE在研究上的重要地位,国内外研究者对MWE进行了广泛的研究。但是,研 究最多的还是MWE的抽取问题,例如名名复合结构,固定短语结构和动词+小品词短语等等 都是当前研究的热点。从国内外文献来看,目前主流的MWE抽取主要有以下三种方法统计 抽取方法,知识驱动抽取方法以及混合抽取方法。统计抽取方法统计方法主要是从文本中统计多个词的出现频率和共现信息等数据,从而计算互 信息、信息熵等数据,并依据以上数据使用适当的模型对MWE进行抽取。基于统计的方法虽然也取得了较好的识别效果,但该类方法单纯统计词频、共现 信息等,没有考虑MWE的语法、语义知识,因此,无法从深层次探究不同类型MWE的内部组成 规律。知识驱动抽取方法知识驱动的方法中,使用了语言专家总结的知识或者研究者总结的规律性知识来 进行MWE的识别。知识驱动方法注重MWE的内部组成规律的总结,适合形式变化多变的MWE类型的抽取。混合抽取方法混合方法通常结合了统计方法与知识驱动方法的优点,把词频数据、专家知识和 经验规律结合使用。总体来看,无论英语还是汉语,MWE抽取的准确率都不是很高,距离实际应用还有 很大的距离,因此还有较大的提升空间。知识驱动方法可以涵盖MWE的内部组成规律,对形 式多变的个别MWE类型比较适合,但该方法无法把所有的知识全部总结出来;随着大规模 语料库的建立和计算机技术的飞速发展,统计方法得到了迅猛的发展,也取得了较好的效 果,但对于一些复杂的MWE,统计和知识相结合的方法才能取得较好的效果。纵观MWE抽取的方法和策略,我们发现多数的研究者只针对某一种类型(比如复 合名词、动词+小品词等)的MWE进行抽取,少数的研究者同时抽取了几种类型的MWE,但是 使用的是相同的模型和算法。从MWE的分类我们可以看出,不同类型的MWE在定义、形态和 组成上有很大差别,因此上述现有技术中所采用的MWE抽取方法和策略无法保证获得较高 的正确率。
发明内容
本发明针对现有技术的弊端,提供一种基于多代理机制的多词表达抽取系统及方法。本发明所述的基于多代理机制的多词表达抽取系统,包括输入待抽取语句的语句 输入模块和输出语句抽取结果的语句输出模块,还包括语句复制模块,用于根据语句抽取单元中预定的语句抽取机制的数量将语句输入 模块输入的待抽取语句复制出对应数量的待抽取语句,并将对应数量的待抽取语句对应于 各语句抽取机制,分别发送至语句抽取单元中;第一语句抽取单元,用于根据其中预定的多个语句抽取机制对相应接收到的各待 抽取语句进行词语抽取;同时,根据预定的第一消歧机制对通过多个语句抽取机制进行的 语句抽取中的冲突进行第一消歧处理并输出第一消歧后的语句抽取结果;控制模块,用于将第一语句抽取单元输出的第一消歧后的语句抽取结果进行汇 总,汇总后,如果第一消歧后的语句抽取结果中,字数占待抽取语句中总字数70%或以下的 词汇进行了第一消歧处理,则将最终语句抽取结果通过语句输出模块进行输出;如果第一 消歧后的语句抽取结果中,字数占待抽取语句中总字数70%以上的词汇均进行了第一消歧 处理,则控制模块控制第二语句抽取单元进行待抽取语句的词语抽取;第二语句抽取单元,用于根据其中预定的两个语句抽取机制对相应接收到的各待 抽取语句进行词语抽取;同时,根据预定的第二消歧机制对通过两个语句抽取机制进行的 语句抽取中的冲突进行第二消歧处理,并通过语句输出模块输出第二消歧后的语句抽取结^ ο本发明所述的多词表达抽取系统中,所述第一语句抽取单元针对多个语句抽取中 的同一词汇的抽取结果进行比较,若比较结果存在冲突,则根据第一消歧原则进行消岐处理。本发明所述的多词表达抽取系统中,所述第一语句抽取单元中采用四个语句抽取
5机制,从而所述第一语句抽取单元进一步包括分别与各语句抽取机制对应的习语识别模 块、复合名词识别模块、动词和名词识别模块、动词和小品词识别模块、以及包括用于各识 别模块之间通信的通信模块;所述习语识别模块、复合名词识别模块、动词和名词识别模块、动词和小品词识别 模块之间经由通信模块针对同一词汇的识别结果进行比较处理。本发明所述的多词表达抽取系统中,所述第二语句抽取单元中采用两个语句抽取 机制,从而所述第二语句抽取单元进一步包括分别与各语句抽取机制对应的等级识别模块 和忽略语识别模块、以及包括用于各识别模块之间通信的通信模块;所述等级识别模块和忽略语识别模块之间经由通信模块针对同一词的识别结果 进行比较处理。本发明还提供一种基于多代理机制的多词表达抽取方法,步骤包括步骤一,将接收到的语句进行复制,并且接收到的语句进行复制的数量与预定的 语句抽取机制的数量对应;步骤二,应用预定的语句抽取机制对该复制后的语句进行语句抽取,以及,根据预 定的消歧机制对多个语句抽取中的冲突进行消歧处理并输出多个语句抽取结果;步骤三,将上述输出的多个语句抽取结果进行汇总并输出。本发明所述的多词表达抽取方法的步骤二中,预定的语句抽取机制包括习语识 别、复合名词识别、动词与名词识别、动词与小品词识别;所述预定的消岐机制包括根据预 设的规则和上下文信息进行消岐处理、以及根据预设的冲突判决规则进行消岐处理。本发明所述的多词表达抽取方法的步骤二中,将同一词按照习语识别、复合名词 识另O、动词和名词识别、动词和小品词识别的抽取结果进行比较,以确定该词在语句抽取中 是否冲突;对语句抽取结果进行比较的过程包括当所述习语识别、复合名词识别、动词与名词识别、或动词与小品词识别中任意一 种识别机制接收到待抽取语句并进行识别时,同时将该待抽取语句发送至其余识别机制进 行识别;并将经过上述各识别机制识别过的抽取结果进行比较。本发明所述的多词表达抽取方法中,所述各识别机制识别过的抽取结果以知识查 询和处理语言进行交互比较。本发明所述的多词表达抽取方法的步骤二中,若语句抽取结果中字数占待抽取语 句总字数70%以上的词汇均进行了消歧处理,则应用预定的第二语句抽取机制对所述复制 后的语句进行语句抽取,以及,根据预定的第二消歧机制对多个语句抽取中的冲突进行消 歧处理并输出多个语句抽取结果。本发明所述的多词表达抽取方法中,所述第二语句抽取机制包括将待抽取语句中 的词汇分成等级的等级识别及将待抽取语句中的可忽略词汇提取出来的忽略语识别;所述第二消歧机制为若提取出来的可忽略词汇为通过等级识别出的低等级词 汇,则忽略这些词汇;若提取出来的可忽略词汇不是通过等级识别出的低等级词汇,则根据 预定的词汇的等级和可忽略程度,将这些词汇进行保留或忽略。发明所述的基于多代理机制的多词表达抽取系统及方法中,将输入的语句复制后 应用不同的语句抽取机制进行语句抽取,同时,在抽取过程中进行必要的通信,以消除语句 抽取过程中各种语句抽取机制所抽取的结果之间的冲突,再对所有的语句抽取结果进行汇总输出。本发明所述的基于多代理机制的多词表达抽取系统及方法中,可根据不同类型的 多词表达语句而使用不同的语句抽取机制,大大提高了语句抽取的正确率。
图1为本发明所述基于多代理机制的多词表达抽取系统的结构示意图;图2为本发明所述基于多代理机制的多词表达抽取方法的流程示意图。
具体实施例方式下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文 字能够据以实施。本发明中所述的多代理机制,即将识别不同类型语句的机制加以整合,从而实现 一次输出多种多词表达结果的目的。本发明所述的基于多代理机制的多词表达抽取系统,如图1所示,包括了语句输 入模块、语句输出模块、以及增加设置的语句复制模块、第一语句抽取单元、控制模块、第二 语句抽取模块。其中,所述语句输入模块用于接收待抽取的语句,该语句输入模块可为键盘等常 用的数据输入工具。所述语句复制模块用于根据后述语句抽取单元中预定的语句抽取机制的数量将 语句输入模块输入的待抽取语句复制出对应的数量的待抽取语句,并将对应数量的待抽取 语句对应于各语句抽取机制,分别发送至语句抽取单元中。本发明中,所述语句抽取单元预 置了多种语句抽取机制,因此,所述语句复制模块根据该预置的语句抽取机制的数量来将 待抽取的语句复制为对应的数量,再将这些复制后的待抽取语句发送至后续的语句抽取单兀。所述第一语句抽取单元用于根据预定的语句抽取机制对前述输入的待抽取语句 进行语句抽取。本发明中,所述预定的语句抽取机制包括多个不同的语句抽取机制,分别 由不同的模块来实现,例如,所述语句抽取单元可具体包括习语识别模块、复合名词识别模 块、动词和名词识别模块、动词和小品词识别模块,上述四种模块对应了四种不同的语句抽 取机制。与之对应的,当语句抽取单元中包含具有上述四种不同的语句抽取机制的模块时, 所述语句复制模块将输入的待抽取语句复制为四个待抽取语句。所述语句抽取单元内具备多种语句抽取机制的模块对输入的待抽取语句进行语 句抽取,在实际的语句抽取过程中,针对同一词的抽取结果难免会出现差异,即对同一词采 用多种不同的语句抽取机制而得到的抽取结果存在冲突,因此,有必要消除该冲突以获得 更为准确的输出。于是,本发明中,还在语句抽取单元中预置了第一消歧机制,使得语句抽 取单元可根据预定的第一消歧机制对多个语句抽取中的冲突进行第一消歧处理,并最终输 出多个语句的抽取结果。一般来说,所述语句抽取单元针对多个语句抽取中的同一词的抽 取结果进行比较,若比较结果存在冲突则进行第一消岐处理。所述第一消歧处理的机制可 包括根据预设的规则和上下文信息进行消岐处理、以及根据预设的冲突判决规则进行第一 消岐处理。本发明中,为确定多个语句抽取中的冲突,还在语句抽取单元中设置了通信模块,
7所述习语识别模块、复合名词识别模块、动词和名词识别模块、动词和小品词识别模块之间 经由通信模块针对同一词的识别结果进行比较处理。即所述习语识别模块、复合名词识别 模块、动词和名词识别模块、动词和小品词识别模块构成联盟,当其中任意一个模块接收到 输入的语句后,对其中的词进行识别并将该词的识别结果发送至联盟内其他模块,以便与 该联盟内的其他模块针对该同一词的识别结果进行比较,藉此来判断针对同一词的识别结 果是否存在冲突。在上述各模块之间交换词的识别结果过程中,所述通信模块即担当了中 间媒介作用°该通信模块可具体使用KQML(Knowledge Query and Manipulation Language, 知识查询和处理语言)作为通信语言。同时需要说明的是,上述习语识别模块、复合名词识别模块、动词和名词识别模 块、动词和小品词识别模块构成的联盟内,各模块均具备身份标识信息、所属联盟信息、优 先级信息、以及功能信息,而各模块之间的沟通寻址是通过身份标识信息实现的,即任意模 块保存联盟内其余模块的身份标识信息,以待交换词的识别结果时使用。所述控制模块,用于将上述第一语句抽取单元输出的第一消歧后的语句抽取结果 进行汇总,汇总后,如果第一消歧后的语句抽取结果中,字数占待抽取语句中总字数70%或 以下的词汇进行了第一消歧处理,则将最终语句抽取结果通过语句输出模块进行输出;如 果第一消歧后的语句抽取结果中,字数占待抽取语句中总字数70%以上的词汇均进行了第 一消歧处理,则控制模块控制第二语句抽取单元进行待抽取语句的词语抽取。所述第二语句抽取单元,用于根据其中预定的两个语句抽取机制对相应接收到的 各待抽取语句进行词语抽取;同时,根据预定的第二消歧机制对通过两个语句抽取机制进 行的语句抽取中的冲突进行第二消歧处理,并通过语句输出模块输出第二消歧后的语句抽 取结果。其中,所述第二语句抽取单元进一步包括分别与各语句抽取机制对应的等级识别 模块和忽略语识别模块、以及包括用于各识别模块之间通信的通信模块;所述等级识别模 块和忽略语识别模块之间经由通信模块针对同一词的识别结果进行比较处理。如果第一消歧后的语句抽取结果中,字数占待抽取语句中总字数70%以上的词汇 均进行了第一消歧处理,则意味着第一消歧处理失败,转向第二消歧处理。第二消歧机制 是根据本抽取系统在不断被用户使用的过程中,将用户的人工选择结果通过概率统计得出 的,或者是通过人工有意识的输入得出的。具体而言,第二消歧机制是通过等级识别模块将 待抽取语句中的词汇分成等级,通过忽略语识别模块将待抽取语句中的可忽略词汇提取出 来,如果提取出来的可忽略词汇正好是通过等级识别模块识别出的低等级词汇,则通过第 二消歧机制忽略这些词汇,最终输出忽略了这些词汇的语句抽取结果;如果提取出来的可 忽略词汇不是通过等级识别模块识别出的低等级词汇,则通过第二消歧机制根据这些词汇 的等级和可忽略程度进行综合评定,最终对这些词汇进行或保留或忽略的处理,最终输出 处理后的语句抽取结果。例如,待抽取语句中包含30个汉字,则通过上述四种语句抽取机制进行抽取,之 后首先通过第一消歧原则进行第一消歧处理。对第一消歧结果进行处理后,如果发现其中 的8个词汇(假定每个词汇中包含两个汉字)在这四种语句抽取机制下的抽取结果存在冲 突,则通过第二消歧原则对通过四种语句机制得到的抽取结果重新进行第二消歧,并把第 二消歧结果做为最终处理结果。第二消歧原则是比第一消歧原则更为宽泛的原则,当通过第一消歧的结果导致字数占待抽取语句中总字数70%以上词汇均被消歧后,放弃第一消歧原则而采用第二消歧原 则是为了确保抽取结果不要过于狭窄和局限,而扩大抽取范围,以免漏检。所述语句输出模块用于输出语句抽取结果。该语句输出模块可为显示器等信息输 出设备。本发明还提供了一种基于多代理机制的多词表达抽取方法,如图2所示,包括如 下步骤步骤101,将接收到的语句进行复制,并且接收到的语句进行复制的数量与预定的 语句抽取机制的数量对应。本步骤中,所述接收到的语句被复制为多个,具体的复制数量与后述预定的语句 抽取机制的数量相对应。即预定的语句抽取机制的数量为几个,就将接收到的语句复制为 几个。步骤102,应用预定的语句抽取机制对该复制后的语句进行语句抽取,以及,根据 预定的消歧机制对多个语句抽取中的冲突进行消歧处理并输出多个语句抽取结果。本步骤中,所述预定的语句抽取机制包括习语识别、复合名词识别、动词与名词识 别、动词与小品词识别。根据该预定的语句抽取机制的数量为四个,步骤101中接收到的语 句也被复制为四个,该四个复制后的语句被分别应用习语识别、复合名词识别、动词与名词 识别、动词与小品词识别机制进行语句抽取。在实际的语句抽取过程中,针对同一词的抽取结果难免会出现差异,即对同一词 采用多种不同的语句抽取机制而得到的抽取结果存在冲突,因此,有必要消除该冲突以获 得更为准确的输出。于是,本步骤中,还进一步预置了第一消歧机制,使得可根据预定的第 一消歧机制对多个语句抽取中的冲突进行第一消歧处理,并最终输出多个语句的抽取结^ ο具体而言,将同一词按照习语识别、复合名词识别、动词和名词识别、动词和小品 词识别的抽取结果进行比较,以确定该词在语句抽取中是否冲突。该对语句抽取结果进行 比较的过程包括当所述习语识别、复合名词识别、动词与名词识别、或动词与小品词识别 中任意一种识别机制接收到待抽取语句并进行识别时,同时将该待抽取语句发送至其余识 别机制进行识别;并将经过上述各识别机制识别过的抽取结果进行比较。所述各识别机制 识别过的抽取结果可通过知识查询和处理语言进行交互比较。若比较结果存在冲突则进行 第一消岐处理,所述预定的第一消歧处理的机制可包括根据预设的规则和上下文信息进行 第一消岐处理、以及根据预设的冲突判决规则进行第一消岐处理。本步骤中,还可进一步包括第二消歧机制。如果第一消歧后的语句抽取结果中,字 数占待抽取语句中总字数70%以上的词汇均进行了第一消歧处理,则意味着第一消歧处理 失败,转向第二消歧处理。第二消歧机制是根据本抽取系统在不断被用户使用的过程中,将 用户的人工选择结果通过概率统计得出的,或者是通过人工有意识的输入得出的。具体而言,第二消歧机制是通过将待抽取语句中的词汇分成等级,以及,通过将待 抽取语句中的可忽略词汇提取出来。如果提取出来的可忽略词汇正好是通过等级识别出的 低等级词汇,则通过第二消歧机制忽略这些词汇,最终输出忽略了这些词汇的语句抽取结 果;如果提取出来的可忽略词汇不是通过等级识别出的低等级词汇,则通过第二消歧机制 根据这些词汇的等级和可忽略程度进行综合评定,最终对这些词汇进行或保留或忽略的处
9理,最终输出处理后的语句抽取结果。例如,待抽取语句中包含30个汉字,则通过上述四种语句抽取机制进行抽取,之 后首先通过第一消歧原则进行第一消歧处理。对第一消歧结果进行处理后,如果发现其中 的8个词汇(假定每个词汇中包含两个汉字)在这四种语句抽取机制下的抽取结果存在冲 突,则通过第二消歧原则对通过四种语句机制得到的抽取结果重新进行第二消歧,并把第 二消歧结果做为最终处理结果。第二消歧原则是比第一消歧原则更为宽泛的原则,当通过第一消歧的结果导致字 数占待抽取语句中总字数70%以上词汇均被消歧后,放弃第一消歧原则而采用第二消歧原 则是为了确保抽取结果不要过于狭窄和局限,而扩大抽取范围,以免漏检。步骤103,将上述输出的多个语句抽取结果进行汇总并输出。仍以前述四种不同的语句抽取机制为例,当该四种语句抽取机制对同一个词的抽 取结果不一致时,即根据各个抽取机制的分类置信度,指导各个抽取机制彼此交换信息共 同进行决策,当各个抽取机制达到一致决策时,即获得了最佳的语句解综合结果。发明所述的基于多代理机制的多词表达抽取系统及方法中,将输入的语句复制后 应用不同的语句抽取机制进行语句抽取,同时,在抽取过程中进行必要的通信,以消除语句 抽取过程中各种语句抽取机制所抽取的结果之间的冲突,再对所有的语句抽取结果进行汇 总输出。本发明所述的基于多代理机制的多词表达抽取系统及方法中,可根据不同类型的 多词表达语句而使用不同的语句抽取机制,大大提高了语句抽取的正确率。尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列 运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地 实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限 于特定的细节和这里示出与描述的图例。
权利要求
一种基于多代理机制的多词表达抽取系统,包括输入待抽取语句的语句输入模块和输出语句抽取结果的语句输出模块,其特征在于,还包括语句复制模块,用于根据语句抽取单元中预定的语句抽取机制的数量将语句输入模块输入的待抽取语句复制出对应数量的待抽取语句,并将对应数量的待抽取语句对应于各语句抽取机制,分别发送至语句抽取单元中;第一语句抽取单元,用于根据其中预定的多个语句抽取机制对相应接收到的各待抽取语句进行词语抽取;同时,根据预定的第一消歧机制对通过多个语句抽取机制进行的语句抽取中的冲突进行第一消歧处理并输出第一消歧后的语句抽取结果;控制模块,用于将第一语句抽取单元输出的第一消歧后的语句抽取结果进行汇总,汇总后,如果第一消歧后的语句抽取结果中,字数占待抽取语句中总字数70%或以下的词汇进行了第一消歧处理,则将最终语句抽取结果通过语句输出模块进行输出;如果第一消歧后的语句抽取结果中,字数占待抽取语句中总字数70%以上的词汇均进行了第一消歧处理,则控制模块控制第二语句抽取单元进行待抽取语句的词语抽取;第二语句抽取单元,用于根据其中预定的两个语句抽取机制对相应接收到的各待抽取语句进行词语抽取;同时,根据预定的第二消歧机制对通过两个语句抽取机制进行的语句抽取中的冲突进行第二消歧处理,并通过语句输出模块输出第二消歧后的语句抽取结果。
2.如权利要求1所述的多词表达抽取系统,其特征在于,所述第一语句抽取单元针对 多个语句抽取中的同一词汇的抽取结果进行比较,若比较结果存在冲突,则根据第一消歧 原则进行消岐处理。
3.如权利要求2所述的多词表达抽取系统,其特征在于,所述第一语句抽取单元中采 用四个语句抽取机制,从而所述第一语句抽取单元进一步包括分别与各语句抽取机制对应 的习语识别模块、复合名词识别模块、动词和名词识别模块、动词和小品词识别模块、以及 包括用于各识别模块之间通信的通信模块;所述习语识别模块、复合名词识别模块、动词和名词识别模块、动词和小品词识别模块 之间经由通信模块针对同一词汇的识别结果进行比较处理。
4.如权利要求1所述的多词表达抽取系统,其特征在于,所述第二语句抽取单元中采 用两个语句抽取机制,从而所述第二语句抽取单元进一步包括分别与各语句抽取机制对应 的等级识别模块和忽略语识别模块、以及包括用于各识别模块之间通信的通信模块;所述等级识别模块和忽略语识别模块之间经由通信模块针对同一词的识别结果进行 比较处理。
5.一种基于多代理机制的多词表达抽取方法,其特征在于,步骤包括步骤一,将接收到的语句进行复制,并且接收到的语句进行复制的数量与预定的语句 抽取机制的数量对应;步骤二,应用预定的语句抽取机制对该复制后的语句进行语句抽取,以及,根据预定的 消歧机制对多个语句抽取中的冲突进行消歧处理并输出多个语句抽取结果;步骤三,将上述输出的多个语句抽取结果进行汇总并输出。
6.如权利要求5所述的多词表达抽取方法,其特征在于,所述步骤二中,预定的语句抽 取机制包括习语识别、复合名词识别、动词与名词识别、动词与小品词识别;所述预定的消 岐机制包括根据预设的规则和上下文信息进行消岐处理、以及根据预设的冲突判决规则进行消岐处理。
7.如权利要求5所述的多词表达抽取方法,其特征在于,所述步骤二中,将同一词按照 习语识别、复合名词识别、动词和名词识别、动词和小品词识别的抽取结果进行比较,以确 定该词在语句抽取中是否冲突;所述对语句抽取结果进行比较的过程包括当所述习语识别、复合名词识别、动词与名词识别、或动词与小品词识别中任意一种识 别机制接收到待抽取语句并进行识别时,同时将该待抽取语句发送至其余识别机制进行识 别;并将经过上述各识别机制识别过的抽取结果进行比较。
8.如权利要求7所述的多词表达抽取方法,其特征在于,所述各识别机制识别过的抽 取结果以知识查询和处理语言进行交互比较。
9.如权利要求5所述的多词表达抽取方法,其特征在于,所述步骤二中,若语句抽取结 果中字数占待抽取语句总字数70%以上的词汇均进行了消歧处理,则应用预定的第二语句 抽取机制对所述复制后的语句进行语句抽取,以及,根据预定的第二消歧机制对多个语句 抽取中的冲突进行消歧处理并输出多个语句抽取结果。
10.如权利要求9所述的多词表达抽取方法,其特征在于,所述第二语句抽取机制包括 将待抽取语句中的词汇分成等级的等级识别及将待抽取语句中的可忽略词汇提取出来的 忽略语识别;所述第二消歧机制为若提取出来的可忽略词汇为通过等级识别出的低等级词汇,则 忽略这些词汇;若提取出来的可忽略词汇不是通过等级识别出的低等级词汇,则根据预定 的词汇的等级和可忽略程度,将这些词汇进行保留或忽略。
全文摘要
本发明公开了一种基于多代理机制的多词表达抽取系统及方法,所述系统包括语句输入模块、语句输出模块,以及语句复制模块、语句抽取单元、语句解综合模块。所述方法包括如下步骤将接收到的语句复制;应用预定的语句抽取机制对该复制后的语句进行语句抽取,以及,根据预定的消歧机制对多个语句抽取中的冲突进行消歧处理并输出多个语句抽取结果;将上述输出的多个语句抽取结果进行汇总并输出。
文档编号G06F17/27GK101908041SQ20101016436
公开日2010年12月8日 申请日期2010年5月6日 优先权日2010年5月6日
发明者梁颖红 申请人:江苏省现代企业信息化应用支撑软件工程技术研发中心