一种基于模式自学习的中文开放式关系抽取方法

文档序号:9417340阅读:628来源:国知局
一种基于模式自学习的中文开放式关系抽取方法
【技术领域】
[0001]本发明涉及自然语言处理领域,特别是涉及中文信息抽取和开放式中文关系抽取。
【背景技术】
[0002]开放式关系抽取是指自动地从文本中抽取出实体以及实体间的语义关系,其不需预先定义关系类型,直接使用文本中的词汇作为关系元组中的实体和关系词。例如,从如下例句“奥巴马毕业于哥伦比亚大学”中,可以抽取出如下的三元关系元组:(奥巴马,毕业,哥伦比亚大学)。开放式实体关系抽取是知识库构建的基础,对于智能信息检索和应用有十分重要的实际应用价值。
[0003]开放式关系抽取方法主要分为三种类型,分别是基于词性的方法,基于语义角色标注的方法,和基于依存分析的方法。基于词性的关系抽取方法的主要问题在于它仅能够抽取关系词和实体相连的关系元组,难于抽取实体和关系词存在一定距离的关系元组。基于语义角色标注的关系抽取准确率相对较高,但这类方法的计算复杂度较高,难以适应实际大规模数据处理需求。采用基于依存分析的关系抽取方法可以较好地解决上述问题。依存分析是指利用依存语法将句子分析成描述各词语间依存关系的依存句法树,即指出了词语间的句法搭配关系,这种搭配关系是与语义相关联的。现有的一些基于依存分析的关系抽取方法主要是预先定义有限的关系模式然后抽取关系元组,因此抽取的关系元组召回率难以满足实际应用。同时也存在一些开放式关系抽取系统,学习和使用大量依存关系模式抽取关系元组,但在学习的过程寻找关系元组对应的语句容易产生错误,降低了关系模式的准确性。

【发明内容】

[0004]本发明提供了一种开放式中文关系抽取方法。该方法能够从已有知识中自动学习得出实体间的依存关系模式,进而实现无需限定关系类别的开放式关系抽取。该方法的主要特点在于模式学习的过程不依赖于特定的人工标注语料,可有效提高面向开放域的中文实体关系抽取的准确率和召回率。
[0005]本发明提出的基于模式自学习的中文开放式关系抽取方法,包括:基于已有知识库获取高质量的实体关系元组和相应的句子作为训练语料,通过本专利提出的模式学习方法得到实体和关系词之间的依存路径模式;对待抽取文本进行分词、词性标注和依存分析等预处理,并借助之前学习得到的关系模式进行实体关系抽取;采用机器学习的方法对从中文语料中自动抽取出的实体关系进行质量评估,得到高质量的实体关系元组。
[0006]其中,所述的关系模式学习方法,包括:
[0007]通过已有知识库或者百科网页信息框获取高质量的实体关系元组和相应的语句作为训练语料,同时也可以利用中文关系抽取系统抽取并选择高质量的关系元组,以构建包含关系元组和相应语句的训练语料;利用自然语言处理工具对训练文本进行分词、词性标注和依存分析预处理;利用大规模高质量训练语料的依存分析结果和高质量的关系元组,学习得到实体和关系词间的依存路径模式。
[0008]其中,所述的利用学习得到的关系模式进行实体关系抽取的方法,包括:
[0009]利用语句的依存分析树进行候选实体核心词识别以及对实体进行扩展;对待抽取语句选择合适的模式抽取关系元组;对抽取的关系核心词进行扩展以及将抽取的二元关系进行多元扩展。
[0010]本发明的发明目的是这样实现的:本发明首先通过高质量的实体关系元组和相应的句子语料学习得到大量依存路径关系模式,然后使用关系模式抽取大量的关系元组,最终对抽取的关系元组进行质量评估选并择其中高质量的关系元组。
[0011]与现有技术相比,本发明的有益效果主要有以下几点:
[0012]本发明能够在不限定关系类别的情况下实现开放式中文关系抽取,实体关系抽取准确率和召回率比现有技术要好。
[0013]本发明提出的依存路径模式学习方法具有独创性,通过学习得到的依存路径模式不仅考虑到实体所在上下文的词法和句法信息,而且包含词汇的语义信息。与相关技术相比,该方法更为先进,关系抽取结果也更为可靠。
【附图说明】
[0014]图1为本发明提出的基于模式自学习的中文开放式关系抽取方法的总体流程图。
[0015]图2为本发明中关于依存路径模式自学习方法的流程图。
[0016]图3为本发明中基于模式匹配关系抽取的流程图。
【具体实施方式】
[0017]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0018]图1为本发明的一个实施例,即本发明公开的一种基于模式自学习的中文开放式关系抽取方法的总体流程图。如图1所示,本实施例提供的开放式关系抽取方法,具体可以包括如下步骤:首先利用高质量的实体关系元组和相应的句子的语料,学习得到大量实体和关系词之间的依存路径模式;然后对待抽取文本进行自然语言预处理,并利用学习得到的关系模式进行实体关系抽取;最后采用机器学习的方法对从中文语料中自动抽取出的实体关系进行质量评估,得到高质量的实体关系元组。为便于理解,首先对下文中使用的英文符号进行说明:
[0019](I)词性标注标签表示动词,η表示名词,P表示介词,j表示缩写词、i表示习语、nr表示人名、ns表示地点名、nt表示组织名、nz表示其他名词、r表示代词。
[0020](2)依存分析标签:SBV (subject)表示主语,Root (root of sentence)表示句子的核心词,VOB(direct object)表示直接宾语,CMP(complement)表示补足语。
[0021]步骤101、训练语料关系模式学习:
[0022]利用大规模高质量关系元组和对应语句的训练语料,通过学习得到实体和关系词之间的依存路径模式。关系模式学习的具体步骤如图2所示,包括如下三个步骤:获取训练语料,对训练语料进行预处理,学习得到依存路径模式。
[0023]步骤201、训练语料的获取:
[0024]本发明采用如下两种方法获取训练语料。一种方法是利用知识库中已有的高质量关系元组和百科页面信息框中的关系元组,通过网络爬虫获得包含每个关系元组中实体和关系词的对应语句,以构建关系元组和相应语句的训练语料用于模式学习。另一种方法是采用已有的中文关系抽取系统,从大规模开放语料中抽取实体关系,选择其中置信度较高的关系元组和其对应语句构建训练数据。一条训练语料包括两个部分:关系元组和相应的原始语句。例如:从如下语句“巴育当选为总理”中可以抽取出如下的实体关系元组(巴育,当选,总统),该关系元组和该条语句共同构成本发明所使用的一条训练语料。
[0025]步骤202、对训练文本进行自然语言预处理:
[0026]利用已有的自然语言处理工具(例如Zpar或ICTCLAS等开源工具)对训练语料进行分词和词性标注。例如,对上文中使用的例句“巴育当选为总理”进行处理,得到的结果为“巴育_nr当选_y为_y总统_n”。其中,分词的结果以空格分隔,单词后面的下划线之后所跟的符号表示该单词的词性。得到分词结果之后,使用依存分析工具对分词和词性标注结果进行依存分析。
[0027]步骤203、依存路径模式学习:
[0028]利用步骤201获取的高质量训练语料,经步骤202得到依存分析结果,可以实现已知关系元组和相应语句的依存分析结果之间的匹配,从而自动地学习到各种实体和关系词之间的依存路径模式。本发明学习得到的模式定义为:训练语句依存分析结果中的实体和关系词间的依存路径以及路径中词汇的词性。例如,对于上文中使用的例句“巴育当选为总理”,得到的依存路径和词性模式为“SBV(nr) -Root (v) -VOB (η) ”,其中Root (v)表示关系,SBV(nr)和VOB(n)表示关系元组中的实体。考虑到通过大规模学习得到的依存路径模式可能存在分歧和矛盾(例如某些具有细微差别的模式其实具有相同的语法含义),本发明提出进一步根据词性,对学习得到的模式进行聚类,以提高模式对复杂自然语言环境的适用性和覆盖率。由于关系元组中的实体是名词性成分,因此本方法主要将模式中名词性成分进行聚合,具体实施方法是将词性标签为j、
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1