一种基于人工智能的实体关系对识别方法及系统与流程

文档序号:14474206阅读:312来源:国知局
一种基于人工智能的实体关系对识别方法及系统与流程

本公开涉及人工智能识别技术领域,具体涉及一种基于人工智能的实体关系对识别方法及系统。



背景技术:

随着科技技术的迅猛发展,数据化时代下的各项数据呈现指数级规模的增长,且数据的形式也逐渐演变的更为复杂化。“数据信息超负荷”和“数据信息泛滥”的现象日益严重。

因而,基于人工智能技术,将机器学习方法与规则相结合,抽取实体信息关系的方式,可以有效帮助人们快速提取所需的有用信息,甚至隐含于信息下的隐性信息。

现有技术中,大多数的实体关系抽取主要集中在显性关系上,对于实体隐性关系的抽取相对较少。



技术实现要素:

鉴于上述问题,提出了本公开以便提供一种克服上述问题或者至少部分地解决上述问题的基于人工智能的实体关系对识别方法及装置。

根据本公开的一个方面,提供了一种基于人工智能的实体关系对识别方法,其包括:

从训练语料库中获取出现正例的句子,将所述句子解析成链接语法解析形式;所述正例为存在目标关系的两个实体;

将所述链接语法解析形式的句子中链接符链接的两个实体替换为占位符;根据所述占位符和对应的链接符,提取得到正模式;

根据所述正模式,遍历所述训练语料库中句子;当能与所述正模式匹配并同时能够产生反例的句子的数量小于设定阈值时,保留所述正模式;

将所述训练语料库中句子按带时间属性实体关系抽取处理,得到带时间属性的所述正例;

将所述带时间属性的正例与所述正模式匹配,将能够匹配的所述带时间属性的正例中的两个实体、时间属性以及所述目标关系作为实体关系对。

所述方法还包括:

将所述训练语料库中句子按带时间属性实体关系抽取处理,得到带时间属性的链接语法解析形式;

将所述带时间属性的链接语法解析形式中的两个实体替换为占位符,并与所述正模式匹配;

将能够匹配的对应句子中的所述两个实体、时间属性以及所述目标关系作为实体关系对。

所述带时间属性实体关系抽取处理,包括:

获取所述训练语料库中的句子,将所述句子解析成链接语法解析形式;

根据所述句子的连接语法解析形式,提取目标关系的实体关系;

获取所有在所述句子中出现过的日期列表;

获取所述句子中包含在实体关系中的谓语;

获取所述句子中位于所述日期前的介词;

检测在所述句子的主语、谓语与日期前的介词之间,在链接语法结构中是否有一条直接的链接;

若是,通过所述句子所包含的与主语、谓语有链接的日期,构建新的时间关系;

循环执行上述过程,直到得到所述训练语料库中所有符合所述正例的句子。

所述带时间属性的正例,用如下方式表示:

其中,entity分别表示两个实体,relation表示实体之间的关系类型,[t1,t2]表示实体关系开始的时间和结束时间。

所述链接语法解析形式,包括:

链接为链接句子中两个或两个以上词的平面无向图结构;链接任意两个词的为边;每条边都用链接符标注;链接符取自一个有限的符号集合,标明了一条句子中两个词之间的实体关系;

所述边和链接符满足链接语法生产规则;

符合上述形式的句子即为所述句子的链接语法解析形式。

所述正模式为一种逻辑结构,表征两个或两个以上的实体之间的逻辑关系;所述逻辑关系唯一对应两个实体之间的目标关系。

所述方法还包括:

当能与所述正模式匹配并同时能够产生反例的句子的数量大于等于设定阈值时,删除所述正模式。

根据本公开的另一方面,提供了一种基于人工智能的实体关系对识别系统,包括:

解析单元,用于从训练语料库中获取出现正例的句子,将所述句子解析成链接语法解析形式;所述正例为存在目标关系的两个实体;

正模式单元,用于将所述链接语法解析形式的句子中链接符链接的两个实体替换为占位符;根据所述占位符和对应的链接符,提取得到正模式;

删选单元,用于根据所述正模式,遍历所述训练语料库中句子;当能与所述正模式匹配并同时能够产生反例的句子的数量小于设定阈值时,保留所述正模式;

实体对识别单元,用于将所述训练语料库中句子按带时间属性实体关系抽取处理,得到带时间属性的所述正例;将所述带时间属性的正例与所述正模式匹配,将能够匹配的所述带时间属性的正例中的两个实体、时间属性以及所述目标关系作为实体关系对。

所述实体对识别单元,还用于:

获取所述训练语料库中的句子,将所述句子解析成链接语法解析形式;

根据所述句子的连接语法解析形式,提取目标关系的实体关系;

获取所有在所述句子中出现过的日期列表;

获取所述句子中包含在实体关系中的谓语;

获取所述句子中位于所述日期前的介词;

检测在所述句子的主语、谓语与日期前的介词之间,在链接语法结构中是否有一条直接的链接;

若是,通过所述句子所包含的与主语、谓语有链接的日期,构建新的时间关系;

循环执行上述过程,直到得到所述训练语料库中所有符合所述正例的句子。

根据本公开上述的一个或多个技术方案,其提供了一种基于人工智能的实体关系对识别的方案,通过人工智能的方式,从训练语料库中自动分析句子并得到目标关系对应实体,然后结合两个或多个实体的时间属性,提取出符合时间属性的实体关系对,用以具体的语义分析。本实施例的方案,能够准确识别语句中实体关系对,从而能够准确分析语句中目标关系的词语以及短语的实际关系,从而准确识别语句的实际含义,为人工智能开展语义识别奠定基础。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本公开的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了根据本公开一个实施例的基于人工智能的实体关系对识别方法的流程图;

图2示出了根据本公开一个实施例的基于人工智能的实体关系对识别装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明的目的即在于基于协陪义动词的研究,对实体关系进行推理、分析、抽取。

实施例一

图1示出了本实施例的基于人工智能的实体关系对识别方法流程图,参照图1,所述方法可以包括:

步骤11,从训练语料库中获取出现正例的句子,将所述句子解析成链接语法解析形式;所述正例为存在目标关系的两个实体。

从训练语料库中寻找出现正例的句子,将其解析成链接语法解析形式。

链接语法解析中,一个链接是指链接句子中两个或多个词的平面无向图结构(planarundirectedgraph)。

其中链接两个词的叫做边(link)。.

每条边都用链接符(connector)标注,例如“det”、“mod”等。

链接符取自一个有限的符号集合。如subj标明了一条句子中从主语词到谓语词的边。

这些边和链接符必须满足一定的语法生产规则,这些语法规则就称为链接语法(linkgrammar)。

linkgrammar是一组规则集合,决定了什么样的词可以通过什么样的链接符与前面或者在后面的词管理。

具体来说,正例即为存在目标关系的两个实体。目标关系是设定的关系,也即两个实体间的设定关系。当两个实体存在目标关系时,为一个正例。当句子中出现这个正例时,这个句子命中,进一步将该句子解析。

实际上,目标关系并不限定数量,可以是很多种。实体也可以包括很多对。因而,正例可以是同时存在的多个正例。

步骤12,将所述链接语法解析形式的句子中链接符链接的两个实体替换为占位符;根据所述占位符和对应的链接符,提取得到正模式。

在解析中,两个实体被占位符替换,转化成正模式(positivepatterns)。正模式解释:如对于“生日(birthday)”关系这一目标关系,一个人与其生日日期的实体对就是“生日”关系的目标关系的正例。而当两个实体符合目标关系时,则两个实体再句子中的逻辑关系即为正模式。因而,正模式是一种逻辑关系,不依赖于实体,仅表示两个占位符所代表的实体之间的逻辑关系。换句话说,符合正模式的两个实体间的实际关系即为目标关系。

所述正模式为一种逻辑结构,表征两个或两个以上的实体之间的逻辑关系;所述逻辑关系唯一对应两个实体之间的目标关系。

步骤13,根据所述正模式,遍历所述训练语料库中句子;当能与所述正模式匹配并同时能够产生反例的句子的数量小于设定阈值时,保留所述正模式。

当能与所述正模式匹配并同时能够产生反例的句子的数量大于等于设定阈值时,删除所述正模式。

本步骤的目的在于对提取出的正模式进行验证。使用训练语料库中的句子,遍历其中的句子,与正模式匹配。若句子能够匹配正模式,并且能够产生反例,则标注该反例为反模式(negativepatterns)。

反模式解释:比如对于“生日”关系,如果(“chopin”,1810)是一个正例,则(“chopin”,2000)就是一个反例,因为一个人只能有一个生日。

本步骤旨在验证提取出来的正模式是否准确。当与正模式匹配的句子中两个实体的关系确实为目标关系时,该句子中的正模式予以保留。否则,当与正模式匹配的句子中两个实体的关系不是目标关系时,可以对该正模式予以修正。

具体来说,对训练语料库中所有句子遍历以后,统计所有的正模式与反模式的数量和占比,若反模式数量大于一定阈值,则删除对应的正模式。若正模式数量大于一定的阈值,则保留该正模式。

步骤14,将所述训练语料库中句子按带时间属性实体关系抽取处理,得到带时间属性的所述正例。

将所述训练语料库中句子按带时间属性实体关系抽取处理,得到带时间属性的链接语法解析形式;将所述带时间属性的链接语法解析形式中的两个实体替换为占位符,并与所述正模式匹配。

带时间属性实体关系抽取算法步骤包括:

对时间属性进行定义如下:

entity表示两个实体,relation表示实体之间的关系类型。[t1,t2]表示实体关系开始的时间和结束时间。

本实施例中,在leila算法的基础上,分析句子中的时间成本,根据句子特点,将时间信息与实体关系进行匹配。

算法原理如下:

根据链接语法原理,提出了leila算法。在leila算法中,给定一个目标关系类型,一个实体对会根据一个分类函数将其分成四类。

leila算法中分的四类如下所述:

实体对是目标关系的正例。

实体对是目标关系的反例。

实体对是目标关系的一个候选项。

不是上面任何一种。

leila算法使用的语料由自然语句组成。这些语句需要解析成深层语法结构。leila算法的阶段可解析成发现阶段、评估阶段、抽取阶段这三个阶段。

算法流程步骤如下:

leila运算法则是先输入一个整句,输出相应语法的结构解析链接。

algorithmextendedleila

input:asentencesent

output:alistoffacts.

linkgrammarparser:这个模块接受一个自然语言句子作为输入,并输出相应的链接语法解析结构。

parsedgram←linkgrammarparser(sent)

leila:本系统在句子处理过程中实现leila算法,并利用leila发现句子中隐藏的实体关系。leila算法接受链接语法解析输出结果作为输入,并返回一个抽取实体关系列表。

factlist←leila(parsedgram)

daterecognition:函数通过接受一个句子作为输入,并输出所有在此句子中出现过的日期列表。在这里日期包含了不同维度的时间表示,包括年、月和日。这个函数主要通过模板匹配的方法识别h期。

datelist←daterecognition(sent)

getverb:函数在句子中监测包含在实体关系中的谓语。

foreachfactinfactlist,do

verb←getverb(parsedgram,fact)

getpreposition:函数用于检测谓语日期短语前的介词。

foreachdateindatelist,do

prep←getpreposition(date,sent)

haslinkage:函数检测在主谓与日期前的介词之间是否有一条直接的链接(在链接语法结构中)。

ifhaslinkage(prep,verb)istrue,then

gettimerelation:函数在haslinkage函数判断为真的时候,构建一些新的时间关系,这些时间关系都是通过主关系的标识和与他们所包含的主谓语有链接的日期短语组成。

newfactlist←gettimerelation(prep,sent)

factlist←factlist+newfactlist

如此一直反复循环,直到输出训练语料库中所有句子对应的正例。

步骤15,将所述带时间属性的正例与所述正模式匹配,将能够匹配的所述带时间属性的正例中的两个实体、时间属性以及所述目标关系作为实体关系对。

具体将带时间属性的正例与提取出的正模式相匹配,能够匹配的两个实体作为实体关系对输出。同时,两个实体还包括时间属性和相互间的关系。

本实施例中,通过人工智能的方式,从训练语料库中自动分析句子并得到目标关系对应实体,然后结合两个或多个实体的时间属性,提取出符合时间属性的实体关系对,用以具体的语义分析。本实施例的方案,能够准确识别语句中实体关系对,从而能够准确分析语句中目标关系的词语以及短语的实际关系,从而准确识别语句的实际含义,为人工智能开展语义识别奠定基础。

实施例二

如图2所示,其中公开了一种基于人工智能的实体关系对识别系统,其中,

解析单元21,用于从训练语料库中获取出现正例的句子,将所述句子解析成链接语法解析形式;所述正例为存在目标关系的两个实体;

正模式单元22,用于将所述链接语法解析形式的句子中链接符链接的两个实体替换为占位符;根据所述占位符和对应的链接符,提取得到正模式;

删选单元23,用于根据所述正模式,遍历所述训练语料库中句子;当能与所述正模式匹配并同时能够产生反例的句子的数量小于设定阈值时,保留所述正模式;

实体对识别单元24,用于将所述训练语料库中句子按带时间属性实体关系抽取处理,得到带时间属性的所述正例;将所述带时间属性的正例与所述正模式匹配,将能够匹配的所述带时间属性的正例中的两个实体、时间属性以及所述目标关系作为实体关系对。

进一步的,所述实体对识别单元24,还用于:

获取所述训练语料库中的句子,将所述句子解析成链接语法解析形式;

根据所述句子的连接语法解析形式,提取目标关系的实体关系;

获取所有在所述句子中出现过的日期列表;

获取所述句子中包含在实体关系中的谓语;

获取所述句子中位于所述日期前的介词;

检测在所述句子的主语、谓语与日期前的介词之间,在链接语法结构中是否有一条直接的链接;

若是,通过所述句子所包含的与主语、谓语有链接的日期,构建新的时间关系;

循环执行上述过程,直到得到所述训练语料库中所有符合所述正例的句子。

根据本公开上述的一个或多个技术方案,一种基于人工智能的实体关系对识别的方案,通过人工智能的方式,从训练语料库中自动分析句子并得到目标关系对应实体,然后结合两个或多个实体的时间属性,提取出符合时间属性的实体关系对,用以具体的语义分析。本实施例的方案,能够准确识别语句中实体关系对,从而能够准确分析语句中目标关系的词语以及短语的实际关系,从而准确识别语句的实际含义,为人工智能开展语义识别奠定基础。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。例如,在权利要求书中所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本公开的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本公开进行说明而不是对本公开进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。

以上所述仅是本公开的具体实施方式,应当指出的是,对于本领域的普通技术人员来说,在不脱离本公开精神的前提下,可以作出若干改进、修改、和变形,这些改进、修改、和变形都应视为落在本申请的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1