本发明涉及自然语言处理,尤其是涉及一种实体关系抽取方法。
背景技术:
1、现有技术的关系抽取需要预定义关系类型,人工定义关系集合{r},如‘地点’、‘组织’等。在一些真实的场景下,人工定义的这一步将会非常困难。开放关系抽取是不限定关系类型的关系抽取方法,关系源自原文本。目前开放关系抽取主要分为两类方法。第一类是基于监督学习的方法,例如textrunner和reverb的方法,textrunner主要特点是手工标注数据,缺点是标注数据较少。reverb主要特点是融入了句法规则训练数据,对每条三元组进行置信度的评分。缺点是只有动词关系,会匹配错误的头尾实体。基于reverb生成训练数据进行远程监督学习的方法ollie,虽解决了实体匹配的问题,但效率略差。第二类是基于句法模式,例如,dsnfs和clausie,dsnfs使用了7种句法模式,但缺点就是抽取的关系有限。clausie使用了复合句的关系抽取,自定义子句类型,但对于多元组的结果又很难去评估。
2、因此,现有技术的实体关系抽取方法存在中文领域中存在实体抽取的关系不够丰富并且抽取关系种类单一的问题。
技术实现思路
1、本发明的目的在于提供一种实体关系抽取方法,可以使得实体抽取的关系丰富并且抽取关系的种类不单一。
2、为了达到上述目的,本发明提供了一种实体关系抽取方法,包括:
3、依存句法分析,从句子中提取出实体对;
4、对所述实体对进行关联关系添加,以得到第一三元组,对所述第一三元组进行dsnf匹配并按照设定条件对所述第一三元组进行筛选,以得到第二三元组;
5、根据所述句子的上下文内容对所述实体对添加关系,以得到第三三元组;
6、根据实体字典对所述实体对添加关系,以得到第四三元组;以及
7、对所述第二三元组、第三三元组和第四三元组进行聚类,按照每个所述三元组之间的相似关系将所有三元组分为多个类。
8、可选的,在所述的实体关系抽取方法中,依存句法分析,从句子中提取出实体对的方法包括:
9、依存句法分析,从句子中提出多个实体;
10、将指向同一个人或物的实体合并为一个实体;以及
11、将任意两个实体组合形成实体对。
12、可选的,在所述的实体关系抽取方法中,所述关联关系包括:并列关系和因果关系。
13、可选的,在所述的实体关系抽取方法中,按照设定条件对所述第一三元组进行筛选的方法包括:
14、若从过短的句子提取出的实体对,则将所述实体对舍弃;
15、同一句子中的所述实体对的数量小于或等于3,且所述实体对的字符数量小于10,若不能同时满足,则将所述实体对舍弃;
16、若所述实体对中的第一个实体依赖于谓词,则所述第一个实体不能同时依赖于谓词之外的其他单词,否则将所述实体对舍弃;
17、所述实体对所在的句子中,第一个实体和第二个实体之间的距离小于或等于四个字符,否则将所述实体对舍弃;
18、所述实体对中,当一个实体是直接宾语,且依赖于vob的谓语时,该实体为名词,否则将所述实体对舍弃;
19、当关系词中,谓语前面有多个状语短语时,所述谓语匹配最接近谓词的一个状语短语;
20、当关系词中,宾语为介词性宾语或宾语的修饰词是一个副词性状语时;
21、当关系词中,存在并列谓语时,第二个动宾结构不能直接构成sbv-vob的形式,且第二个谓词前不能含有实体;
22、如果介词为被或者由时,对第一个实体和第二实体的位置进行交换;
23、如果第二个实体所依存的词与第一个实体所依存的词构成coo关系,那么特征关系词选择第二个实体所依存的词;以及
24、如果特征关系词的前面具有一个修饰所述特征关系词的动词,则特征关系词和动词进行合并作为一个特征关系词。
25、可选的,在所述的实体关系抽取方法中,根据所述句子的上下文内容对所述实体对添加关系,以得到第二三元组的方法包括:
26、在第一个实体的上文和下文中找到若干个关系词;
27、在第二个实体的上文和下文中找到若干个关系词;
28、查找第一个实体的上下文关系词和第二个实体的上下文关系词的交集;以及
29、找出所述交集内的关系词与该关系词的上文和下文的词语相似度最高的关系词,并将该关系词假如所述实体对中,以得到第三三元组。
30、可选的,在所述的实体关系抽取方法中,根据实体字典对所述实体对添加关系,以得到第四三元组的方法包括:
31、如果该关系词收录在所述实体字典中,则将该关系词添加到所述实体对中。
32、可选的,在所述的实体关系抽取方法中,对所述第二三元组、第三三元组和第四三元组进行聚类,按照每个所述三元组之间的相似关系将所有三元组分为多个类的方法包括:
33、将所有三元组的关系词进行相似度计算;
34、将相似度接近的关系词分为同一个类,并计算每一类关系词的平均相似度;
35、如果有新的关系词加入,将新的关系词与每一类关系词的平均相似度进行相似度计算;以及
36、将新的关系词加入与其相似度接近的那一类关系词中。
37、可选的,在所述的实体关系抽取方法中,将相似度接近的关系词分为同一个类的方法包括:
38、当两个所述关系词的相似度的差值在阈值内,则认为这两个关系词的相似度接近。
39、可选的,在所述的实体关系抽取方法中,将新的关系词加入与其相似度接近的那一类关系词中的方法包括:
40、如果新的关系词与某一类关系词的平均相似度的差值在阈值内,则将新的关系词加入到该类关系词中。
41、可选的,在所述的实体关系抽取方法中,对所述第二三元组、第三三元组和第四三元组进行聚类,按照每个所述三元组之间的相似关系将所有三元组分为多个类的方法还包括:
42、如果新加入的关系词与所有类的平均相似度的差值均在阈值之外,则新加入的关系词成为新的一类关系词。
43、在本发明提供的实体关系抽取方法中,通过三种方法抽取实体的关系,可以使得实体抽取的关系丰富并且抽取关系的种类不单一。
1.一种实体关系抽取方法,其特征在于,包括:
2.如权利要求1所述的实体关系抽取方法,其特征在于,依存句法分析,从句子中提取出实体对的方法包括:
3.如权利要求1所述的实体关系抽取方法,其特征在于,所述关联关系包括:并列关系和因果关系。
4.如权利要求1所述的实体关系抽取方法,其特征在于,按照设定条件对所述第一三元组进行筛选的方法包括:
5.如权利要求1所述的实体关系抽取方法,其特征在于,根据所述句子的上下文内容对所述实体对添加关系,以得到第二三元组的方法包括:
6.如权利要求1所述的实体关系抽取方法,其特征在于,根据实体字典对所述实体对添加关系,以得到第四三元组的方法包括:
7.如权利要求1所述的实体关系抽取方法,其特征在于,对所述第二三元组、第三三元组和第四三元组进行聚类,按照每个所述三元组之间的相似关系将所有三元组分为多个类的方法包括:
8.如权利要求7所述的实体关系抽取方法,其特征在于,将相似度接近的关系词分为同一个类的方法包括:
9.如权利要求7所述的实体关系抽取方法,其特征在于,将新的关系词加入与其相似度接近的那一类关系词中的方法包括:
10.如权利要求7所述的实体关系抽取方法,其特征在于,对所述第二三元组、第三三元组和第四三元组进行聚类,按照每个所述三元组之间的相似关系将所有三元组分为多个类的方法还包括: