实体关系抽取模型训练方法及装置与流程

文档序号:26957212发布日期:2021-10-16 04:56阅读:368来源:国知局
实体关系抽取模型训练方法及装置与流程

1.本公开涉及信息技术领域,尤其涉及实体关系抽取模型训练方法、装置、设备和计算机可读存储介质技术领域。


背景技术:

2.目前为了提取语料中的有效信息,很多情况下,都需要对语料中的实体关系进行抽取,而现阶段实体关系的抽取方式主要包括三种:一是以无监督为主的自动抽取(auto extraction),通常在没有确定关系标签的条件下,根据句法或语义结构自动地从文本中提取可以描述对应关系的词汇或短语,而这种抽取方式仍然依赖于初始种子和语料库的质量,而且需要人工筛选低频的实体对,非常麻烦,一般很少使用;二是以有监督为主的关系分类,即将关系抽取视为一种分类任务,事先预定义有限个关系标签,并对语料进行人工标注,然后利用分类模型训练抽取关系,而这种方式过度依赖于标注语料的质量和数量,且现实中已经标注的语料仍然只占少数,很多军工情报等数据难以大量获取关系,从而使得可分类实体关系的分类模型很有限,能够分类的实体关系自然也很有限;三是基于远程监督的实体关系抽取方法,其主要思想是通过将大量的无标注语料与由大量实体对和实体关系构成的知识库对齐,以确定无标注语料中的实体关系,但现阶段知识库大量缺失,使得能够实现实体对齐的语料数量过少,从而造成了这些实体对的关系抽取训练不充分,进而影响整个实体关系抽取模型的性能。
3.因而,如何综合上述不同实体关系抽取方式的优缺点获得更有效的实体关系抽取模型以便之后可更加高效、准确地抽取语料中的实体关系成为亟待解决的问题。


技术实现要素:

4.本公开提供了一种实体关系抽取模型训练方法、装置、设备以及存储介质。
5.根据本公开的第一方面,提供了一种实体关系抽取模型训练方法。该方法包括:获取训练语料的实体以及实体标签;通过多种实体关系抽取方式联合抽取所述训练语料中的实体关系;根据所述实体标签和所述实体关系,生成所述训练语料的一个或多个联合标签;根据所述训练语料以及所述一个或多个联合标签对初始实体关系抽取模型进行训练,以获得目标实体关系抽取模型。
6.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述通过多种实体关系抽取方式联合抽取所述训练语料中的实体关系,包括:将所述训练语料的实体与语料知识库进行实体对齐,以确定所述训练语料中的第一实体关系;利用实体关系分类器对所述训练语料中的实体关系进行分类,以确定所述训练语
料中的第二实体关系;若所述第一实体关系与所述第二实体关系相匹配,则根据所述第一实体关系和所述第二实体关系确定所述训练语料中的实体关系。
7.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用实体关系分类器对所述训练语料中的实体关系进行分类,以确定所述训练语料中的第二实体关系,包括:将所述训练语料中实体进行向量化,以获得所述训练语料中实体的特征向量;将所述训练语料中实体的特征向量输入至所述实体关系分类器中进行实体关系分类,以确定所述第二实体关系。
8.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述实体关系分类器包括多个svm分类器;所述将所述训练语料中实体的特征向量输入至所述实体关系分类器中进行实体关系分类,以确定所述第二实体关系,包括:将所述训练语料中实体的特征向量依次分别输入至多个svm分类器中进行实体关系分类,直至分类出的实体关系的概率大于预设概率时停止分类,并将大于所述预设概率的实体关系确定为所述第二实体关系;或者确定所述训练语料中实体所属的字符类别;根据所述字符类别,从所述多个svm分类器中选择对应的分类器;将所述训练语料中实体的特征向量输入至所述对应的分类器中进行实体关系分类,以确定所述第二实体关系。
9.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述若所述第一实体关系与所述第二实体关系相匹配,则根据所述第一实体关系和所述第二实体关系确定所述训练语料中的实体关系,包括:若所述第一实体关系与所述第二实体关系的近似度达到预设近似度,则将所述第一实体关系和所述第二实体关系中的至少一项确定为所述训练语料中的实体关系。
10.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述通过多种实体关系抽取方式联合抽取所述训练语料中的实体关系,还包括:若所述训练语料的实体与所述语料知识库无法进行实体对齐,则将所述第二实体关系确定为所述训练语料中的实体关系。
11.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述实体标签和所述实体关系,生成所述训练语料的一个或多个联合标签,包括:在抽取所述训练语料中的实体关系时,确定所述训练语料中实体的相对位置;根据所述实体标签、所述实体关系以及所述相对位置,生成所述联合标签。
12.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取训练语料的实体标签,包括:获取所述训练语料的词向量或字符向量;将所述词向量或所述字符向量输入至预先训练好的序列标注模型中,以确定所述训练语料的目标标签序列,所述目标标签序列由所述训练语料中各实体的标签构成。
13.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述将所述词向量和所述字符向量输入至预先训练好的序列标注模型中,以确定所述训练语料的目标标签序列,包括:将所述词向量或所述字符向量输入至序列标注模型的bilstm层,以获得所述训练语料中每个词所分配的所有标签各自的标签得分;将所述训练语料中每个词所分配的所有标签各自的标签得分输入至所述序列标注模型的crf层中,以获得所述训练语料中的至少一个标签序列及对应的概率;输出所述至少一个标签序列中对应的概率最高的标签序列作为所述目标标签序列。
14.根据本公开的第二方面,提供了一种实体关系抽取模型训练装置。该装置包括:获取模块,用于获取训练语料的实体以及实体标签;抽取模块,用于通过多种实体关系抽取方式联合抽取所述训练语料中的实体关系;生成模块,用于根据所述实体标签和所述实体关系,生成所述训练语料的一个或多个联合标签;训练模块,用于根据所述训练语料以及所述一个或多个联合标签对初始实体关系抽取模型进行训练,以获得目标实体关系抽取模型。
15.根据本公开的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
16.根据本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如根据本公开的第一方面和/或第二发面的方法。
17.应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
18.结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案,不构成对本公开的限定在附图中,相同或相似的附图标记表示相同或相似的元素,其中:图1示出了根据本公开的实施例的一种实体关系抽取模型训练方法的流程图;图2示出了根据本公开的实施例的另一种实体关系抽取模型训练方法的流程图;图3示出了根据本公开的实施例的获取实体标签的工作原理示意图;图4示出了根据本公开的实施例的将训练语料的实体与语料知识库进行实体对齐抽取实体关系的示意图;图5示出了根据本公开的实施例的利用svm模型抽取训练语料中实体关系的示意图;图6示出了根据本公开的实施例的联合标签以及实体关系抽取模型输出的结果的示意图;图7示出了根据本公开的实施例的实体关系抽取模型训练装置的框图;
图8示出了用来实现本公开实施例的实体关系抽取模型训练方法的电子设备的框图。
具体实施方式
19.为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
20.另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
21.本公开中,可利用不同的实体关系抽取方式联合抽取训练语料中的实体关系,从而使得不同实体关系抽取方式抽取出的实体关系能够互相验证、互相补充,并利用上述经过互相验证、互相补充的实体关系所形成的联合标签对实体关系抽取模型进行更准确、更全面地训练,便于之后能够利用训练出的实体关系抽取模型更加高效、准确地抽取训练语料中的实体关系。
22.图1示出了根据本公开实施例的实体关系抽取模型训练方法100的流程图。该方法100包括:步骤110,获取训练语料的实体以及实体标签;实体标签可以是对实体的bieso标注,其中,s代表实体只包含一个词,b、i、e分别代表实体的起点、中间、终点,o代表非实体词。
23.步骤120,通过多种实体关系抽取方式联合抽取所述训练语料中的实体关系;多种实体关系抽取方式可以是以无监督为主的自动抽取方式、以有监督为主的关系分类方式、基于远程监督的实体关系抽取方法这里边的任意两项的组合或者这三项的组合。
24.实体关系即训练语料中的实体之间的关系,例如:实体为人物则实体关系可能是师生关系、姐妹关系等各种人物关系;还例如:实体为地名,则实体关系为各种位置关系。
25.步骤130,根据所述实体标签和所述实体关系,生成所述训练语料的一个或多个联合标签;步骤140,根据所述训练语料以及所述一个或多个联合标签对初始实体关系抽取模型进行训练,以获得目标实体关系抽取模型。
26.通过使用多种实体关系抽取方式联合抽取训练语料中的实体关系可使得抽取的实体关系互为验证互为补充以确保抽取的实体关系的准确性,能同时发挥不同实体关系抽取方式的优势,弥补不同实体关系抽取方式的缺点,因而,可确保能够抽取出更多训练语料的实体关系,尽可能地避免实体关系抽取的匮乏性即尽可能地避免单一实体关系抽取方式训练不足所导致的无法抽取某些实体关系,如此,根据实体标签和实体关系,生成的联合标签也自然更为准确,进一步地,利用训练语料以及这些联合标签对初始实体关系抽取模型的训练也更为精准、有效,获得的目标实体关系抽取模型自然也更加高效、准确,有利于之后能够更加高效、准确地抽取训练语料中的实体关系。
27.在实体关系的真实测试(应用)环节,直接将测试语料输入至目标实体关系抽取模型中,即可高效、准确地获得测试语料中的实体关系三元组。
28.在一些实施例中, 所述通过多种实体关系抽取方式联合抽取所述训练语料中的实体关系,包括:将所述训练语料的实体与语料知识库进行实体对齐,以确定所述训练语料中的第一实体关系;利用实体关系分类器对所述训练语料中的实体关系进行分类,以确定所述训练语料中的第二实体关系;即本实施例的多种实体关系抽取方式可以是基于远程监督的实体关系抽取方法(用于抽取第一实体关系)以及以有监督为主的关系分类方式(用于抽取第二实体关系)。
29.若所述第一实体关系与所述第二实体关系相匹配,则根据所述第一实体关系和所述第二实体关系确定所述训练语料中的实体关系。
30.在通过不同的实体关系抽取方式分别获得针对训练语料的第一实体关系和第二实体关系之后,可将两种实体关系进行匹配,以将不同实体关系抽取方式抽取出的实体关系进行相互验证,如此,若第一实体关系与所述第二实体关系相匹配,则说明两种实体关系抽取方式抽取的实体关系比较一致,则可根据所述第一实体关系和所述第二实体关系准确确定所述训练语料中的实体关系,从而通过实体关系联合抽取方式确保抽取出的实体关系的准确性。
31.另外,还可以对训练语料中的实体采用语义、上下文分析即利用以无监督为主的自动抽取方式,抽取训练语料中的实体关系,以作为第三实体关系;然后将第三实体关系与第一实体关系以及第二实体关系中的至少一项进行相似度比较,从而将更多实体关系抽取方式抽取到的同一训练语料中的实体关系进行相互验证、互为补充,以确保抽取出的实体关系的准确性以及全面性,提高实体关系抽取效果。
32.在一些实施例中,所述利用实体关系分类器对所述训练语料中的实体关系进行分类,以确定所述训练语料中的第二实体关系,包括:将所述训练语料中实体进行向量化,以获得所述训练语料中实体的特征向量;将所述训练语料中实体的特征向量输入至所述实体关系分类器中进行实体关系分类,以确定所述第二实体关系。
33.在利用实体关系分类器对训练语料进行分类时,可先将训练语料中实体进行向量化,以得到实体的特征向量,然后将训练语料中实体的特征向量自动输入至实体关系分类器中,从而对训练语料中的实体关系进行自动分类,以通过以有监督为主的关系分类方式自动抽取训练语料中的第二实体关系。
34.在一些实施例中,所述实体关系分类器包括多个svm(support vector machines,支持向量机)分类器;所述将所述训练语料中实体的特征向量输入至所述实体关系分类器中进行实体关系分类,以确定所述第二实体关系,包括:将所述训练语料中实体的特征向量依次分别输入至多个svm分类器中进行实体关系分类,直至分类出的实体关系的概率大于预设概率时停止分类,并将大于所述预设概率的实体关系确定为所述第二实体关系。
35.由于svm分类器只能对一种实体关系进行分类,而不同的训练语料中可能有不同的实体关系以及同一个训练语料中也可能有多个实体关系,因而,实体关系分类器需要多个svm分类器,即不同的svm分类器用于分类不同的实体关系,这样,在进行实体关系分类时,可将训练语料中实体的特征向量依次分别输入至多个svm分类中进行实体关系分类,即依次尝试使用不同svm分类器对训练语料中实体进行实体关系分类,直至分类出的实体关系的概率大于预设概率时,说明该实体关系比较准确了,可停止分类,并将大于所述预设概率的实体关系确定为所述第二实体关系,从而确保第二实体关系的准确性。
36.当然,svm分类器还可能输出的不是实体关系对应的概率,而是针对某种实体关系输出的是“是”或者“否”,这种情况下,将所述训练语料中实体的特征向量依次分别输入至多个svm分类器中进行实体关系分类后,直至输出“是”(或者其他用于表达“是”的字符)时,将输出“是”的svm分类器可分类的实体关系确定为所述第二实体关系。
37.例如:用于分类师生关系的svm分类器,可能只会针对师生关系输出“是”或者“否”,分别用于肯定实体的关系为师生关系或用于否定实体的关系为师生关系,这种情况下,将训练语料的两个实体的特征向量依次输入至多个svm分类器中进行实体关系分类后,如果输入至用于分类师生关系的svm分类器中且该分类器输出为“是”,则所输入的实体的实体关系为师生。
38.和/或在一些实施例中,所述实体关系分类器包括多个svm(support vector machines,支持向量机)分类器;所述将所述训练语料中实体的特征向量输入至所述实体关系分类器中进行实体关系分类,以确定所述第二实体关系,包括:确定所述训练语料中实体所属的字符类别;字符类别用于表征实体的个性化特征,如用于表征该实体是否为地名、人名、景区名称等。
39.而地名对应的分类器可以是位置关系分类器,人名对应的分类器可以是人物关系分类器,景区对应的分类器可以是景区管辖关系分类器。
40.根据所述字符类别,从所述多个svm分类器中选择对应的分类器;将所述训练语料中实体的特征向量输入至所述对应的分类器中进行实体关系分类,以确定所述第二实体关系。
41.由于将所述训练语料中实体的特征向量依次分别输入至多个svm分类器中进行实体关系分类虽然可确保第一实体关系比较准确,但这种方式实体关系分类效率比较低、速度比较慢,因而,为了提高实体关系分类的快速性,可根据实体所属的字符类别,从多个svm分类器中有针对性地选择对应的分类器,然后利用该对应的分类器中进行实体关系分类,以快速、高效地确定所述第二实体关系,避免svm分类器的盲试。
42.例如:如果字符类型为地名,则从多个svm分类器中选择用于分类位置关系的svm分类器,从而利用用于分类位置关系的svm分类器快速确认实体关系是否为某种位置关系。
43.当然,如果对应的分类器仍然有多个,则可以结合上个“将所述训练语料中实体的特征向量依次分别输入至多个svm分类器中进行实体关系分类”的实施例,进一步确认第二实体关系,以确保第二实体关系的准确性。
44.在一些实施例中,所述若所述第一实体关系与所述第二实体关系相匹配,则根据
所述第一实体关系和所述第二实体关系确定所述训练语料中的实体关系,包括:若所述第一实体关系与所述第二实体关系的近似度达到预设近似度,则将所述第一实体关系和所述第二实体关系中的至少一项确定为所述训练语料中的实体关系。
45.若第一实体关系与所述第二实体关系的近似度达到预设近似度,则说明利用不同实体关系抽取方式抽取出的实体关系比较准确,没有错误,因而,可将所述第一实体关系和所述第二实体关系中的至少一项确定为所述训练语料中的实体关系,从而确保利用不同实体关系抽取方式联合抽取出的实体关系的准确性。
46.第一实体关系与所述第二实体关系的近似度可利用欧几里得距离公式、曼哈顿距离公式、余弦相似度公式等公式计算,或者,可通过语义分析确定计算语义的相似性作为两个实体关系的近似度。
47.例如:北京与中国这两个实体通过与语料知识库进行对齐获得的第一实体关系为“隶属”,使用svm分类器分类出的第二实体关系为“位于”,则可利用余弦相似度公式对“隶属”和“位于”进行距离的近似度分析,发现两者近似度大于预设近似度,则说明这两种实体关系抽取方式抽取出的该实体对的实体关系是一致的,可将“隶属”或“位于”直接作为该实体对的关系。
48.又例如:公司与员工这两个实体通过与语料知识库进行对齐获得的第一实体关系为“雇佣”,使用svm分类器分类出的第二实体关系为“聘用”,则对“雇佣”和“聘用”进行语义的近似度分析,发现两者语义相近,则说明这两种实体关系抽取方式抽取出的该实体对的实体关系是一致的,可将“雇佣”或“聘用”直接作为该实体对的关系。
49.在一些实施例中,所述通过多种实体关系抽取方式联合抽取所述训练语料中的实体关系,还包括:若所述训练语料的实体与所述语料知识库无法进行实体对齐,则将所述第二实体关系确定为所述训练语料中的实体关系。
50.由于语料知识库中能够进行实体对齐的语料数量比较少、信息匮乏,因而,若训练语料的实体与语料知识库无法进行实体对齐,则可将利用实体关系分类器的第二实体关系确定为训练语料中实体的实体关系,从而利用以有监督为主的关系分类方式弥补语料知识库中缺失的实体关系,这样,就利用了以有监督为主的关系分类方式弥补了基于远程监督的实体关系抽取方法中所缺少的实体关系,使得这两种实体关系分类方式可相互补充,弥补相互之间的缺点,也可确保实体关系的全面性,使得训练出的目标实体关系抽取模型也更加全面、准确。
51.当然,如果无法利用实体关系分类器分类出第二实体关系,也可以将第一实体关系确定为所述训练语料中的实体关系,以利用基于远程监督的实体关系抽取方法弥补以有监督为主的关系分类方式分类模型有限、实体关系不足的缺陷。
52.在一些实施例中,所述根据所述实体标签和所述实体关系,生成所述训练语料的一个或多个联合标签,包括:在抽取所述训练语料中的实体关系时,确定所述训练语料中实体的相对位置;根据所述实体标签、所述实体关系以及所述相对位置,生成所述联合标签。
53.通过将实体的实体标签、实体关系以及训练语料中实体的相对位置这三种信息进行组合,即可得到训练语料中的一个或多个联合标签,这样,训练出的目标实体关系抽取模
型综合了不同实体关系抽取方式的优势,可识别的实体关系自然更多、更准、更全面,如此,在实体关系的真实测试(或应用)环节也可更加准确、高效地抽取测试语料中的实体关系。
54.在一个实施例中,所述获取训练语料的实体标签,包括:获取所述训练语料的词向量或字符向量;将所述词向量或所述字符向量输入至预先训练好的序列标注模型中,以确定所述训练语料的目标标签序列,所述目标标签序列由所述训练语料中各实体的标签构成。序列标注模型可以是bilstm

crf模型。
55.通过将训练语料的词向量或字符向量输入至训练好的序列标注模型中,可获得训练语料更为精准的目标标签序列。
56.在一个实施例中,所述将所述词向量和所述字符向量输入至预先训练好的序列标注模型中,以确定所述训练语料的目标标签序列,包括:将所述词向量或所述字符向量输入至序列标注模型的bilstm层,以获得所述训练语料中每个词所分配的所有标签各自的标签得分;将所述训练语料中每个词所分配的所有标签各自的标签得分输入至所述序列标注模型的crf层中,以获得所述训练语料中的至少一个标签序列及对应的概率;输出所述至少一个标签序列中对应的概率最高的标签序列作为所述目标标签序列。
57.由于训练语料中每个词可能会被分配多个标签如在bieso标注方式中,北京位于中国中的位于可能被分配的标签是i和o,而每个标签不一定准确,用于通过得分衡量,因而,可将训练语料中每个词所分配的所有标签各自的标签得分输入至所述序列标注模型的crf层中,以获得训练语料的至少一个标签序列以及至少一个标签序列各自对应的概率,从而按照概率最高到低的顺序进行排序,并将概率最高的标签序列自动确定为目标标签序列,从而确保获得的目标标签序列的准确性,即实体中标签的准确性。
58.下面将进一步说明本公开的技术方案:方法分为三个步骤,分别是命名实体序列标注、以有监督为主的关系分类和远程监督两种方式联合抽取实体关系并对实体关系进行标注、实体关系抽取模型训练,整体结构流程如附图2所示,下面详细论述三个步骤。
59.步骤一、命名实体序列标注如附图3所示,对于命名实体序列标注问题,采用比较流行的bilstm

crf模型。首先是word2vec词向量层,将每个句子(即训练语料)表示为词向量和字向量。然后输入词向量和字向量到模型中的bilstm(bi

directional long short

term memory)层,该层的输出是句子的每个词的所有标签的各自得分。接着将bilstm层的输出输入到crf层,每个词的所有标签的各自得分即(发射概率矩阵)以及转移概率矩阵作为原始crf模型的参数,最终获得每个词的标签所组成的标签序列的概率。
60.具体过程如下,设crf输入的序列为x,预测的标签序列为y,则crf的预测序列y的得分s(x,y)计算如下:
式中,为第i个token(即第i个词)的标签得分,为第i个token的标签转移到第i+1个token的标签的转移得分。
61.每一个得分对应一个完整的路径。利用softmax函数,为每一个正确的序列y定义一个概率值,定义所有预测序列的集合为y,最大化似然概率p(y|x):利用对数似然,将损失函数定义为

log(p(y|x)):在训练时,采用最小化损失函数来训练模型的参数,在预测时,应用viterbi算法来获取概率最高的实体标签序列,将该概率最高的实体标签序列中各标签作为训练语料中对应实体的实体标签,而标注的实体标签即bieso标注。
62.步骤二、以有监督为主的关系分类(即svm分类器分类)和远程监督两种方式联合抽取实体关系并对实体关系进行标注将远程监督关系标注和svm分类器实体关系标注结果一致的,作为后续实体关系联合抽取训练数据,用于训练初始实体关系抽取模型。
63.首先,远程监督关系标注,基于远程监督快速构信息抽取训练集,给定知识库,其中表示实体集合,r表示实体间关系集合,f表示所有三元组,给定一个文本s(即训练语料)和两个目标实体 ,如果同时满足条件且,且,,其中,则认为文本s是可以描述关系r的,即与s对齐,记作,示例如附图4所示。
64.同时,进行svm分类标注,即将实体对的关系抽取问题转换为文本分类问题。例如,对于文本s的n类关系标注的问题,直接将实体对的关系分为n中的一类或者无关系,所以,问题转换为n+1类的分类问题。本公开中的关系抽取所采用的分类算法为支持向量机(supportvectormachine,svm)算法。svm 先在训练语料中进行文本特征选择和文本特征表示,然后将文本特征表示作为训练语料中实体的特征向量输入至svm模型中进行分类,如附图5所示。文本特征选择采用chi方法,文本特征表示采用tf

idf,而svm的学习过程本质上是在特征空间中找到一个划分的超平面,这个超平面能将训练样本按照不同类别分开,利用该技巧,可以将线性分类的学习方法应用到文本分类等非线性分类问题,只需将线性支持向量机对偶形式中的内积换成核函数。
65.然后,若利用远程监督关系标注与svm分类标注出的实体关系一致,则将远程监督关系标注与svm分类标注出的实体关系确定为最终的实体关系。
66.步骤三、实体关系抽取模型训练接下来进行实体关系抽取模型训练,本公开设计了一种特别的标注策略,将步骤一和步骤二获得的实体

关系三元组作为一个联合标签对初始实体关系抽取模型进行训练,该联合标签包含三个部分的信息:(1)步骤一用bieso标注字在实体中的位置,其中s代表实体只包含一个词,b、i、e
分别代表实体的起点、中间、终点,o代表非实体词(2)步骤二的实体关系类型标注,如li代表着located

in关系(3)步骤二获得的实体的语义角色,{1,2}分别代表为语义关系中的{头实体,尾实体}。标签示例如图6中的tags+located

in,通过这种标注策略,并将训练语料“合肥位于安徽”一起输入至初始实体关系抽取模型,即可利用前面步骤一的命名实体标注序列和以及步骤二的实体关系和实体间的相对位置进行模型的训练学习,进而利用联合方式获得的目标实体关系抽取模型抽取出训练语料的实体

关系三元组,如图6中的实体关系抽取模型抽取出的三元组为(合肥,located

in,安徽),当然,初始实体关系抽取模型仍然采用bilstm

crf模型结构。
67.最后进行实验,评价指标采用准确率

召回率(pr)和平均准确率,结果表明,本公开所提出的方法模型相比于常规远程监督关系抽取方法性能提升明显。
68.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本公开所必须的。
69.以上是关于方法实施例的介绍,以下通过装置实施例,对本公开所述方案进行进一步说明。
70.图7示出了根据本公开的实施例的实体关系抽取模型训练装置700的方框图。如图7所示,装置700包括:获取模块710,用于获取训练语料的实体以及实体标签;抽取模块720,用于通过多种实体关系抽取方式联合抽取所述训练语料中的实体关系;生成模块730,用于根据所述实体标签和所述实体关系,生成所述训练语料的一个或多个联合标签;训练模块740,用于根据所述训练语料以及所述一个或多个联合标签对初始实体关系抽取模型进行训练,以获得目标实体关系抽取模型。
71.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
72.根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。
73.图8示出了可以用来实施本公开的实施例的电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
74.设备800包括计算单元801,其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序,来执行各种适当的动作和处理。在ram 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、
rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
75.设备800中的多个部件连接至i/o接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
76.计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如方法100。例如,在一些实施例中,方法100可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到ram 803并由计算单元801执行时,可以执行上文描述的方法100的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法100。
77.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
78.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
79.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd

rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
80.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来
将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
81.可以将此处描述的系统和技术实施在包括后台部件的计算机系统(例如,作为数据服务器)、或者包括中间件部件的计算机系统(例如,应用服务器)、或者包括前端部件的计算机系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算机系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
82.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端

服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
83.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
84.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1