一种基于TransE模型的面向法律文本的知识表示学习方法与流程

文档序号:26433113发布日期:2021-08-27 13:29阅读:123来源:国知局
一种基于TransE模型的面向法律文本的知识表示学习方法与流程

本发明涉及法律知识图谱领域,尤其涉及一种基于transe模型的面向法律文本的知识表示学习方法。



背景技术:

受限于当前的深度学习技术的诸多不足,只能解决数据规整、任务较为简单的工作,在一些结构复杂的情形,深度学习技术难以发挥作用,依旧需要依靠人为经验去判别。

在这种情况下,知识图谱技术的兴起,提供了一种非常便捷、高效的可行方案。知识图谱将一个事件存储为一种实体-关系-实体这样的三元组数据,突破了传统数据库的局限性,大大简化了关联数据的搜索问题。

知识库可以是指对相关数据进行有序存储的数据库。通常,知识库可以被表示为网络形式,节点代表实体,连边代表实体之间的关系。在网络形式表示下,通常需要设计专门的知识图谱计算存储和利用知识库。设计知识图谱不仅存在费时费力的缺点,还受到数据稀疏问题的困扰。因此,以深度学习为代表的表示学习技术受到广泛关注。表示学习旨在将研究对象的语义信息标识为稠密的低维实值向量。

而基于翻译的模型是一种典型的知识表示方法,该类模型将关系视为实体间的翻译操作,即关系向量可以表示为尾实体向量和头实体向量的差。当实体间的关系缺失时,可以通过实体向量的差计算出关系向量,并找出这一关系向量对应的关系来实现关系的补全。这种模型在知识库补全实验中具有极高的准确率。但是现有的基于翻译的模型大多只利用知识库中的结构化信息,忽略了知识库中的关系路径信息、类型信息以及实体描述信息等额外信息。

在nlp(naturallanguageprocessing,自然语言处理)领域中,预训练语言模型在多项nlp任务上都表现出极佳的效果。此外,预训练语言模型在诸如许多阅读理解任务、信息抽取任务等需要关于现实世界描述和知识推理的任务上也表现的很好,这说明预训练模型具有较好的知识获取能力,能够用来更好地学习知识表示。

因此,利用预训练语言模型强大的知识获取能力与上下文分析能力,融合文本信息对知识库进行建模,可以解决传统知识表示学习方法中只利用结构化信息,没有利用多种额外信息的问题,使得融合文本信息到的知识表示可以更好地表示知识库中的复杂关系。

因此,有必要提供一种基于transe模型的面向法律文本的知识表示学习方法解决上述问题。



技术实现要素:

本发明的目的在于,提供了一种基于transe模型的面向法律文本的知识表示学习方法,该知识表示学习方法综合考虑了知识的结构化信息和文本描述信息,提高了知识表示的准确性。

为实现上述目的,本发明提供如下技术方案:一种基于transe模型的面向法律文本的知识表示学习方法,该方法包括如下步骤:s1:利用掩码语言模型获取法律行业训练文本;s2:根据获取的所述法律行业训练文本,划分实体,提取实体间的对应关系,并以三元组的形式将定义好的数据存储到图数据库;s3:利用所述图数据库对训练文本中的行业词实体进行匹配,定义知识表示学习transe模型的目标函数;通过融合训练文本中的实体向量与图数据库中的结构信息,对模型进行训练,学习实体向量和关系向量的表示。

s3步骤包括如下步骤,(1)利用hs和ts分别表示图数据库中的实体向量,可以从结构信息的角度建立头实体和尾实体的表示,这种表示和transe模型相同;(2)利用图数据库对训练文本中的行业词实体进行匹配,得到基于训练文本的实体向量表示hw和tw,可以从训练文本的角度建立头实体和尾实体的表示;(3)形成优化后的知识表示学习模型的能量函数:

e(h,r,t)=||hs+r-ts||+||hw+r-tw||+||hs+r-tw||+||hw+r-ts||

式中,第一部分是基于结构表示的能量函数,第二部分是基于文本信息的能量函数,第三和第四部分是基于结构信息和文本信息融合的能量函数;(4)通过知识表示学习模型的目标函数获得实体和关系的嵌入表示表现出知识图谱中实体和关系的特征,其目标函数:

式中,γ是一个边缘超参数,t是训练集,t′是t的负样本集;(5)将经过预训练语言模型得到的hw与tw,随机初始化的hs、r、ts作为知识表示学习模型的初始输入,按照transe模型的训练方式,利用随机梯度下降法优化目标函数,对模型进行训练求解,学习实体向量和关系向量的表示。

与现有技术相比,本发明一种基于transe模型的面向法律文本的知识表示学习方法,该知识表示学习方法综合考虑了知识的结构化信息和文本描述信息,提高了知识表示的准确性,其目的在于更充分地表现出知识图谱中实体和关系的特征,从而获得更加高效的实体和关系的嵌入表示。

本发明利用预训练语言模型强大的知识获取能力与上下文分析能力,融合了文本信息对知识库进行建模,解决了传统知识表示学习方法中只利用结构化信息,没有利用多种额外信息的问题,使得融合文本信息到的知识表示可以更好地表示知识库中的复杂关系。

附图说明

图1为本发明基于transe模型的面向法律文本的知识表示学习方法的流程示意图;

图2为本发明面向法律文本的知识表示学习方法中知识表示学习的训练的流程示意图;

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,本发明提供一种基于transe模型的面向法律文本的知识表示学习方法,所述方法包括以下步骤:

s1:利用掩码语言模型获取法律行业训练文本;具体的,利用掩码语言模型对训练文本中的行业词进行掩码,得到掩码训练文本;将掩码训练文本输入至预训练语言模型,学习得到法律文本中行业词的知识表示;

所述掩码语言模型的定制步骤包括:

收集行业语料;

对所述行业语料进行切词,得到词语集合;

统计所述词语集合中的词语的分布,得到分布结果;

基于所述分布结果从所述词语集合中选取词语,生成行业词典,作为所述掩码语言模型。

所述获取行业训练文本,包括:

收集行业问答语料;

将所述行业问答语料作为正例行业训练文本;

将所述行业问答语料中的问句和答句打散,生成负例行业训练文本。

其中,所述行业是法律行业,所述获取行业训练文本,包括:

收集法律判决书语料;并将所述法律判决书语料中的案由信息删除,生成法律行业训练文本。

其中,所述获取行业训练文本,还包括:

在所述法律行业训练文本的头部插入第一预设字符,以及按照固定字符长度对所述法律行业训练文本进行划分,并且在划分出的每部分的结尾插入第二预设字符;

将所述掩码训练文本输入至预训练语言模型,学习得到所述行业训练文本中行业词的知识表示,以及所述法律行业训练文本所属的案由。

s2:根据获取的法律行业训练文本,划分实体,提取实体间的对应关系,并以三元组的形式将定义好的数据存储到图数据库;

三元组,知识图谱中的实体指的是具有具体或抽象含义的单词,关系指的是不同实体间的联系,它们通常以三元组(头实体h,头实体与尾实体之间的关系r,尾实体t)的形式存储;

行业词的知识表示,是指利用掩码语言模型对法律行业文本中的行业词进行掩码得到掩码训练文本,进而将掩码文本输入预训练语言模型得到法律文本中的实体(行业词)向量的知识表示。

具体的,划分实体包括划分为人员、案(事)件、物品、地点、机构五大类实体。

图数据库是用于存储多种关系图的数据库,图中的每个节点代表实体,节点与节点之间的边代表关系,这样就可以将定义好的数据以节点-边-节点的方式存入图数据库。所述图数据库的构建步骤包括:

获取已破获案件的所有有关数据,包括案发时间、案发地点、作案物品、案发人员以及与其有所关联的所有人员数据,划分为人员、案件、物品、地点、机构五大类实体,并提取五类实体之间的关系;

将所提取出的事件以实体、关系、实体的形式存储为三元组的格式,符号记为(h,r,t),其中h表示事件的主实体,r表示关系,t表示事件的客实体。

s3:利用图数据库对训练文本中的行业词实体进行匹配,定义知识表示学习transe模型的目标函数;通过融合训练文本中的实体向量与图数据库中的结构信息,对模型进行训练,学习实体向量和关系向量的表示。

图2为本发明面向法律文本的知识表示学习方法中知识表示学习的训练的流程示意图。其中,知识表示学习的训练是采用一种优化的transe模型,对法律行业训练文本和图数据库结构信息进行融合,其方法包括:

(1)利用hs和ts分别表示图数据库中的实体向量,可以从结构信息的角度建立头实体和尾实体的表示,这种表示和transe模型相同;

(2)利用图数据库对训练文本中的行业词实体进行匹配,得到基于训练文本的实体向量表示hw和tw,可以从训练文本的角度建立头实体和尾实体的表示;

利用预训练语言模型与图数据库相匹配得到实体向量表示的方法为:

(2.1)获取法律行业训练文本。通常,行业训练文本中会存在行业词。行业词可以是行业所特有的词,即仅在该行业中存在特殊意义的词。例如,“牛磺酸颗粒”是医疗行业的行业词。

(2.2)利用掩码语言模型对法律行业训练文本中的行业词进行掩码,得到掩码训练文本;

(2.3)将掩码训练文本输入至预训练语言模型,学习得到行业训练文本中行业词的知识表示;

(2.4)利用图数据库中的实体与法律训练文本进行匹配,进而可以得到由预训练语言模型学习到的实体向量表示,即hw和tw。

(3)形成优化后的知识表示学习模型的能量函数:

e(h,r,t)=||hs+r-ts||+||hw+r-tw||+||hs+r-tw||+||hw+r-ts||

式中,第一部分是基于结构表示的能量函数,第二部分是基于文本信息的能量函数,第三和第四部分是基于结构信息和文本信息融合的能量函数。能量函数把这两种类型的实体表示映射到了含有所有四个能量函数关系表示的相同向量空间,两种类型的表示会相互促进;

通过该学习模型可以很好的融合文本信息;更准备的表达实体、关系向量。

其中,掩码语言模型可以用于掩码行业词,是利用大规模行业词典定制而来的,大规模行业词典可以是利用数据挖掘技术从海量行业语料中挖掘而来。行业词典挖掘方法,其过程如下:

首先,收集行业语料;

其次,对行业语料进行切词,得到词语集合;

然后,统计词语集合中的词语的分布,得到分布结果。这里,统计每个词语在行业语料中出现的频率;

最后,基于分布结果从词语集合中选取词语,生成行业词典。其中,行业词典可以作为掩码语言模型。这里,首先选取出现频率高的词语,然后人工删除通用词,即可得到行业词典。

具体地,首先利用掩码语言模型(masklanguagemodel)识别出法律行业训练文本中的行业词,然后对行业词进行遮挡。

(4)通过知识表示学习模型的目标函数获得实体和关系的嵌入表示,更充分地表现出知识图谱中实体和关系的特征,好处:从而获得更加高效的实体和关系的嵌入表示。其目标函数:

式中,γ是一个边缘超参数,t是训练集,t′是t的负样本集;

(5)将经过预训练语言模型得到的hw与tw,随机初始化的hs、r、ts作为知识表示学习模型的初始输入,按照transe模型的训练方式,利用随机梯度下降法最优化目标函数,对模型进行训练求解,学习实体向量和关系向量的表示。

知识表示学习模型的具体训练方法为:

(5.1)确定训练集,超参数γ,学习率λ,嵌入维度k,经过预训练的文本实体向量hw与tw;

(5.2)初始化图数据库中的关系向量与实体向量,对于每个向量的每个维度在内随机取一个值,k为低维向量的维数,对所有的向量初始化之后要进行归一化;

(5.3)进入循环:采用minibatch,一批一批的训练会加快训练速度,对于每批数据进行负采样(将训练集中的三元组某一实体随机替换掉),t_batch初始为一个空列表,然后向其添加由元组对(原三元组,打碎的三元组)组成的列表:

t_batch=[([h,r,t],[h',r,t']),……]

获得t_batch后进行训练,采用梯度下降进行调参,优化目标函数,直到迭代次数达到预先设定的最大迭代次数,实现对知识表达的学习。

本发明协同学习知识库中的结构化信息和训练文本描述信息,通过本发明面向法律文本的知识表示学习方法所构思的以上技术方案,能够取得以下有益效果:

以知识表示学习算法对三元组进行实体、关系嵌入,在已构建的知识图谱基础上结合文本描述信息进行训练和学习,对推理工作具有重要意义。

显著提升了计算效率,以往对于知识图谱采用图算法计算实体间的语义和推理关系,计算复杂度高,可扩展性差,而表示学习得到的分布式表示,可以高效实现语义相似度计算等操作。

有效缓解数据稀疏问题,表示学习将实体投影到统一的低维空间中,使得每个实体对应一个稠密向量,因此可以度量任意两个实体之间的语义相似度。

实现了异质信息融合,通过表示学习模型将不同来源的实体投影到同一个语义空间中,建立统一的表示空间,实现异质实体间的语义相似度关联计算,实现了多知识库的信息融合。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1