电网故障诊断查询系统的稀疏知识图谱补全方法及系统与流程

文档序号:37005600发布日期:2024-02-09 12:51阅读:18来源:国知局
电网故障诊断查询系统的稀疏知识图谱补全方法及系统与流程

本发明属于电网故障诊断和知识图谱补全,具体涉及一种电网稀疏知识图谱补全方法及系统。


背景技术:

1、电网故障诊断是一项重要的业务,需要及时、准确地诊断出故障,以确保电网的安全和可靠运行。为了提高电网故障诊断的效率和准确性,构建一个全面、完整的知识图谱是至关重要的。知识图谱是指将现实世界的实体和它们之间的关系以图谱的形式表示出来,通过知识图谱可以帮助更好地理解和分析实体之间的关系,进而实现自动化的故障诊断。在电网故障诊断业务中,实体和关系的种类非常多样化,电网系统中涉及的各种设备、线路、电压等实体都可能成为故障的来源或者症结所在。同时,各种连接、隔离、故障等关系的出现更是增加了诊断难度。此外,电网故障诊断业务中涉及的图文数据也十分丰富多样,包括电力设备的图纸、技术手册、现场照片等,这些数据中蕴含着大量的实体和关系信息。但是,由于数据来源和格式的不同,这些信息常常呈现出分散、不规范的特点,使得基于电网的知识图谱较为稀疏。知识图补全技术(knowledge graph completion,kgc)可以自动预测并补全知识图(knowledge graph,kg)中缺失的三元组,从而丰富知识图谱的信息,提高问答的效率。以往的方法主要集中在对知识图的结构进行建模,但这种方法在知识图较为稀疏时表现不佳。知识图越稀疏,平均每个实体拥有的邻居就越少,从而导致结构信息不足以描述它们之间的关系。

2、除了图结构之外,实体与关系通常也由文本名称或描述来解释,从而作为额外的信息来缓解图的高稀疏性问题。最近,devlin等人的预训练语言模型(pre-trainedlanguage modules,plms)取得了巨大的成功,越来越多的研究学者将plms用于kgc任务。markowitz等人将实体和关系的名称或描述连接起来,并将它们输入plms来进行预测或嵌入学习。然而,这些方法可能无法有效地融合知识图结构。另一方面,wang等人提出的star模型显示,基于文本的模型在mrr和hits@1上表现较弱,但在hits@10上远远超过了基于结构的模型。

3、针对图结构建模,以往关于kgc的研究主要是通过低维几何空间中的空间测量或语义匹配来探索图结构,如bordes等人的transe模型、yang等人的distmult模型、dettmers等人的conve模型和等人的tucker模型。schlichtkrull等人在2018年首次在kgc任务上使用图神经网络(graph neural network,gnn)提出r-gcn模型。随后在2019年vashishth等人提出的compgcn网络、nathani等人提出的kbgat(et al.,2019)和shang等人提出的网络sacn具有了更强大的信息聚合功能,并在任务上取得了良好的性能。然而,这种学习图嵌入对图结构建模的方法过于依赖于知识图内的关联信息,因此这种方法对图稀疏性很敏感。

4、针对文本信息建模,除了图结构之外,文本信息可以被认为是知识图表示学习任务的补充。xu等人在2016年使用cnn或lstm从实体的描述中学习实体的嵌入。最近的工作集中于使用预训练模型来编码文本信息。yao等人2019年提出kg-bert模型,应用bert模型直接对实体-关系-实体三元组的自然语言文本进行编码。然而,因为任务中缺乏知识图的结构特征,因此模型性能较为平庸。与kg-bert不同,lv等人2022年提出的pkgc模型将每个三元组及其支持信息转换为自然的提示句,但也存在忽略图结构的问题。

5、因此现有的基于电网设备信息知识图谱的问答系统因为图谱的稀疏特性导致了问答系统存在问答效率比较低和准确率较低问题。


技术实现思路

1、本发明的目的是为了解决现有的基于设备信息知识图谱的问答系统因为图谱的稀疏特性导致的问答系统效率和准确率较低问题。

2、电网故障诊断查询系统的稀疏知识图谱补全方法,所述方法利用电网设备知识图补全模型框架实现网故障诊断查询系统的稀疏的电网设备知识图进行补全;

3、所述电网设备知识图表示其中,

4、ε和是实体和关系的集合,实体集合包括电网系统中涉及的各种设备、线路、电压实体,实体关系集合包括实体的连接、隔离、故障关系;

5、是中所有事实三元组的集合,包括显式的事实和隐式事实所有实体和关系的名称或描述由给出,其中表示描述实体ei的文本描述;

6、每个三元组(h,r,t)由查询q=(h,r,?)和标签t组成,标签t是与实体h具有关系r的另一电网故障实体;将三元组集合划分为查询集q={q1,...,qn}和标签集y={y1,...,yn},其中ym={e|(h,r,e)is υalid,e∈ε}为查询qm=(h,r,?)的真标签;相应的,划分为ql和yl,划分为qu和yu;

7、知识图补全的任务目标是给定(h,r,?)的情况下预测t,或者在给定(?,r,t)的情况下预测h;对查询(?,r,t)补充反向查询(h,r,?),采用(h,r,?)来表示两个方向的查询,即知晓设备实体与属性后查询属性值;

8、利用电网设备知识图补全模型框架实现网故障诊断查询系统的稀疏知识图谱补全的过程包括以下步骤:

9、步骤一、训练基于文本的网络模型pπ:

10、将知识图中的电网故障设备与故障原因(h,r,?)全部提取出来,然后通过pπ预测尾实体,即属性值;给定一个查询(h,r,?),将头实体h和关系r的文本连接起来,然后将顺序连接的词送入pπ中,pπ最后一层的输出作为最终分类器的输入,分类器输出所有尾实体属性值的概率;

11、步骤二、训练基于结构的网络模型pθ,基于结构的网络模型pθ输出电网故障知识的图结构表示;

12、步骤三、采用变分em算法和互相学习算法的联合训练方法对基于文本的网络模型pπ和基于结构的网络模型pθ进行训练:

13、将未观察到的三元组视为隐变量,将对数似然函数log pθ(yl|ql,qu)划分为证据下限elbo和kl散度的总和;

14、采用em算法最大化对数似然函数,em算法即期望最大化算法,同时针对基于文本的网络模型pπ和基于结构的网络模型pθ进行互相学习;

15、在em算法的e步中固定网络pθ,通过最小化损失函数来优化网络pπ;αt、αs是权衡损失重要性的超参数;

16、其中,是观察到的查询qn的真实标签集;

17、其中,是三元组tm的邻居的集合,表示给定查询和其邻居的尾实体预测值后结构网络中查询的尾实体的概率分布;

18、

19、激励pπ从pθ中进行知识蒸馏,pπ从pθ中进行知识蒸馏的过程在基于文本的网络模型pπ和基于结构的网络模型pθ进行互相学习的过程中完成;

20、在em算法的m步中固定网络pπ,通过最小化损失函数来优化网络pθ;βt、βs是权衡损失重要性的超参数;

21、其中,nb(tm)表示tm的所有三元组邻居集合,表示tm的三元组邻居集合与显式训练的三元组集合的交集;

22、

23、激励pθ从pπ中进行知识蒸馏,pθ从pπ中进行知识蒸馏的过程在基于文本的网络模型pπ和基于结构的网络模型pθ进行互相学习的过程中完成。

24、优选地,基于文本的网络模型采用bert网络模型。

25、优选地,基于结构的网络模型采用compgcn网络模型。

26、进一步地,将对数似然函数log pθ(yl|ql,qu)划分为证据下限elbo和kl散度的总和的形式如下:

27、

28、其中,pθ(yl|ql,qu)是基于结构网络实现的变分分布,ql表示数据集中明确的显式关系查询,qu表示数据集中隐式关系查询,该分布表示在显式和隐式事实存在的情况下真实结果在基于结构的网络中的概率;pθ(yu|yl,q)为给定查询集合和查询集合中包含的显式事实后网络模型下的剩余隐式事实的概率分布;pπ(yu|qu)是基于文本模型pπ实现的变分分布,其表示在隐式事实存在的情况下隐式结果在文本模型中的概率。

29、进一步地,针对基于文本的网络模型pπ和基于结构的网络模型pθ进行互相学习的过程包括以下步骤:

30、步骤a1、给定一个训练案例(h,r,?),对于基于结构网络pθ和基于文本网络pπ,计算预测分布pθ(y|q)和pπ(y|q);

31、步骤a2、通过最小化来激励pπ从pθ中学习知识;

32、步骤a3、重新计算pπ(y|q),通过最小化来激励pθ从pπ中学习知识。

33、进一步地,采用em算法最大化对数似然函数的过程中,应用平均场假设对pπ(tu|qu)进行因式分解ym为隐式事实对应标签集中的标签,qm为隐式事实对应查询集中的查询;给定电网故障查询集合后,文本模型输出正确的尾实体集合的概率等于集合内每个元素文本模型输出正确的尾实体的概率pπ(ym|qm)之积,通过最小化近似pπ(yu|qu);

34、在平均场假设下,将最小化等价为最大化下面的式子:

35、

36、其中,表示分布pπ(ym|qm)的熵;是三元组tm的邻居的集合,包括显式和隐式的事实;具体而言,对于tm的每个邻居,如果这个邻居是显式的,采用真实标签,否则其标签便从分布中采样;其中,nb(tm)表示tm的所有三元组邻居集合,分别为三元组邻居集合对应的查询集和标签集;

37、通过抽样逼近的期望项,进而确定em算法e步的目标函数中的

38、电网故障诊断查询系统的稀疏知识图谱补全系统,所述系统包括:

39、电网设备知识图加载单元,用于加载已有的电网故障诊断查询系统的电网设备知识图;所述电网设备知识图表示其中,

40、ε和是实体和关系的集合,实体集合包括电网系统中涉及的各种设备、线路、电压实体,实体关系集合包括实体的连接、隔离、故障关系;

41、是中所有事实三元组的集合,包括显式的事实和隐式事实所有实体和关系的名称或描述由给出,其中表示描述实体ei的文本描述;

42、每个三元组(h,r,t)由查询q=(h,r,?)和标签t组成,标签t是与实体g具有关系r的另一电网故障实体;将三元组集合划分为查询集q={q1,...,qn}和标签集y={y1,...,yn},其中ym={e|(h,r,e)is υalid,e∈ε}为查询qm=(h,r,?)的真标签;相应的,划分为ql和yl,划分为qu和yu;

43、知识图补全的任务目标是给定(h,r,?)的情况下预测t,或者在给定(?,r,t)的情况下预测h;对查询(?,r,t)补充反向查询(h,r,?),采用(h,r,?)来表示两个方向的查询,即知晓设备实体与属性后查询属性值;

44、知识图谱补全单元,利用电网设备知识图补全模型框架实现网故障诊断查询系统的稀疏的电网设备知识图进行补全;知识图谱补全单元包括基于文本的网络模型pπ预训练模块、基于结构的网络模型pθ预训练模块和联合训练模块;其中,

45、基于文本的网络模型pπ预训练模块,用于预训练基于文本的网络模型pπ:

46、将知识图中的电网故障设备与故障原因(h,r,?)全部提取出来,然后通过pπ预测尾实体,即属性值;给定一个查询(h,r,?),将头实体h和关系r的文本连接起来,然后将顺序连接的词送入pπ中,pπ最后一层的输出作为最终分类器的输入,分类器输出所有尾实体属性值的概率;

47、基于结构的网络模型pθ预训练模块:用于预训练基于结构的网络模型pθ,基于结构的网络模型pθ输出电网故障知识的图结构表示;

48、联合训练模块:采用变分em算法和互相学习算法的联合训练方法对基于文本的网络模型pπ和基于结构的网络模型pθ进行训练:

49、将未观察到的三元组视为隐变量,将对数似然函数log pθ(yl|ql,qu)划分为证据下限elbo和kl散度的总和;

50、采用em算法最大化对数似然函数,em算法即期望最大化算法,同时针对基于文本的网络模型pπ和基于结构的网络模型pθ进行互相学习;

51、在em算法的e步中固定网络pθ,通过最小化损失函数来优化网络pπ;αt、αs是权衡损失重要性的超参数;

52、其中,是观察到的查询qn的真实标签集;

53、其中,是三元组tm的邻居的集合,表示给定查询和其邻居的尾实体预测值后结构网络中查询的尾实体的概率分布;

54、

55、激励pπ从pθ中进行知识蒸馏,pπ从pθ中进行知识蒸馏的过程在基于文本的网络模型pπ和基于结构的网络模型pθ进行互相学习的过程中完成;

56、在em算法的m步中固定网络pπ,通过最小化损失函数来优化网络pθ;βt、βs是权衡损失重要性的超参数;

57、其中,nb(tm)表示tm的所有三元组邻居集合,表示tm的三元组邻居集合与显式训练的三元组集合的交集;

58、

59、激励pθ从pπ中进行知识蒸馏,pθ从pπ中进行知识蒸馏的过程在基于文本的网络模型pπ和基于结构的网络模型pθ进行互相学习的过程中完成。

60、优选地,基于文本的网络模型采用bert网络模型。

61、优选地,基于结构的网络模型采用compgcn网络模型。

62、进一步地,针对基于文本的网络模型pπ和基于结构的网络模型pθ进行互相学习的过程包括以下步骤:

63、步骤a1、给定一个训练案例(h,r,?),对于基于结构网络pθ和基于文本网络pπ,计算预测分布pθ(y|q)和pπ(y|q);

64、步骤a2、通过最小化来激励pπ从pθ中学习知识;

65、步骤a3、重新计算pπ(y|q),通过最小化来激励pθ从pπ中学习知识。

66、有益效果:

67、本发明引用互相学习机制,在基于电网故障的知识图谱补全过程中,让文本模型和图模型分别充当“学生”和“老师”的角色,在此过程中不仅对表达性的知识进行共提取,而且在此基础中融合泛化能力,使得联合学习模型能够很好地获取泛化能力,因此可以有效对现有的基于电网故障的知识图谱补全方法中的泛化能力进行增强。同时本发明的联合模型框架中还集成了致密化稀疏图的模块来进一步缓解图的高稀疏性,从而使得稀疏的知识图谱可以自动地学习事实来增强图的浓稠度。即本发明提出的知识融合框架vem2l以解决稀疏图下的kgc问题,这可以有效弥补现有的知识图谱补全方法只考虑文本信息或只考虑图结构信息不足的缺陷。本发明能够有效提升基于知识图谱问答系统的效率和准确性。通过对三个稀疏基准的广泛实验和详细分析,实证证明了本发明提出的框架的有效性与优越性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1