一种基于电网监控领域本体特征词表的实体消歧方法

文档序号:25734804发布日期:2021-07-06 18:43阅读:91来源:国知局
一种基于电网监控领域本体特征词表的实体消歧方法

本发明涉及电网监控领域和人工智能领域,尤其是一种基于电网监控领域本体特征词表的实体消歧方法。



背景技术:

随着电网监控领域的告警信息、相关规章和处置经验日益增长,如何将多源数据融合在一起并有效地结合利用是电网监控领域目前的研究目标,于是电网监控领域引入了知识图谱来存储关联海量的数据。

但是,如果单纯将大量的数据存储到图谱中,虽然提高了图谱的覆盖率,但这些数据大部分并不规范,可能会导致数据的冗余甚至会出现相互矛盾的问题。

这是因为数据来源于不同的数据源,这些数据的表达大部分是不规范、不统一的,可能出现一个实体有多个名称或者多个实体可以归约到同一个概念的情况。

以变电站的sf6气压信号为例,在数据处理中,可以发现sf6信号主要有以下几种情况:开关其它气室sf6气压低告警、开关气室sf6气压低闭锁、开关气室sf6气压低告警、开关sf6气压低闭锁、开关sf6气压低告警。这样的数据是冗余的,无法作为模式层构建图谱,所以需要进行抽象化处理,基于监控业务特点和人工经验,可以将上述五种情况都归纳为sf6压力异常。

为适应大量数据的融入,国内外专家学者已针对多源数据实体消歧展开大量研究工作,大多研究基于相似度比较算法,但是其准确率不高。所以亟需一种有效的实体消歧方法。



技术实现要素:

本发明所要解决的技术问题在于,提供一种基于电网监控领域本体特征词表的实体消歧方法,能够处理日渐复杂的电网监控领域数据,实现多源数据的有效融合以及实体消歧。

为解决上述技术问题,本发明提供一种基于电网监控领域本体特征词表的实体消歧方法,包括如下步骤:

(1)通过改进相似度比较算法,将文本语义相似比较和结构相似比较结合起来,形成新的相似度比较方法;

(2)将部分数据按上述改进的算法进行相似度比较,形成不同的类;

(3)经过人工检验,分类正确后作为本体词表进行存储;

(4)当有新数据进行融合时,直接按不同本体进行相似度计算,通过与各类中的数据进行比较后取均值,若哪类数据的均值最大且超过设置的最小值,则将数据归于此类。

优选的,步骤(1)具体为:

(11)将文本语义相似比较和结构相似比较结合起来,如下式:

p=ɑp文本相似+(1-ɑ)p结构相似

其中p代表概率,ɑ代表这部分概率所占的比重;

(12)文本相似度算法选择使用余弦相似度算法,即用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异大小的度量,余弦值越接近1,夹角越接近0度,也就表明两个向量越相似,计算公式如下:

其中xi,yi代表向量,θ代表向量间的夹角;

(13)结构相似度算法使用社区检测算法,即根据不同对象在图谱中的连接关系进行比较,如果两者有着共同的连接对象或者连接对象差不多则将他们归为一类,用q来衡量归类的效果,q越大,归类效果越好,计算公式如下:

其中avw代表两个节点的连接情况,ki代表节点的度,δ(cv,cw)用来判断节点v和w是否在一个社区。

优选的,步骤(2)具体为:

(21)当需要对多源数据进行实体消歧的时候,先取一部分数据出来作为样本;

(22)通过步骤(1)的改进相似度比较方法,将样本分成不同的类别。

优选的,步骤(3)具体为:

(31)通过步骤(2)获得了不同类别的数据,但此时的数据划分并不一定准确;

(32)对划分好的数据进行检验,依据相关的标准或者让专业人士进行核对,确保划分的类别使准确无误的。

优选的,步骤(4)具体为:

(41)当有新数据进行融合时,可直接按步骤(3)划分好的不同本体类别进行相似度计算;

(42)通过与各类中的数据进行比较后取均值,若哪类数据的均值最大且超过设置的最小值,则将数据归于此类。

本发明的有益效果为:(1)本发明提出的基于电网监控领域本体特征词表的实体消歧方法,在相似度比较算法的基础上,先将部分实体分成不同的类别再对其余实体进行比较归类,相较于文本相似度算法该模型提高了融合的准确率;(2)本发明提出的基于电网监控领域本体特征词表的实体消歧方法,在融合之余生成了监控领域本体词表,方便更多数据的融入。

附图说明

图1为本发明的方法流程示意图。

图2为本发明基于相似度比较的消歧流程示意图。

图3为本发明电网监控领域本体词表构建流程示意图。

图4为本发明基于本体词表融合的相似度比较流程示意图。

图5为本发明基于领域本体词表融合的实体消歧流程示意图。

具体实施方式

如图1所示,一种基于电网监控领域本体特征词表的实体消歧方法,包括如下步骤:

(1)通过改进相似度比较算法,将文本语义相似比较和结构相似比较结合起来,形成新的相似度比较方法;

(2)将部分数据按上述改进的算法进行相似度比较,形成不同的类;

(3)经过人工检验,分类正确后作为本体词表进行存储;

(4)当有新数据进行融合时,直接按不同本体进行相似度计算,通过与各类中的数据进行比较后取均值,若哪类数据的均值最大且超过设置的最小值,则将数据归于此类。

下面对本发明技术方案进行详细说明:

步骤1:通过改进相似度比较算法,将文本语义相似比较和结构相似比较结合起来,形成新的相似度比较方法,主要实施步骤如下所述:

(1)将文本语义相似比较和结构相似比较结合起来,如下式:

p=ɑp文本相似+(1-ɑ)p结构相似

其中p代表概率,ɑ代表这部分概率所占的比重;

(2)文本相似度算法选择使用余弦相似度算法,即用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异大小的度量,余弦值越接近1,夹角越接近0度,也就表明两个向量越相似,计算公式如下:

其中xi,yi代表向量,θ代表向量间的夹角;

(3)结构相似度算法使用社区检测算法,即根据不同对象在图谱中的连接关系进行比较,如果两者有着共同的连接对象或者连接对象差不多则将他们归为一类,用q来衡量归类的效果,q越大,归类效果越好,计算公式如下:

其中avw代表两个节点的连接情况,ki代表节点的度,δ(cv,cw)用来判断节点v和w是否在一个社区。

步骤2:将部分数据按上述改进的算法进行相似度比较,形成不同的类,主要实施步骤如下所述:

(1)当需要对多源数据进行实体消歧的时候,先取一部分数据出来作为样本;

(2)通过步骤(1)的改进相似度比较方法,将样本分成不同的类别,分类流程如图2所示。

步骤3:经过人工检验,分类正确后作为本体词表进行存储,具体实现步骤如下所述:

(1)通过步骤(2)获得了不同类别的数据,但此时的数据划分并不一定准确;

(2)对划分好的数据进行检验,依据相关的标准或者让专业人士进行核对,确保划分的类别使准确无误的,电网监控领域本体词表构建流程如图3所示。

步骤4:利用基于光纤通道通讯的配电网多端信息同步技术,实现同步端与参考端的信号同步,实现配电线路多端差动保护同步,具体实现步骤如下所述:

(1)当有新数据进行融合时,可直接按步骤(3)划分好的不同本体类别进行相似度计算;

(2)通过与各类中的数据进行比较后取均值,若哪类数据的均值最大且超过设置的最小值,则将数据归于此类,基于本体词表融合的相似度比较流程如图4所示;

(3)上述便是基于基于领域本体词表融合的实体消歧流程,整体流程如图5所示。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1