一种基于配电网知识图谱的电力调度文本实体链接方法与流程

文档序号:21695325发布日期:2020-07-31 22:31阅读:177来源:国知局
一种基于配电网知识图谱的电力调度文本实体链接方法与流程

本发明涉及电力领域,尤其涉及一种基于配电网知识图谱的电力调度文本实体链接方法。



背景技术:

在配电网调度自动化与信息化的建设中,利用智能虚拟调度员代替人工调度员进行现场调度信息的接收、验证与发送等,有利于减少调度员的单一重复性工作量,提高配电调度的自动化程度和调度员的分析决策效率。由于配电网调度涉及到大量的电力设备以及相关的设备状态和操作信息,近年来已有不少研究采用知识图谱对配电调度信息进行更为有效的组织和分析。但在实际调度工作中,现场人员通常都以自然语言的形式对调度信息进行复诵或汇报,在通过语音识别技术将现场人员语音转化为调度文本后,还需要将非结构化的调度文本链接到知识图谱的相应实体,才能借助知识图谱的知识推理能力进行调度信息的分析与验证。

在电力领域知识图谱的相关研究中,有不少研究对电力文本的实体链接方法进行了探索。一些研究构建了电网调度自动化系统知识图谱,为系统故障分析提供辅助,但在故障诊断应用时仍需要人工定位知识图谱中与故障信息相关的实体;一些研究采用字符串直接匹配的方法,将文本中的关键词链接到知识图谱中的相关实体,但是直接匹配的实体链接方法难以深入理解文本和实体的语义信息,在应用于调度文本实体链接时无法处理文本中的实体表述差异问题(如“刀闸”和“闸刀”)和实体不连续问题(如“汛洋298、汛北299线”的实体“汛洋298线”不连续),也无法适应由语音识别偏差造成的文本信息与实际信息的差异;一些研究通过设置模糊匹配的规则,对半结构化的故障告警文本进行实体链接,但是模糊匹配规则应用于非结构化的调度文本时存在较大局限性,难以适应实际电力文本表述方式的变化;一些研究采用word2vec方法从实际电力文本中自动挖掘词义的关联关系,解决了实体链接过程中部分实体表述差异的问题,但仍无法处理调度文本实体链接时存在的语音识别偏差问题和实体不连续问题。



技术实现要素:

为解决上述问题,本发明提出一种基于配电网知识图谱的电力调度文本实体链接方法。

一种基于配电网知识图谱的电力调度文本实体链接方法,包括:

构建配电网知识图谱;

提取电力调度文本的语义特征;

提取电力调度文本的发音特征;

提取电力调度文本的词性特征;

基于电力调度文本的语义特征、发音特征以及词性特征,构建电力调度信息匹配模型;

利用所述电力调度信息匹配模型,将电力调度文本与配电网知识图谱中的所有实体依次进行匹配,所有被电力调度信息匹配模型判定为匹配的实体即为电力调度文本在配电网知识图谱中的对应实体,从而完成面向配电网知识图谱的电力调度文本的实体链接。

优选的,所述构建配电网知识图谱包括:

利用配电网台账和操作规范,构建包含配电网电力站点的类型和名称、设备的类型和名称、设备状态类型和操作类型的配电网知识图谱。

优选的,所述提取电力调度文本的语义特征包括:

对电力调度文本进行分词;

采用word2vec方法基于skip-gram模型生成每个词的语义特征向量。

优选的,所述采用word2vec方法基于skip-gram模型生成每个词的语义特征向量包括:

假设电力调度文本语料中共有v个词,待生成的语义特征向量为d维,skip-gram模型的窗口大小为2,将某一句调度文本第i个词的one-hot向量wi输入skip-gram模型,经过输入矩阵t1、输出矩阵t2和softmax函数的变换后,将向量的最大值位置取为1,其余位置取为0,得到上下文共4个词的one-hot向量预测w'i-2、w'i-1、w'i+1和w'i+2,并比较它们与真实one-hot向量的差异,通过反向传播算法训练矩阵t1和t2的参数;

训练完成后,输入矩阵t1的每一行就代表语料中一个词的d维语义特征向量。

优选的,所述提取电力调度文本的发音特征包括:

假设电力调度文本中字数最多的词包含m个字,最终要生成的每个词的发音特征向量维数与语义特征向量维数相同,为d维,则每个字的发音特征向量维数为:

式中:为向下取整符号;

利用skip-gram模型训练字的发音特征向量,输入是每个字拼音的one-hot向量,输出是对每个字前后4个字的拼音预测,训练完成后得到每个字拼音的向量,且发音相同的字具有相同的向量;

对于一个包含n个字的词,其发音特征向量的前c×n维由这n个字的发音特征向量拼接形成,其中第(n-1)×c+1至第n×c个特征值代表第c个字的发音特征向量,其中n=1,2,…,n,剩余的d-c×n维特征值取为0,从而得到电力调度文本每个词基于pinyin2vec方法的发音特征向量。

优选的,所述提取电力调度文本的词性特征包括:

假设电力调度文本中共包含v个词和v'种词性,要生成的词性特征向量维数与语义特征向量维数相同,为d维,将某一句调度文本第i个词的one-hot向量wi输入模型;

与v行d列的输入矩阵t1'相乘得到一个d维向量,再将d维向量和输出矩阵t2'相乘,再经过softmax函数和向量最大值置1等变换,得到词性的one-hot向量预测;

比较词性one-hot向量预测结果与真实词性one-hot向量的差异,通过反向传播算法训练矩阵t1'和t2'的参数,训练完成后,输入矩阵t1'的每一行就代表语料中一个词的d维词性特征向量。

优选的,所述基于电力调度文本的语义特征、发音特征以及词性特征,构建电力调度信息匹配模型包括:

基于电力调度文本的语义特征、发音特征以及词性特征,将分词后的知识图谱实体和电力调度文本分别生成为特征矩阵,矩阵的每一行为一个词的特征向量;

采用宽卷积的方法,对知识图谱实体和电力调度文本的特征矩阵分别进行卷积运算;

对综合卷积向量进行k最大均值池化(k-maxaveragepooling,kma),生成知识图谱实体表示向量x1和调度文本表示向量x2,再用相似性矩阵u计算相似性分数xsim:

将x1、xsim和x2拼接为联合向量后,用softmax分类器预测知识图谱实体和电力调度文本是否匹配。

优选的,所述基于电力调度文本的语义特征、发音特征以及词性特征,将分词后的知识图谱实体和电力调度文本分别生成为特征矩阵,矩阵的每一行为一个词的特征向量包括:

在lsf-scnn模型的基础上,加入表征字面联系的新增维度,计算公式为:

式中:lit函数表示某个词的字面联系特征值;ed函数表示求两个序列的编辑距离;char1j表示文本1第j个词的字序列;char2k表示文本2第k个词的字序列;

在lsf-scnn模型的基础上,在发音特征矩阵的lsf中加入表征发音联系的新增维度,计算公式为:

式中:pron函数表示某个词的发音联系特征值;pinyin1j表示文本1第j个词的拼音序列;pinyin2k表示文本2第k个词的拼音序列;

在lsf-scnn模型的基础上,在词性特征矩阵的lsf中加入表征词性联系的新增维度,计算公式为:

式中:part函数表示某个词的词性联系特征值;same函数在括号内两个词性相同时为0,否则为1;pos1j表示文本1第j个词的词性;pos2k表示文本2第k个词的词性。

优选的,所述采用宽卷积的方法,对知识图谱实体和电力调度文本的特征矩阵分别进行卷积运算包括:

每个卷积窗口按照特征矩阵层数相应地设置为3层;

当卷积窗口在知识图谱实体特征矩阵的某一位置完成一次卷积运算后,将生成分别代表语义、发音和词性特征的3个卷积结果,构成3维向量r1

在电力调度信息匹配模型中引入注意力向量a1,用向量r1和a1的内积作为综合卷积结果,a1的3个维度值作为参数在模型训练过程中自动学习;

调度文本特征矩阵的卷积过程引入注意力向量a2,用卷积生成的向量r2和a2的内积作为综合卷积结果,a2的3个维度值作为参数在模型训练过程中自动学习;

卷积窗口在多个位置进行卷积后,所有位置的综合卷积结果将形成一个综合卷积向量,而在实际卷积过程中通常采用多个卷积窗口同时进行卷积运算,从而形成多个综合卷积向量。

通过使用本发明,可以实现以下效果:对电力调度文本和知识图谱实体进行多维度特征提取,并构建电力调度信息匹配模型进行电力调度文本和知识图谱实体的匹配,从而提高电力调度文本实体链接的准确率。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明一实施例一种基于配电网知识图谱的电力调度文本实体链接方法的示意性流程图;

图2是本发明一实施例一种基于配电网知识图谱的电力调度文本实体链接方法中配电网知识图谱的示意图;

图3是本发明一实施例一种基于配电网知识图谱的电力调度文本实体链接方法中skip-gram模型的示意图;

图4是本发明一实施例一种基于配电网知识图谱的电力调度文本实体链接方法中词性特征生成模型的示意图;

图5是本发明一实施例一种基于配电网知识图谱的电力调度文本实体链接方法中电力调度信息匹配模型的示意图;

图6是本发明一实施例一种基于配电网知识图谱的电力调度文本实体链接方法中所有模型各类实体链接准确率的示意图。

具体实施方式

以下结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。

实体链接(entitylinking,el)是指将文本中的实体提及映射到给定的知识库(knowledgebase,kb),在许多领域起到了非常重要的基础作用,例如问题回答、语义搜索和信息提取。在自然语言处理领域,实体链接方法可以分为无监督学习方法(包括基于概率生成模型的方法、基于主题模型的方法、基于图的方法等)和有监督学习方法,相对而言有监督学习方法能达到更高的实体链接准确率。

本发明的基本思想是为了解决电力调度文本实体链接时存在的语音识别偏差、实体表述差异和实体不连续等问题,提出了一种面向配电网知识图谱的电力调度文本实体链接方法,可以对电力调度文本和知识图谱实体进行多维度特征提取,并构建电力调度信息匹配模型进行电力调度文本和知识图谱实体的匹配,从而提高电力调度文本实体链接的准确率。

基于以上思想,本发明提出了一种基于配电网知识图谱的电力调度文本实体链接方法,如图1所示,包括以下步骤:

s1:构建配电网知识图谱。

如图2所示,利用配电网台账和操作规范,形成包含配电网电力站点的类型和名称、设备的类型和名称、设备状态类型和操作类型等实体的知识图谱。

s2:提取电力调度文本的语义特征。

在提取电力调度文本的语义特征时,相比于对整个句子进行特征提取,对每个词的语义特征进行提取可以捕捉到更小粒度的文本语义信息。因此,首先对调度文本进行分词,然后采用word2vec方法生成每个词的语义特征向量。word2vec包括两种结构,分别为连续词袋(continuousbag-of-words,cbow)和skip-gram,其中skip-gram能充分地提取低频词的语义特征,更适合于包含大量地名、编号等低频词语的电力调度文本,因此采用skip-gram模型生成电力调度文本的每个词的语义特征向量。skip-gram模型结构如图3所示,假设调度文本语料中共有v个词(不含重复词),要生成的语义特征向量为d维,skip-gram模型的窗口大小为2(即分别对中心词前2个词和后2个词进行预测),将某一句调度文本第i个词(中心词)的one-hot向量wi(v维)输入模型,经过输入矩阵t1(v行d列)、输出矩阵t2(d行v列)和softmax函数的变换后,将向量的最大值位置取为1,其余位置取为0,得到上下文共4个词的one-hot向量预测w'i-2、w'i-1、w'i+1和w'i+2(均为v维),并比较它们与真实one-hot向量的差异,通过反向传播算法训练矩阵t1和t2的参数。训练完成后,输入矩阵t1的每一行就代表语料中一个词的d维语义特征向量。

s3:提取电力调度文本的发音特征。

由于现场工作人员普通话常常带有口音,加上专有名词本身的语音识别难度较大,现场输入的语音在转换成文本时,常常会在专有名词上出现文字错误,例如将“绕城站”识别为“涝城站”等。同时,口音的问题可能导致某些词的实际发音与正确发音出现较大差异,甚至不局限于平舌翘舌、前鼻后鼻等较为常见的发音错误。为此,借鉴word2vec方法,构建pinyin2vec方法对发音差异较大的词之间潜在的联系进行挖掘。pinyin2vec方法仍基于skip-gram结构,但由于口音问题通常是对单个字的发音产生影响,所以首先生成电力调度文本每个字的发音特征向量。假设调度文本语料中字数最多的词包含m个字,最终要生成的每个词的发音特征向量维数与语义特征向量维数相同,为d维,则每个字的发音特征向量维数为:

式中:为向下取整符号。求得特征向量维数c后,可用图2的模型训练字的发音特征向量,输入是每个字拼音的one-hot向量,输出是对每个字前后4个字的拼音预测。训练完成后得到每个字拼音的向量,且发音相同的字具有相同的向量。最后,对于一个包含n个字的词,其发音特征向量的前c×n维由这n个字的发音特征向量拼接形成,其中第(n-1)×c+1至第n×c个特征值代表第c个字的发音特征向量(n=1,2,…,n),剩余的d-c×n维特征值取为0,从而得到电力调度文本每个词基于pinyin2vec方法的发音特征向量。

s4:提取电力调度文本的词性特征。

与开放领域文本不同,电力调度文本在表达模式上存在一些相对固定的规律,例如电力设备常用“北舍47010开关”、“塘兴g224线”等地名+字符专名+普通名词的模式进行表示,设备状态的切换通常用“由热备用改为冷备用”、“由跳闸改停用”等介宾+动宾的模式进行表达。因此,通过某个词上下文的词性组合可以推测出该词的一些语义信息,比如通过“名词+介词+名词+动词+名词”的词性组合可以在未知具体词语的条件下推测中间的名词可能为“热备用”、“跳闸”等表示状态的词,说明上下文词性可以代表词的部分特征,统称为词性特征。词性特征的生成基于图4的模型结构。假设调度文本语料中共包含v个词(不含重复词)和v'种词性(不含重复词性),要生成的词性特征向量维数与语义特征向量维数相同,为d维,将某一句调度文本第i个词(中心词)的one-hot向量wi(v维)输入模型,首先与v行d列的输入矩阵t1'相乘得到一个d维向量,再将d维向量和输出矩阵t2'相乘。由于词性特征是基于词性而非词语本身对中心词的特征进行表示,模型输出对应的是词性,相应的输出矩阵t2'的维数应与词性数量相适应,所以t2'为d行v'列的矩阵。与t2'相乘后,再经过softmax函数和向量最大值置1等变换,得到词性的one-hot向量预测。词性特征模型的预测结果不仅包含了上下文词语的词性one-hot向量p'i-2、p'i-1、p'i+1和p'i+2(均为v'维),也包含中心词本身的词性one-hot向量p'i(v'维),因为中心词的词性同样属于词性组合的一部分,对于中心词的词义也有表征作用。最后比较这些词性one-hot向量预测结果与真实词性one-hot向量的差异,通过反向传播算法训练矩阵t1'和t2'的参数。训练完成后,输入矩阵t1'的每一行就代表语料中一个词的d维词性特征向量。

s5:基于电力调度文本的语义特征、发音特征以及词性特征,构建电力调度信息匹配模型。

为了在监督学习的过程中对文本特征进行更深层次的提取,近年来有不少研究在实体链接任务中引入基于深度学习神经网络的语义匹配模型,主要包括基于循环神经网络的语义匹配模型和基于卷积神经网络的语义匹配模型。基于词汇语义特征的跳跃卷积神经网络(lexicalsemanticfeaturebasedskipconvolutionneuralnetwork,lsf-scnn)就是一种基于卷积神经网络的语义匹配模型,但加入了词汇语义特征(lexicalsemanticfeature,lsf)对待匹配文本词语之间的内在语义联系进行了表示,加强了两条待匹配文本特征矩阵之间的联系。

在lsf-scnn模型的基础上,构建如图5所示的电力调度信息匹配模型。

首先,将分词后的知识图谱实体和调度文本分别生成为特征矩阵,矩阵的每一行为一个词的特征向量。与lsf-scnn仅按照语义特征将文本转化为单层特征矩阵不同,电力调度信息匹配模型将文本转化为3层的特征矩阵,分别代表步骤2、步骤3和步骤4所述的语义特征、发音特征和词性特征,以结合电力调度特点充分挖掘文本的多维度信息。同时,在lsf-scnn模型中,每个词的特征向量均包含一个词汇语义特征(lexicalsemanticfeature,lsf)维度,用于表示两条待匹配文本之间的语义联系,其计算公式为:

式中:lsf函数表示某个词lsf维度的值;word1j表示文本1的第j个词;为向上取整符号;vec1j表示文本1第j个词的特征向量;vec2k表示文本2第k个词的特征向量;<>表示取两个向量的夹角;len2为文本2的词数;t为lsf值上限,取为10。在电力调度信息匹配模型中,每一层特征矩阵的lsf除了表示特征向量之间的联系,还引入一个新增维度直接表征词语在字面、发音和词性上的联系。在语义特征矩阵的lsf中加入表征字面联系的新增维度,计算公式为:

式中:lit函数表示某个词的字面联系特征值;ed函数表示求两个序列的编辑距离;char1j表示文本1第j个词的字序列,如“检修”的字序列为{检修};char2k表示文本2第k个词的字序列。在发音特征矩阵的lsf中加入表征发音联系的新增维度,计算公式为:

式中:pron函数表示某个词的发音联系特征值;pinyin1j表示文本1第j个词的拼音序列,如“检修”的拼音序列为{jian3xiu1};pinyin2k表示文本2第k个词的拼音序列。在词性特征矩阵的lsf中加入表征词性联系的新增维度,计算公式为:

式中:part函数表示某个词的词性联系特征值;same函数在括号内两个词性相同时为0,否则为1;pos1j表示文本1第j个词的词性;pos2k表示文本2第k个词的词性。

然后,采用宽卷积的方法,对知识图谱实体和调度文本的特征矩阵分别进行卷积运算。每个卷积窗口按照特征矩阵层数相应地设置为3层,如图5所示,当卷积窗口在知识图谱实体特征矩阵的某一位置完成一次卷积运算后,将生成分别代表语义、发音和词性特征的3个卷积结果,构成3维向量r1。由于这3类特征在调度信息匹配时的重要程度不尽相同,所以在电力调度信息匹配模型中引入注意力向量a1,用向量r1和a1的内积作为综合卷积结果,a1的3个维度值作为参数在模型训练过程中自动学习。同理,调度文本特征矩阵的卷积过程引入注意力向量a2,用卷积生成的向量r2和a2的内积作为综合卷积结果。卷积窗口在多个位置进行卷积后,所有位置的综合卷积结果将形成一个综合卷积向量,而在实际卷积过程中通常采用多个卷积窗口同时进行卷积运算,从而形成多个综合卷积向量。

最后,与lsf-scnn模型步骤相同,对综合卷积向量进行k最大均值池化(k-maxaveragepooling,kma),生成知识图谱实体表示向量x1和调度文本表示向量x2,再用相似性矩阵u计算相似性分数xsim:

将x1、xsim和x2拼接为联合向量后,用softmax分类器预测知识图谱实体和调度文本是否匹配。

s6:利用所述电力调度信息匹配模型,将电力调度文本与配电网知识图谱中的所有实体依次进行匹配,所有被电力调度信息匹配模型判定为匹配的实体即为电力调度文本在配电网知识图谱中的对应实体,从而完成面向配电网知识图谱的电力调度文本的实体链接。

在一实施例中,从某电网公司收集对现场人员语音进行识别后生成的40000条电力调度文本,均为关于调度操作或设备状态的复诵或汇报,文本示例如表1所示。采用5折交叉验证方法进行实验,将40000条调度文本随机平均分成5份,轮流将其中4份作为训练集,剩余1份作为测试集。每轮实验中,将所有训练文本作为语义、发音和词性特征向量的训练语料,同时将训练文本和与之对应的知识图谱实体作为训练电力调度信息匹配模型的正样本对,由于每条调度文本平均对应约3.5个实体,所以每轮实验的训练集包含约112000个正样本对。同时,对于每条训练文本,在知识图谱中随机选取不与之对应的7个实体,以生成负样本对,并且正负样本对的比例约为1比2。

表1电力调度文本示例

1“桑园d45p开关”被语音识别为“三元d45p开关”;

2“杭海站”被语音识别为“航海站”。

训练完成后,对测试集所有调度文本进行实体链接,并统计调度文本实体链接的整体准确率acc,以及表示名称、状态和操作的三类实体链接的准确率accname、accstate和accoperate。acc计算方法为:

式中:count函数表示某种文本的数量;textcorrect表示实体链接完全正确的文本;text表示测试集所有文本。accname计算方法为:

式中:textname_correct表示包含名称实体且名称实体链接完全正确的文本;textname表示包含名称实体的文本。accstate计算方法为:

式中:textstate_correct表示包含状态实体且状态实体链接完全正确的文本;textstate表示包含状态实体的文本。accoperate计算方法为:

式中:textoperate_correct表示包含操作实体且操作实体链接完全正确的文本;textoperate表示包含操作实体的文本。

实验中,本发明电力调度信息匹配模型的电力调度文本语义、发音和词性特征向量生成模型上下文窗口大小均为2,向量维数均为50维,电力调度信息匹配模型对实体或文本特征矩阵进行卷积运算的卷积窗口数量为100个,高度均为5(即每次对5个词进行卷积),kma的k值为2。同时,为了对比本发明模型的实体链接效果,采用表2所示的对照模型进行对比实验。实验后统计所有模型的实体链接整体准确率acc,结果如表3所示。

表2实体链接对照模型

表3所有模型的实体链接整体准确率

同时,为了比较各个模型在名称、状态和操作实体链接准确率上的差异,将accname、accstate和accoperate的统计结果绘制成柱形图,如图6所示。

由表3和图6可见,本发明电力调度信息匹配模型在电力调度文本实体链接任务中的整体准确率以及各类实体的链接准确率均高于其他方法,整体准确率达到90%以上。从本发明模型与对照模型1和对照模型2的对比可以看出,相比于从字面上的匹配进行实体链接,本发明模型可以更好地适应由表述差异、语音识别偏差和实体不连续等问题引起的文字差异,从而明显提高实体链接的准确率;从本发明模型与对照模型3、对照模型4和对照模型5的对比可以看出,本发明模型从多个维度对电力调度文本进行特征提取,可以更全面地挖掘电力调度文本包含的信息,有利于提升实体链接的整体准确率和各类实体的链接准确率;从本发明模型与对照模型6和对照模型7的对比可以看出,本发明模型在lsf-scnn模型基础上加入的lsf新增维度和注意力向量,有利于提高电力调度信息匹配的准确性,从而提升电力调度文本实体链接的应用效果。

本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1