一种融合多特征的电力调度文本实体识别方法及装置

文档序号:30223668发布日期:2022-05-31 23:40阅读:76来源:国知局
一种融合多特征的电力调度文本实体识别方法及装置

1.本发明涉及文本识别技术领域,具体涉及一种融合多特征的电力调度文本实体识别方法及装置。


背景技术:

2.信息化时代背景下智能电网成为电力系统发展的必然趋势,电力系统中的数据分析研究得到高度关注。在电力系统日常调度工作中积累了大量文本形式的信息数据,如停复役申请审批的停电检修申请单,对这些非结构化数据进行解析可以从中提取到可用信息。而命名实体识别是电力调度文本解析的关键的一步。命名实体在电力调度文本中是指如电气设备名称等一类具有实际意义的名词。
3.命名实体识别作为自然语言处理领域一个热点,出现了大量的方法,目前传统领域中大多以基于深度学习的方法为主,其中部分为有监督深度学习,多是基于对语料分词后进行标注得到训练集,随后进行训练。而这种以分词为基础的方法会因为当前分词技术不完美产生噪声从而影响识别的精度。有部分的技术方法是基于谷歌公司开发的bert模型进行,此类方法多是基于已经经过大规模语料训练的模型之上进行微调。
4.但是,电力文本尤其是电力调度文本有着极强的领域特色,直接采用上述方法实体识别精度很难达到服务下游应用的需求,因此,如何体现电力调度文本的领域特点,同时能够提出一种依靠领域特征来提高实体识别准确率是当前亟待解决的问题。


技术实现要素:

5.发明目的:本发明的目是提供一种融合多特征的电力调度文本实体识别方法及装置,引入多特征表征电力调度文本领域特征,解决现有技术中直接采用传统领域方法导致准确率等效果较差的问题。
6.技术方案:为了实现上述发明目的,本发明提出的融合多特征的电力调度文本实体识别方法,包括以下步骤:
7.对非结构化的电力调度文本进行降噪清洗处理,进行字粒度实体标注和词性特征标注,得到字级别的语料库,语料库中有三列序列,分别是字、实体标签、词性;
8.将得到的语料库中第一列进行字粒度的预训练得到字的向量表示,第二列和第三列按独热向量表示方法得到词性特征向量表示;
9.在字向量和词性特征向量的基础上加入由第一列序列得到的左邻字熵值,进行多特征融合;
10.将特征融合后所得向量输入双层神经网络模型后得到输出;
11.将双层神经网络模型的输出结果输入条件随机场模型,得到预测的标签序列,进而实现序列的命名实体识别。
12.进一步地,第一列序列的左邻字熵值根据以下公式得到:
[0013][0014]
其中c为语料库第一列中的每个字,ac为字c的左侧出现的字,a为语料库中字c的所有左侧字集合,p(ac|c)为字ac出现在c的左侧的概率。
[0015]
进一步地,多特征融合的方法包括:
[0016]
将根据某一句语句得到的字向量序列xi、词性特征向量序列β、左邻字熵值e
l
分为两组:一组输入为字向量序列和词性特征序列,另一组输入为字向量序列和对应的左邻字熵值序列;
[0017]
分别将两组输入中的两序列拼接,得到两组新的向量,作为融合后的特征,表示为:input
1,j
={xj;βj},input
2,j
={xj;e
l
(i)},其中j为第i句的第j个字的索引,xj表示第i句中第j个字的向量。
[0018]
进一步地,对语料库中第一列进行字粒度的预训练得到字的向量表示包括:基于skip-gram构建字符级的调控文本的字向量预训练模型,第一列序列经预训练后的每一句的字向量为:xi={x
i,1
,x
i,2
,x
i,3
,

,x
i,n
},其中x
i,n
为第i句中的第n个字的向量,n为序列中字符数量,de为输入向量的维数字向量表示。
[0019]
进一步地,每个字的词性用一个10维的向量表示,词性及其在语料库中的标注在表1中示出:
[0020]
表1词性及其对应标注
[0021][0022][0023]
按独热向量表示的词性特征向量表示为:βi=(0,0,0,

,1,0,0

),
[0024]
进一步地,双层神经网络模型为双层长短期记忆神经网络,将特征融合后的两组向量分别输入两个lstm网络,得到隐层状态后加权融合,随后将加权结果的新的隐层状态向量经过一个神经元后得到预测的标签概率矩阵。
[0025]
进一步地,利用条件随机场模型得到预测的标签序列包括:
[0026]
根据双层神经网络模型得到的标签概率矩阵p得到序列预测的得分:
[0027][0028]
其中,l为标注集标签的种类数;a为各相邻位置的标签的转移概率矩阵,其中元素a
i,j
表示标签i到标签j转移概率也即当前字标注结果到下一个字标注结果的概率,y为真实标签值;
[0029]
根据下式得到序列正确预测在所有预测结果中的概率值:
[0030][0031]
采用极大似然估计进行训练:进行解码输出得到序列最大预测概率输出矩阵为:y
x
为输入的x的所有标签的序列;
[0032]
基于序列最大预测概率输出矩阵,结合标注集得到该序列的标签。
[0033]
本发明还提供一种融合多特征的电力调度文本实体识别装置,包括:
[0034]
语料库构建模块,用于对非结构化的电力调度文本进行降噪清洗处理,进行字粒度实体标注和词性特征标注,得到字级别的语料库,语料库中有三列序列,分别是字、实体标签、词性;
[0035]
向量获取模块,用于将得到的语料库中第一列进行字粒度的预训练得到字的向量表示,第二列和第三列按独热向量表示方法得到词性特征向量表示;
[0036]
特征融合模块,用于在字向量和词性特征向量的基础上加入由第一列序列得到的左邻字熵值,进行多特征融合;
[0037]
第一预测模块,用于将特征融合后所得向量输入双层神经网络模型后得到输出;
[0038]
第二预测模块,用于将双层神经网络模型的输出结果输入条件随机场模型,得到预测的标签序列,进而实现序列的命名实体识别。
[0039]
本发明还提供一种计算机设备,包括:
[0040]
一个或多个处理器;
[0041]
存储器;以及
[0042]
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如上所述的融合多特征的电力调度文本实体识别方法的步骤。
[0043]
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的融合多特征的电力调度文本实体识别方法的步骤。
[0044]
有益效果:本发明引入多特征表征电力调度文本领域特征,语义特征和词性特征的基础上引入左临字熵特征来表征领域特征,左邻字熵用以衡量每个字左侧搭配字的丰富程度,能够帮助更准确地识别实体。本发明在融合多特征来表征领域特征的基础上,提供了一种双层的bilstm模型多特征训练方法,解决了当前传统领域方法直接应用在电力调度文本领域迁移差、准确率较低的问题。本发明提高了电力调度文本命名实体识别的效果。
附图说明
[0045]
图1为本发明提供的融合多特征的电力调度文本实体识别方法的流程图;
[0046]
图2为本发明实施例提供的特征融合示意图;
[0047]
图3为本发明实施例提供的双层bilstm的原理示意图;
[0048]
图4为本发明实施例所提供的lstm层的内部结构示意图;
[0049]
图5为本发明实施例提供的标签预测模块流程示意图;
[0050]
图6为本发明实施例提供的本发明方法与其他方法总体性能对比图。
具体实施方式
[0051]
下面结合附图对本发明的技术方案作进一步说明。
[0052]
电力系统中的文本尤其是电力调度文本有着较强的领域特征,包括:(1)电力调度文本语句具有不规则特性,电力调度文本没有一个十分严格的语句规则约束,不同的调度员发布的调度指令语句风格有差异,且不同地区的调度语句也有差异;(2)调度语句中有大量的缩写与简称,以及存在很多简略化的表达方式;(3)不同于传统文本领域的语句各句长短相差无异,电力调度文本各单句之间长短相差较大,语句长度甚至能相差5倍以上;(4)实体构成复杂,电力调度文本实体中存在汉字、英文字母、阿拉伯数字、罗马字符等,并且特殊字符也构成实体。现有的实体识别方法精度很难达到服务下游应用的需求。为了进一步提高命名实体识别的效果,本发明采用字粒度的训练语料避免了分词对模型训练产生噪声,提出了一种利用双层bilstm神经网络模型、融合多特征的实体识别的方法,提高了电力调度文本实体识别的识别效果,解决了传统方法应用在电力调度文本领域迁移性差的问题。
[0053]
命名实体识别是指将文本中的具有实际意义的名词识别出来,在本发明的实施方式中,例如文本“新街口变:1#变电所1#主变调由888线供。”中“新街口变”、“888线”等均属于是电力调度文本中的命名实体。
[0054]
本发明提供的一种融合多特征的电力调度文本实体识别方法,其识别流程如图1所示。包括以下步骤:
[0055]
步骤s001,将非结构化的电力调度文本进行处理,结合领域实体特点进行降噪清洗处理,进行字粒度实体标注和特征标注,得到字级别的语料库,语料库中有三列序列,分别是字、实体标签、词性,可以通过训练第一列序列数据预测得到第二列序列的标签结果。
[0056]
在本发明的实施方式中,数据清洗降噪包括分字和去停用词,为了避免分词对下游任务产生噪声本技术不采用传统的分词的方法,而是将语句进行按字切分;按字符切分后存在无实际意义的标点符号,故需要将其去除,结合一些现有的停用词表(诸如哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等)构建了适用于电力调度文本自然语言处理任务的停用词表,对文本数据中的噪声字符进行过滤降噪处理。
[0057]
三列序列:字、实体标签、词性中,第一列序列为待预测的字符,而第二列序列则为其实际正确的标签值,训练的目的是通过第一列序列预测到对应第二列序列值。
[0058]
语料库中第一列的每个字,用以表征句子的特征,也称为语义特征。在本发明的实施例中,采用字粒度的标注,采用“bio”标注法,具体标注如表1所示。
[0059]
表1实体标注说明
[0060]
实体类别标注场站位置b-loc、i-loc设备b-equ、i-equ线路b-lin、i-lin变压器b-tra、i-tra
[0061]
举例而言,对于“新街口变:调由张新888线供.”的句子,标注结果如表2所示。
[0062]
表2标注示例
[0063]
字符实体标签标注新b-loc街i-loc口i-loc变i-loc调o由o张b-lin新i-lin8i-lin线i-lin供o
[0064]
按字标注后进行词性标注,语料库中第三列的词性标签则为词性特征。本发明将词性标签按字粒度进行处理得到词性特征,具体词性及其在语料库中的标注如表3所示。
[0065]
表3词性及其对应标注说明
[0066][0067][0068]
继续以“新街口变:调由张新888线供.”为例来说明,词性标注的结果如表4所示。
[0069]
表4词性标注示例
[0070]
字符实体标签标注词性标签新b-locnn街i-locnn口i-locnn变i-locnn调onv由onv张b-linnn新i-linnn8i-linnn线i-linnn供onv
[0071]
步骤s002,将上述得到的语料库中第一列进行字粒度的预训练得到字的向量表示,第二列和第三列按独热向量表示方法得到词性特征向量表示;
[0072]
具体来说,各类输入的向量表示包括如下:
[0073]
为了能表示上下文信息,本实施例中采取的是基于字符级的嵌入方式,采取基于字符级的字向量预训练。而word2vec算法中跳字模型(skip-gram)可以实现预训练出具有领域特征的字向量,本发明基于skip-gram构建了字符级的调控文本的字向量预训练模型。这里,字符级的调控文本的字向量预训练模型指的是本发明将skip-gram中的输入变为字符进行预训练。关于skip-gram算法的过程是现有技术,亦非本发明的核心,此处不加以赘述。经预训练后的每一句的字向量为:xi={x
i,1
,x
i,2
,x
i,3
,

,x
i,n
},其中x
i,n
为第i句中的第n个字的向量,de为输入向量的维数。
[0074]
词性特征的向量表示方式选择one-hot编码格式,每个字的词性用一个10维的向量表示,也即βi=(0,0,0,

,1,0,0

),
[0075]
步骤s003,在上述的字向量和词性特征向量的基础上加入由第一序列得到的左邻字熵值进行特征融合;
[0076]
本发明中引入的多特征有语义特征、词性特征、左临字熵特征,其中语义特征和词性特征在步骤s002中得到,在这两类特征的基础上,加入了左临字熵特征用以表征领域特征,其定义如下:
[0077]
熵是用来表示随机变量不确定的量度。信息学中认为任何信息都存在冗余,而其大小与每个字符出现的概率有关,因此借鉴热力学概念把排除冗余后的平均信息量称为“信息熵”,定义为:
[0078]
h(x)=-∑
x∈x
p(x)log2(p(x))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0079]
式中,p(x)为x发生的概率。在自然语言处理中,x即为一个字符或一个词,在本发明的定义中,x为一个字符,用以反映信息的不确定性。
[0080]
信息熵是衡量信息整体的信息量,而在衡量词之间组合的丰富程度时则使用左右熵的概念,左右熵指词表达的左右边界的熵。
[0081]
具体来说,基于第一序列的左邻字熵值的计算过程如下:
[0082]
本实施例中提出基于字符级别的左邻字熵,用以衡量每个字左侧搭配字的丰富程度,公式如下:
[0083][0084]
其中,c为步骤s001中语料库第一列中的每个字,ac为字c的左侧出现的字,a为语料库中字c的所有左侧字集合,p(ac|c)为字ac出现在c的左侧的概率。左邻字熵越大则说明该字左侧搭配的字越丰富,则说明两个字有可能是一组实体词,而对于e
l
(c)=0的情况则说明有可能是边界。
[0085]
如图2所示,本实施例中多特征的融合方式步骤如下:
[0086]
首先,将步骤s002中得到的某一句语句的字向量序列xi、词性特征向量序列β、左邻字熵值e
l
分为两组:一组输入为字向量序列和词性特征序列,另一组输入为字向量序列和对应的左邻字熵值序列;
[0087]
然后,将两组输入中的两序列拼接;
[0088]
最后,得到两组输入值:input
1,j
={xj;βj},input
2,j
={xj;e
l
(i)},其中j为第i句的第j个字的索引。xj表示第i句中第j个字的向量。
[0089]
步骤s004,特征融合后输入双层神经网络模型后得到输出;
[0090]
在实施例中,步骤s003得到了两组输入值,为了充分挖掘所引入特征的特征信息,如图3所示,本实施例中提供了一种双层bilstm(bi-directional long short-term memory)的模型,按上述步骤一个文本序列输入字向量为其中某个字的字向量词性嵌入向量为该字的左邻字熵为n为该序列中字符数量,则两组输入分别为:
[0091][0092]
本实施例双层双向lstm训练流程为输入字向量经两层的双向lstm得到隐层状态后加权融合,随后将加权结果的新的隐层状态向量经过一个神经元后得到预测的标签概率矩阵,具体步骤如下:
[0093]
首先,两组输入经bilstm模型后得到输出:首先,两组输入经bilstm模型后得到输出:k为lstm的隐层维数。h
1,t
,h
2,t
上加箭头分别代表前向传播和后向传播得到的隐层状态。
[0094]
其次,h
1,t
,h
2,t
输出到同一个隐层,得到:o
t
=(h
1,twl1
+b
l1
)+(h
2,twl2
+b
l2
);
[0095]
最后,得到隐层融合后可得到网络模型的输出预测概率向量为:s=o
tws
+bs;
[0096]
其中,w
l1
,w
l2
,b
l1
,b
l2
和ws,bs都是需要学习的参数,都是需要学习的参数,l为标注集标签的种类数。
[0097]
rnn是处理一系列长序列信息的算法,但是传统的rnn在处理长序列文本时不能很好地处理长距离依赖关系,因此双向长短期记忆网络(bilstm)被提出以解决该问题。本实施例中lstm结构如图4所示,其计算公式为:
[0098][0099]
其中,σ为sigmoid函数,i
t
,f
t
,o
t
,c
t
分别为输入门、遗忘门、输出门和神经元状态四个向量,h
t
为第t输入的隐层状态向量,i
t
,f
t
,o
t
,c
t
与h
t
的维数一致。w为权重矩阵,下标代指各个部分,各元素的权重w和偏置b是要学习的参数。
[0100]
步骤s005,将上述输出结果输入条件随机场模型,得到预测的标签序列,进而实现序列的命名实体识别。
[0101]
在实施例中,经过bilstm得到隐层状态h
t
,为了避免标签预测失去上下文联系的意义,例如显然标签“i”前不可能是标签“o”,“i-equ”后不可能接续的是“i-lin”,为了避免上述情况,本实施例采用条件随机场模型(crf)得到预测的标签序列,如图5所示,具体来说
流程为:
[0102]
首先根据步骤s004求得的标签概率,实施例中一个字序列经s004输出得到的分数矩阵为p,l为标注集标签的种类数;
[0103]
其次,得到序列预测的得分:
[0104][0105]
其中,a为各相邻位置的标签的转移概率矩阵,其中元素a
i,j
表示标签i到标签j转移概率也即当前字标注结果到下一个字标注结果的概率,y为真实标签值;
[0106]
然后,得到序列正确预测在所有预测结果中的概率值:
[0107][0108]
最后,为了概率最大采用极大似然估计进行训练,公式为:
[0109]
进行解码输出得到序列最大预测概率输出矩阵为:其中y
x
为输入的x的所有标签(包括不符合标注规则的)的序列。在条件随机场输出得到序列预测结果最大概率矩阵后,结合标注集输出该序列的标签。
[0110]
以上结合示例描述了本发明提出的融合多特征的电力调度文本实体识别方法的实现过程。为了验证本发明的性能,进行如下对比实验。通过对比传统的几种方法,结果表明提出的融合多特征的电力调度文本识别方法识别效果更好。
[0111]
具体地,在本发明构建的语料库上,本发明设置了四组实验组来佐证本发明所提出的模型的优越性。第一组为基线组(baseline),即采用仅有字符嵌入下的bilstm+crf模型;第二组为在baseline基础上输入层增加了词性特征的嵌入,为了对比所加词性特征对实体识别的效果;第三组为在第二组的基础上单层输入中加上左邻字熵特征;第四组为本发明所提出的融合多特征的双层神经网络模型。为了评估模型的性能表现,采用了通用的评价体系即精确率p、召回率r、f1值三项指标。设定tp为识别出且正确的实体数量,np为识别出但错误的实体数量,n为应识别出的所有实体数量。精准率可以反映被识别到的实体中实体识别准确率,而统计的过程中忽略了那些未被识别为实体的部分,而召回率可以反映出模型实体抽取的能力即能否尽可能的识别出实体,f1则是对上述两个指标的综合评价指标,计算公式如下:
[0112][0113][0114][0115]
实验结果各组总体的指标对比如图6所示,各类实体识别情况如表5所示。从图6中可以看出,再加入了词性特征后识别的精准率从89.43%提升到了90.32%,而本发明所提
出的模型将总体的精准率提升了2.78%,召回率和f1值均有明显提升。
[0116]
表5各类实体识别情况
[0117][0118][0119]
本发明还提供一种融合多特征的电力调度文本实体识别装置,包括:
[0120]
语料库构建模块,用于对非结构化的电力调度文本进行降噪清洗处理,进行字粒度实体标注和词性特征标注,得到字级别的语料库,语料库中有三列序列,分别是字、实体标签、词性;
[0121]
向量获取模块,用于将得到的语料库中第一列进行字粒度的预训练得到字的向量表示,第二列和第三列按独热向量表示方法得到词性特征向量表示;
[0122]
特征融合模块,用于在字向量和词性特征向量的基础上加入由第一列序列得到的左邻字熵值,进行多特征融合;
[0123]
第一预测模块,用于将特征融合后所得向量输入双层神经网络模型后得到输出;
[0124]
第二预测模块,用于将双层神经网络模型的输出结果输入条件随机场模型,得到预测的标签序列,进而实现序列的命名实体识别。
[0125]
应当理解,本发明实施例中的融合多特征的电力调度文本实体识别装置可以实现上述方法实施例中的全部技术方案,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述实施例中的相关描述,此处不再赘述。
[0126]
本发明还提供一种计算机设备,包括:
[0127]
一个或多个处理器;
[0128]
存储器;以及
[0129]
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如上所述的融合多特征的电力调度文本实体识别方法的步骤。
[0130]
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的融合多特征的电力调度文本实体识别方法的步骤。
[0131]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0132]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0133]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0134]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0135]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1