本发明涉及电力领域,特别是涉及一种针对电力作业文本的知识图谱构建方法、装置、介质及芯片。
背景技术:
1、知识图谱(knowledge graph)是一种语义网络结构的知识集合,由实体、实体间的关系和属性组成,以图形的方式呈现,能够直观地展示实体的关系,广泛应用于搜索引擎、推荐系统、问答系统、智能客服和自然语言处理等场景。知识图谱是人工智能领域的一个新兴分支,通过对互联网中的大量数据进行结构化处理,形成一种结构化的知识集合。知识图谱的构建包括知识抽取、知识融合和知识图谱建立三个过程:
2、知识抽取:从语料中自动抽取实体和实体间的关系;
3、知识融合:将知识抽取的结果进行集中,去除重复信息,根据实体和关系的属性进行相应的处理;
4、知识图谱建立:将知识融合后的数据存储到图数据库中,形成可视化知识图谱。
5、现有技术中,知识图谱构建方法主要分为基于规则的方法和基于机器学习的方法,基于规则的方法需要人工定义实体和关系相应的规则,方法复杂且有一定的局限性;基于机器学习的方法需要解决实体识别和关系提取两个问题,解决方法主要有:基于词典的实体识别方法,其基于词汇表进行识别,识别率较低;基于机器学习的实体识别方法,其主要采用crf(条件随机场)和hmm(隐马尔科夫模型)等模型,这些模型需要大量的人工标注数据,训练时间长且资源占用高;基于深度学习的实体识别方法,其主要采用lstm和cnn等模型,模型训练效果较好,但需要对语料进行分词处理,存在歧义性问题。
6、而随着电力智能化时代、大数据时代的到来,电力系统中进行一次、二次安全作业过程中的风险分级文档、设备运维文档、安全操作须知等非结构化文本内容逐渐增多,其中包含的知识内容需要以结构化方式进行组织、存储与利用。在此背景下,大多数电网信息存储系统仍使用关系数据库。由于数据冗余和性能下降问题,关系数据库及装置不适合动态非结构化数据。如何将这些宝贵的电力大数据利用起来,总结其中存在的规律,进行数据挖掘,对其进行系统的分析,并且在需要查询这些信息时,能在最短的时间内精确定位数据信息的位置。对于这种非结构化和半结构化数据的知识提取、整合与存储需要使用到知识图谱构建技术。然而,在电力领域,电力领域知识图谱构建技术尚未开发,现有技术的主要缺点如下:
7、(1)尚无成体系的针对电力作业的知识图谱构建方案。
8、(2)实体抽取、关系抽取模型对文本特征挖掘不够,识别准确率低,对实体重叠现象的识别效果较差。
9、在实体识别方面,某一特定领域文本有着大量专有名词和句法特征,领域特征需要被考虑进入识别效果的优化中。在关系抽取上使用规则匹配的方法在抽取效率和通用性上有所欠缺。
10、(3)传统方法中实体识别和知识抽取两部分耦合效果差。
11、在构建单领域知识图谱过程中,现阶段对于实体和关系的抽取,存在着格式不统一、误差放大等局限性,传统流水线模式下,实体识别的错误会带入关系抽取中。
12、(4)传统流水线抽取模式中,对于句子中实体重叠问题解决效果不够好。
13、传统流水线抽取模式中,先对语句中实体进行识别,再对实体进行关系分类,这样的抽取方法对于单句中含有多个实体关系三元组的情况以及实体重叠(即同一个实体同时存在于多个实体关系三元组中,实施例中的设备实体就是该种情况)问题难以解决。
14、因此,如何构建准确率高、知识量丰富且便于应用的知识图谱是本领域亟待解决的问题。
技术实现思路
1、本发明要解决的技术问题是为了克服现有技术中知识图谱构建方法中存在知识量少、识别率低、训练资源占用高的缺陷,提出一种知识图谱的构建方法。
2、有鉴于此,本发明提供了一种包括本体层定义、实体关系抽取、实体消歧、图谱构建等针对电力作业领域的知识图谱构建方法。
3、为了解决上述技术问题,本技术提供了如下技术方案:
4、本发明一种针对电力作业文本的知识图谱构建方法,所述方法包括:
5、步骤1:将收集得到的电力领域相关文本整合到文档中,结合电力领域专业知识对其中包含的实体及关系类型进行定义,得到实体类型集合和关系类型集合;
6、其中实体类型集合为,关系类型集合为;
7、步骤2:对电力文本语料预处理过程,
8、该步骤是将整合后的文档使用分句、逻辑补全、去除停用词、筛选无用语句的方法进行预处理,得到预备语料库,再从预备语料库中随机选取50%的文本语料,使用word2vec方法中的cbow模式生成全部词语的词向量,去除单字、特殊符号、句首尾标识的向量表示,得到电力作业领域的词向量表,作为后续命名实体识别中的词汇增强部分;
9、步骤3:实体类型标注、构建词表,
10、根据步骤1中定义的本体层实体类型,对预备语料库进行实体标注,得到电力作业实体识别数据集;标注样本为预处理后得到的全部文本语料的20%-25%,同时需要保证实体类型在该标注样本中分布均匀;
11、步骤4:训练模型抽取命名实体
12、将上述步骤中得到的实体识别数据集送入lebert-bigru-crf模型中进行训练,基于训练完毕的模型,对形成的全部语料的50%内容进行实体标注;
13、步骤5:关系类型标注,
14、对步骤4中输出的实体识别结果进行实体间关系类型的标注,标注格式为spo格式,得到电力作业实体关系数据集,规模为全部语料的50%;得到电力作业实体关系数据集;
15、步骤6:实体关系联合抽取,
16、对电力作业实体关系数据集进行模型训练,得到电力作业实体关系联合抽取模型;电力作业实体关系联合抽取模型对全部语料进行实体关系联合抽取,输出实体关系三元组;
17、步骤7:知识融合消歧,对上述中输出的实体关系三元组进行实体链接,形成实体库。
18、在抽取工作完成后,需要针对多词同义问题对实体库进行实体链接,使用bert编码器将实体和其周围的语义信息映射到同一个向量空间中,对相似度设置阈值,该向量空间中相邻的实体中,其距离小于等于阈值时,视为同义实体,归并其名称及关系;
19、步骤8:导入图数据库,将知识抽取与融合得到的实体关系三元组导入neo4j图数据库中,形成可视化的电力作业知识图谱。
20、进一步的,所述步骤2的文本预处理过程包括:
21、(1)首先以句尾标点作为分隔符将其分割成若干个单句,对于长度超出的句子进行手工分句调整,应确保单句长度l<=48;
22、(2)完成分割后,经过分割后的句子若存在逻辑上主语或宾语缺失的现象,需要进行逻辑补全;
23、(3)使用停用词表去除特殊符号,再对句子进行筛选,筛选掉单句中不包含任何实体关系三元组的无用语句,保留句子进入模型的预备语料库;
24、(4)构建词表用于s4中命名实体识别模型的词汇增强部分。
25、进一步的,所述步骤2的文本预处理过程包括:
26、1.首先在上一步形成的预备语料库中随机选取50%的文本语料用于构建词向量表,若构建后词表中词汇数量<1000,则适当增加文本数量;
27、2.对基本语料使用jieba分词工具进行分词,得到全部词汇信息;
28、3.使用word2vec方法中的cbow模式生成全部词语的词向量,输入为目标词及其上下文,输出为目标词的词向量表示,向量长度应与s4中的模型参数一致;
29、4.去除单字、特殊符号、句首尾标识的向量表示,得到完整的电力作业领域外部词向量表。
30、较佳的,所述步骤4包括:
31、(1)最底层为lebert模型,即融入词汇增强的bert模型,初始将输入序列分割成一个个不同字符,输入到lebert层中,输入序列为,添加标记、位置嵌入得到向量e=,随后将e输入到transformer编码器中,每个transformer层的作用如式(1)和式(2)
32、(1)
33、(2)
34、其中,为第l层的输出,=e;ln为层规格化;mhattn是多头注意力机制;ffn是一种以relu作为隐藏激活函数的两层全连接前馈网络;
35、lebert在bert的第一和第二层transformer间添加lexicon adapter模块用以注入词汇信息,对于序列中的每一个位置,该模块构造出字符-词语对向量表示为(,),表示第个位置的字符向量,表示第个字符所对应的个匹配出的词向量;根据外部词表进行查找,对于语句中的每个字符查找出其在文本中对应匹配的词语,参数规定每个字符最多匹配三个词语;因为外部词典引入词汇向量与字符向量存在维度不匹配问题,所以首先对词向量进行非线性映射,将其与字符向量进行维度对齐;
36、(3)
37、维度对齐后得到第个位置的词向量表,对于每个字符,其所匹配到的所有词汇的重要程度不尽相同,需要使用作为query向量,计算每个词语的注意力权重为
38、(4)
39、其中,表示第个字符对应的第个词向量的权重,表示双线性注意力权重矩阵;此时利用得到的词语权重,对词向量进行加权求和,得到每个字符对应词语融合后的词特征;
40、(5)
41、最后将字符特征与词特征相加,得到特征融合向量;
42、(6)
43、此时特征融合向量已经包含词汇特征信息,将得到的特征融合向量传递到第二层的transformer中,经过12层的transformer后的输出结果作为lebert层的输出;
44、(2)将上一步得到的lebert层输出向量传入bigru中,对两个方向上的gru的隐藏层输出进行拼接,得到bigru层的输出结果;在crf层中计算每个字符被预测为对应实体的概率,crf是一种概率图模型,对bigru的输出进行规约,避免出现标签歧义。
45、进一步的,步骤6所述的实体关系联合抽取具体包括:
46、(1)给定输入语句s,经过bert预训练编码器得到包含n个tokens的句子嵌入h,首先预测句子中潜在关系的子集,后仅需识别潜在关系下的主客体,潜在关系预测的元素为:
47、 (7)
48、 (8)
49、其中avgpool是平均池化操作,是可训练权重,是sigmod函数;该潜在关系预测过程为一个多标签分类任务,如果概率超过阈值,则为对应标签分配标签1,否则分配标签0,后续只需要将预测出的潜在关系用于抽取过程;
50、(2)进行主客体标注前,使用注意力机制对表示向量进行权重分配,以充分利用位置信息,提升模型识别精度,优化得到向量c,优化过程如下:
51、 (9)
52、 (10)
53、 (11)
54、式中,为输入的待优化向量,为学习函数,受到的影响,计算过程视为对输入向量的加权平均,确定权值后进行加权,得到优化向量;优化后的向量使用全连接网络进行两次序列标注操作分别识别主体和客体,能够有效解决实体重叠问题,对每个token的操作如下:
55、(12)
56、(13)
57、其中是训练嵌入矩阵u中第j个关系表示,是第i个token的编码表示,、是训练权重;
58、(3)序列标注后得到所有潜在关系中包含的主客体,下面使用全局标注矩阵来确定正确的主客体对;首先枚举句子中所有主客体对,然后在全局对应矩阵中将该实体对对应的分数与阈值进行比较,超过阈值则保留,否则进行过滤;矩阵中元素对应的值,即主客体对的置信度如下:
59、(14)
60、其中,、是形成潜在主客体对的输入语句中的第i个和第j个位置的token编码表示,为可训练权重,为sigmod函数;全局矩阵输出的正确的主客体对结合关系,可以得到正确的三元组表示,表示为:主体,关系,客体。
61、本发明还提供了一种知识图谱的构建装置,所述装置包括:
62、获取模块,用于将收集得到的电力领域相关文本整合到文档中,结合电力领域专业知识对其中包含的实体及关系类型进行定义,得到实体类型集合和关系类型集合;
63、预处理模块,用于将整合后的文档使用分句、逻辑补全、去除停用词、筛选无用语句的方法进行预处理,得到预备语料库,再从预备语料库中随机选取50%的文本语料,使用word2vec方法中的cbow模式生成全部词语的词向量,去除单字、特殊符号、句首尾标识的向量表示,得到电力作业领域的词向量表,作为后续命名实体识别中的词汇增强部分;
64、标注模块,用于根据步骤1中定义的本体层实体类型,对预备语料库进行实体标注,得到电力作业实体识别数据集;
65、电力作业实体识别模型,用于对电力作业实体识别数据集进行模型训练,输入预处理后的语料,输出每个token对应的实体标签;
66、电力作业实体关系联合抽取模型,用于对电力作业实体关系数据集进行模型训练,得到电力作业实体关系联合抽取模型;
67、实体链接模块,用于对步骤8中输出的实体关系三元组进行实体链接,形成实体库;
68、图数据库,用于将知识抽取与融合得到的实体关系三元组导入图数据库中,形成可视化的电力作业知识图谱。
69、本发明还提供了一种知识图谱的构建装置,包括:至少一个处理器、存储器和通信接口;所述存储器、所述通信接口与所述处理器耦合,所述存储器中存储有程序代码;所述处理器调用所述存储器中存储的程序代码,用于执行如上述任一实施例所述的方法。
70、本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如上述任一实施例所述的方法。
71、本发明还提供了一种芯片,所述芯片上存储有指令,所述指令在计算机上运行时,使得计算机执行如上述任一实施例所述的方法。
72、在本发明实施例中,电力作业知识图谱构建方法的目标是抽取电力作业领域的实体和实体间的关系,为电力作业提供知识查询和推理的平台,包括以下内容:
73、知识抽取是指从无结构的文本中提取实体和实体间的关系;
74、知识融合是指将抽取到的知识进行统一,去除冗余,对实体和关系进行相应的处理;
75、知识图谱建立是指将知识融合后的数据存储到图数据库中,形成可视化的知识图谱。
76、本发明方法中,构建电力作业知识图谱的主要流程包括:
77、步骤1:预处理文本语料库,得到预备语料库;
78、步骤2:根据电力作业的实体类型和关系类型定义,对预备语料库进行实体标注;
79、步骤3:使用lebert-bigru-crf模型对预备语料库进行实体识别,得到电力作业实体识别模型;
80、步骤4:对电力作业实体识别模型进行实体关系标注,得到电力作业实体关系数据集;
81、步骤5:使用prgca模型对预备语料库进行实体关系联合抽取,得到电力作业实体关系联合抽取模型;
82、步骤6:使用实体关系联合抽取模型对预备语料库进行实体关系联合抽取,得到实体关系三元组;
83、步骤7:对实体关系三元组进行实体链接,得到实体库;
84、步骤8:将实体关系三元组导入图数据库中,形成电力作业知识图谱。
85、本方法通过将电力作业领域的文本语料进行分词、去停用词、逻辑补全、筛选无用语句等预处理方法,得到预备语料库,然后从预备语料库中随机选取50%的文本语料,使用word2vec方法中的cbow模式生成全部词语的词向量,去除单字、特殊符号、句首尾标识的向量表示,得到电力作业领域的词向量表,作为后续命名实体识别中的词汇增强部分,能够提升命名实体识别准确率。使用电力作业实体识别模型对预备语料库进行实体识别,然后对电力作业实体识别结果进行实体间关系类型的标注,得到电力作业实体关系数据集,最后使用prgca模型对预备语料库进行实体关系联合抽取,得到电力作业实体关系联合抽取模型,电力作业实体关系联合抽取模型对全部语料进行实体关系联合抽取,输出实体关系三元组,对三元组进行实体链接,形成实体库,然后将知识抽取与融合得到的实体关系三元组导入图数据库中,形成可视化的电力作业知识图谱。
86、与现有技术相比,本发明一种针对电力作业文本的知识图谱构建方法至少具有以下有益效果:
87、1、本发明提出了一种针对电力作业文本的知识图谱构建流程与方法,包括本体定义、数据处理、知识抽取等过程,有效解决该领域知识图谱的构建方法缺乏的问题。解决了本领域应用的空白。
88、2、本发明在实体识别和实体关系联合抽取模型中分别引入了词汇增强及注意力机制,目的是充分提取语句内字词、位置等特征,来提升模型对实体关系的识别准确性。
89、3、本发明使用先实体识别辅助标注,再联合抽取的模式进行知识抽取,解决了传统流水线模式下实体抽取与关系抽取两部分耦合效果差的问题。
90、4、在实体关系联合抽取模型中对每种关系主客体两次标注模式,能够解决实体重叠问题,甚至同一个三元组中的主客体存在重叠现象的问题也能够得到解决。
91、下面结合附图对本发明一种针对电力作业文本的知识图谱构建方法作进一步说明。