本发明涉及电网用电管理,具体涉及一种基于知识图谱技术的电力行业多源异构数据融合方法。
背景技术:
1、近年来,电力大数据技术得到长足的进步,电力系统对各类海量的电力信息数据进行收集,储存,处理和分析,逐步实现了业内数据的逻辑汇总;
2、对于大数据的处理分析,在电力系统内部不管是在深度还是广度都得到了充分的应用和发展,这对行业效率提升,服务转型优化意义重大。与此同时,行业外部相关数据也爆发式增长,其中来源于互联网的开源数据也成为行业内部进行决策分析,风险评估,预测评判,运维等不可缺少的重要依据,所以,对电力系统内外的数据进行融合成为当前行业的研究重点;
3、电力系统的多源数据库分为两类,一类是对基于不同平台的数据库进行数据融合,这类数据在一些统一方式上有很多相通的地方,另一类是基于同一个平台,但数据库是互不相通的,对于以上提到的数据结构,采用的融合机制也有差异,针对不同平台的数据结构,会采取一种有别于各个待融合平台数据的独立融合机制;
4、对于同一平台的不同数据库,往往只要采用该平台的融合策略即可,在进行对数据的融合之前,需要明确一个重要的问题便是融合数据的统一表达,学术界先后提出rdf,owl等数据表示的方法,2012年,知识图谱技术首次被提出,因为其优越的数据表示能力以及完整的技术配套,得到相关行业的普遍重视,成为异构多源数据融合的首选方案。
技术实现思路
1、本发明的目的是提供一种基于知识图谱技术的电力行业多源异构数据融合方法,以解决背景技术中不足。
2、本发明提出一种基于知识图谱技术的电力行业多源异构数据融合方法,运用新型的文本信息提取技术,将来自行业外部纷繁复杂的数据转换为结构数据,再借助知识图谱技术,实现融合,基于此技术为各电力需求提供支持,并在某电力企业进行部署,验证技术可行性。
3、为了实现上述目的,本发明提供如下技术方案:一种基于知识图谱技术的电力行业多源异构数据融合方法,所述方法包括以下步骤:
4、s1:文本预处理
5、将来自行业外部纷繁复杂的数据转换为结构数据;
6、s2:文本信息提取
7、基于规则的关键信息提取编写规则匹配对象作为语料导入,启用序列标注抽取关键信息,通过输出的训练语料基于开源算法,进行知识图谱建模,通过模型判断剩余语料,若模型判断结果显示不达标,则返回补充语料,直到模型自动判断达标,跳出迭代,并将最近一次生成的模型作为最终模型;
8、s3:知识图谱构建
9、根据目标业务领域的行业知识,同时参照cim,设计知识图谱的结构;
10、s4:通过文本预处理、文本信息提取以及知识图谱构建来对电力系统内外的数据进行融合。
11、在一个优选的实施方式中,步骤s1中,所述文本预处理包括以下步骤:
12、s1.1:中文分词
13、待处理文本中的文字进行分词,划分为多个词段;
14、s 1.2:构建词向量模型
15、文本、视频转化为数字特征,将文本投影到数学维度空间,赋予文本信息对应的向量,表示文本信息。
16、在一个优选的实施方式中,步骤s1.1中,中文分词采用基于序列标注的方法进行提取,包括以下步骤:
17、s 1.1.1:注入语料,基于语料的词性和统计特征对所分词进行建模;
18、s 1.1.2:利用模型描述分词的分布,预测出现的概率,输出分析结果。
19、在一个优选的实施方式中,步骤s2中,所述文本信息提取包括以下步骤:
20、s2.1:基于规则的关键信息提取编写规则匹配对象,匹配对象作为语料导入;
21、s2.2:启用序列标注抽取关键信息,步骤s2.1输出的部分结果作为训练语料替代人工注入语料的过程;
22、s2.3:通过步骤s2.2输出的训练语料基于开源算法,进行知识图谱建模;
23、s2.4:通过步骤s2.3的模型对步骤s2.2中剩余的语料部分进行判断,若模型判断结果显示不达标,则返回步骤s2.1补充语料,直到模型自动判断达标,跳出迭代,并将最近一次生成的模型作为最终模型。
24、在一个优选的实施方式中,步骤s3中,所述知识图谱构建包括以下步骤:
25、s3.1:完成文本信息的提取,开始进行知识图谱的构建;
26、s3.2:根据目标业务领域的行业知识,同时参照cim,设计知识图谱的结构;
27、s3.3:按照图谱结构,调用数据库的api将文本提取结果与实体关系数据匹配,完成知识图谱的创建。
28、在上述技术方案中,本发明提供的技术效果和优点:
29、本发明通过将来自行业外部纷繁复杂的数据转换为结构数据,再借助知识图谱技术,实现融合,基于此技术为各电力需求提供支持,并在某电力企业开展试点应用,对企业的工程项目管理进行风险识别验证,在较好的完成数据融合的基础上实现了对典型风险的识别,验证了技术可行性。本文仅对基于知识图谱技术的电力行业多源异构数据融合进行了论述,但是对基于图计算的挖掘分析没有做进一步的探讨,这是后续需要继续投入研究的重要方向。
1.一种基于知识图谱技术的电力行业多源异构数据融合方法,其特征在于:所述方法包括以下步骤:
2.根据权利要求1所述的一种基于知识图谱技术的电力行业多源异构数据融合方法,其特征在于:步骤s1中,所述文本预处理包括以下步骤:
3.根据权利要求2所述的一种基于知识图谱技术的电力行业多源异构数据融合方法,其特征在于:步骤s1.1中,中文分词采用基于序列标注的方法进行提取,包括以下步骤:
4.根据权利要求1所述的一种基于知识图谱技术的电力行业多源异构数据融合方法,其特征在于:步骤s2中,所述文本信息提取包括以下步骤:
5.根据权利要求1-4任一项所述的一种基于知识图谱技术的电力行业多源异构数据融合方法,其特征在于:步骤s3中,所述知识图谱构建包括以下步骤: