一种面向多源异构电力数据集的集成方法及系统与流程

文档序号:34722283发布日期:2023-07-07 18:28阅读:66来源:国知局
一种面向多源异构电力数据集的集成方法及系统与流程

本发明涉及电力数据管控,尤其公开了一种面向多源异构电力数据集的集成方法及系统。


背景技术:

1、本体最初是哲学领域的概念,对现实世界真实存在所作出的客观描述。人工智能领域的学者neches等人对本体(ontology)进行定义,即:本体是构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义.美国斯坦福大学的gruber给出了本体的定义:本体是概念化的规范说明。基于本体规范描述概念这一特性,利用本体构建规则建立电力领域本体,从建立局部本体出发,运用本体映射规则将局部本体集成,从而构建电力领域本体,为异构环境的元数据集成提供依据。

2、元数据是关于数据的数据,用它可以记录数据库中数据的分布情况。随着网络技术的飞速发展。元数据已经从最初的数据描述和索引方法发展成为数据表现、数据转换、数据管理和数据使用整个信息传输过程中不可或缺的工具和方法之一。电力多源异构数据环境下,数据格式、内容、质量等差别较大。本文运用元数据对异构数据源进行统一的逻辑表示,解决各数据源的异构问题,为数据集成提供统一基础结构,并用于描述集成数据及数据来源。

3、数据集成是将若干个分散的数据源中的数据,逻辑或者物理地集中在一个数据集合中的过程,目标是实现数据共享和信息交流,核心任务是要将互相关联的分布式异构数据源集成到一起。由于数据源的异构性、分布性和自治性,使得数据集成存在诸多难题.为了更好地解决异构性等问题,对元数据进行集成,形成全局元数据,保证更快速地找到用户的需求数据,同时也提高了数据集成的质量和适用度。

4、目前我国电力系统信息化建设已经从以数字化电力系统为中心的各类应用开发阶段逐步发展到以智慧电力系统为中心的系统整合阶段。当前,各电力系统都开发出多种应用系统,利用信息技术实现对发电、电力传输、收费、办公等信息的收集、处理和应用,但由于各部门业务以及分工的不同,导致各应用系统彼此隔离,数据无法联通,产生了“信息孤岛”、数据冗余的问题,数据的价值未能得到充分的开发和利用。

5、近年来,众多学者在异构数据集成方面取得了较为丰硕的科研成果,但是当前工作难点在于多源异构数据集成的存储成本、传输成本均较高,且对网络带宽有很高的要求。

6、因此,现有多源异构数据集成方法中存在的存储成本、传输成本均较高,且对网络带宽有很高的要求,是目前亟待解决的技术问题。


技术实现思路

1、本发明提供了一种面向多源异构电力数据集的集成方法及系统,旨在解决现有多源异构数据集成方法中存在的存储成本、传输成本均较高,且对网络带宽有很高的要求的技术问题。

2、本发明的一方面涉及一种面向多源异构电力数据集的集成方法,包括以下步骤:

3、局部本体构建步骤,构建局部本体;

4、电力领域本体构建步骤,在局部本体的基础上生成电力领域本体;

5、局部元数据抽取步骤,基于局部本体,对局部元数据进行抽取,并形成局部本体与局部元数据之间的映射关系;

6、元数据集成步骤,在电力领域本体的指导下,将局部元数据集成为全局元数据。

7、进一步地,局部本体构建步骤包括:

8、对局部数据源进行全面分析,获得数据库的模式;

9、建立数据库的er模型,在er模型的基础上得到局部本体,形成局部数据源与局部本体之间的关系图,其中,er模型中建立有实体之间的联系。

10、进一步地,电力领域本体构建步骤包括:

11、在得到局部本体之间的映射关系基础上,找到各局部本体中相似的概念;

12、将相同概念的类抽象为电力领域本体中的一个类;将相同类的相同属性抽象为电力领域本体中对应类的属性;将类之间的关系抽象为电力领域本体中的一个关系;如果只在一个数据源中出现的类,则直接将数据源的类和属性放入电力领域本体对应的位置。

13、进一步地,电力领域本体构建步骤中采用cupid本体映射算法来建立本体映射。

14、进一步地,cupid本体映射算法包括:

15、分别计算各个概念的结构相似度,计算出的各个概念的结构相似度为:其中,为各个概念的结构相似度;m1、m2分别是两个本体中的对应概念;c1、c2分别是m1和m2所属的类别;ns(m1,m2)是m1,m2的名字相似度;

16、计算语义相似度,计算出的语义相似度为:

17、

18、其中,为语义相似度,m1、m2分别是两个本体中对应的概念;leaves(m1)是代表m1的叶子;stronglink(x,y)是强连接,即x,y的相似度超过阈值;

19、根据语义相似度和各个概念的结构相似度,计算概念间的综合相似度,计算出的综合相似度为:其中,是综合相似度,是比重系数,sim是语义相似度,lism是计算各个概念的结构相似度;

20、通过将综合相似度与阈值thaccept进行比较,如果综合相似度大于阈值thaccept,则建立两个元素之间的关系,并形成电力领域本体与局部本体之间的映射关系。

21、本发明的另一方面涉及一种面向多源异构电力数据集的集成系统,包括:

22、局部本体构建模块,用于构建局部本体;

23、电力领域本体构建模块,用于在局部本体的基础上生成电力领域本体;

24、局部元数据抽取模块,用于基于局部本体,对局部元数据进行抽取,并形成局部本体与局部元数据之间的映射关系;

25、元数据集成模块,用于在电力领域本体的指导下,将局部元数据集成为全局元数据。

26、进一步地,局部本体构建模块包括:

27、分析单元,用于对局部数据源进行全面分析,获得数据库的模式;

28、建立单元,用于建立数据库的er模型,在er模型的基础上得到局部本体,形成局部数据源与局部本体之间的关系图,其中,er模型中建立有实体之间的联系。

29、进一步地,电力领域本体构建模块包括:

30、搜索单元,用于在得到局部本体之间的映射关系基础上,找到各局部本体中相似的概念;

31、抽象单元,用于将相同概念的类抽象为电力领域本体中的一个类;将相同类的相同属性抽象为电力领域本体中对应类的属性;将类之间的关系抽象为电力领域本体中的一个关系;如果只在一个数据源中出现的类,则直接将数据源的类和属性放入电力领域本体对应的位置。

32、进一步地,局部元数据抽取模块中,采用cupid本体映射算法来建立本体映射。

33、进一步地,cupid本体映射算法包括:

34、分别计算各个概念的结构相似度,计算出的各个概念的结构相似度为:

35、其中,为各个概念的结构相似度;m1、m2分别是两个本体中的对应概念;c1、c2分别是m1和m2所属的类别;ns(m1,m2)是m1,m2的名字相似度;计算语义相似度,计算出的语义相似度为:其中,为语义相似度,m1、m2分别是两个本体中对应的概念;leaves(m1)是代表m1的叶子;stronglink(x,y)是强连接,即x,y的相似度超过阈值;

36、根据语义相似度和各个概念的结构相似度,计算概念间的综合相似度,计算出的综合相似度为:

37、

38、其中,是综合相似度,是比重系数,sim是语义相似度,lism是计算各个概念的结构相似度;

39、通过将综合相似度与阈值thaccept进行比较,如果综合相似度大于阈值thaccept,则建立两个元素之间的关系,并形成电力领域本体与局部本体之间的映射关系。

40、本发明所取得的有益效果为:

41、本发明提供一种面向多源异构电力数据集的集成方法与系统,通过构建局部本体;在局部本体的基础上生成电力领域本体;基于局部本体,对局部元数据进行抽取,并形成局部本体与局部元数据之间的映射关系;在电力领域本体的指导下,将局部元数据集成为全局元数据。本发明提供的面向多源异构电力数据集的集成方法与系统,避免大量数据的存储和传输,可以极大降低数据存储和网络带宽成本;解决了由于各部门业务以及分工的不同,导致各应用系统彼此隔离,数据无法联通,产生了“信息孤岛”、数据冗余的问题,数据的价值得到充分的开发和利用。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1