面向智能电网的数据密集型云存储模型的制作方法

文档序号:6442775阅读:403来源:国知局
专利名称:面向智能电网的数据密集型云存储模型的制作方法
技术领域
本发明属于电力系统信息通信技术领域,涉及一种面向智能电网海量数据环境下的存储方法,该方法可以解决“大数据”存储问题,实现多个数据中心的负载均衡。
背景技术
目前,云存储发展呈现分布式数据密集型趋势,广泛应用于天文学、物理学和生物信息学领域,这类应用的部署和执行所涉及的TB,甚至PB级的数据往往存储于分布式的数据中心,需要多数据中心的有机协同,因此,跨数据中心的数据有效分布具有极其重要的作用一方面,云环境下的应用所需的数据集通常位于多个数据中心,数据中心间的数据传输无可避免,需要考虑网络带宽资源和传输的时间开销;另一方面,分布式环境下的数据依赖性能够有效地提高数据管理和使用的效率,需要设计合理的数据分布策略来保持数据间的依赖关系。此外,数据中心内的数据分布方案对于提升存储系统的可靠性和可用性也具有重要的作用,针对当前广泛应用的SAN存储网络,系统的可扩展性是提升整体性能的首要因素,因此有必要对不同的数据分布模式进行量化分析,兼顾数据的均勻分布和全局的负载均衡。随着电网建设规模的不断扩大,数字化电网、数字化变电站等研究应用的不断深入,系统面对的采集点越来越多。一个中等规模地区的采集量可以达到2万至10万,而一个大型地调未来可能面临50-100万的数据采集规模,一年的数据存储规模将从目前的GB 级转向TB级;此外,随着调度自动化水平的不断提高,提出了实时运行数据不采用周期性采样存储而是按照实际时间序列连续存储的更高的要求,以满足更多的应用需求,这也将导致数据存储规模数十倍的增长,同时,历史数据的存储组织策略以及查询检索策略也将变得相当复杂。如此海量规模的电力信息能否实现有效存储并进行高效处理将是一个很大的问题。常见的数据密集型管理策略主要针对分布式环境下的大规模数据建模和基础设施服务展开研究,例如面向角色的数据建模方法,可用于网格环境下的数据建模,并使用数据网格来对数据进行管理;基于P2P模式的分布式数据建模方法,采用流程定义语言表示其数据流,实现分布存储资源中海量数据集的访问、移动和修改。然而,现有的系统的数据管理策略没有关注数据的存放分布和数据间依赖性的分析,因此无法减少数据迁移所带来的时间开销和提升整体执行效率。

发明内容
本发明结合智能电网的数据特性,通过分析云计算环境下存储应用系统的特点, 在全面分析数据传输次数、数据集大小以及数据中心间网络带宽等因素的基础上,通过聚类分析、依赖性分析和哈希算法对多数据中心的数据集分布进行统筹规划,并引入系统执行效能的代价函数对数据分布方案进行评价和调整,从而在降低系统开销的同时最大限度地兼顾数据集间的依赖关系。为了实现上述发明目的,本发明提出的云存储模型包括多数据中心的数据分布和数据中心内的数据存储两个方面。针对多数据中心的数据分布问题,将智能电网信息平台表示为扁平化的多个分布式数据中心,在此基础上对数据和工作流分别建模,在引入数据集聚类分析的同时设计了两阶段的数据分布方法第一阶段基于K均值分析对数据进行迭代计算,生成初始分类;第二阶段详细分析数据中心间的隶属关系引入数据传输的时间开销评估,形成数据集的最优分布。针对数据中心内的数据存储问题,遵循存储同构原则进行存储设备的逻辑划分,围绕数据存储的有效性和扩展性进行分析,实现系统中不同磁盘间数据的动态分布。本发明的有益效果在于,该数据存储模型完全通过自主设计来实现数据分布和通信算法,克服了传统存储模型在灵活性和实用性上的弊端,使得该存储方法能够有效降低多数据中心间的数据流动开销,以及充分利用数据中心内的存储资源,将有非常广阔的应用前景。


图1是数据分布的实现框图。图2是数据存储的磁盘划分示意图。
具体实施例方式(1) 多数据中心云存储模型
智能电网建设要求贯通智能电网发电、输电、变电、配电、用电、调度六大环节,实现信息的全面采集、流畅传输和高效处理,支撑电力流、信息流、业务流的高度一体化,适应海量信息的可靠存储和管理,提升数据使用效能。本发明将智能电网信息处理抽象成工作流和数据流,结合云存储下数据分布的相关概念进行建模,包括数据模型、应用模型和依赖关系等。智能电网信息平台可以表示为扁平化的多个分布式数据中心组成的集合C=IC1,C2,… CJ,其中Ci表示第i个数据中心。由于云计算的数据类型具有复杂性和多样性特点,因此本发明屏蔽了智能电网环境下数据的结构特性,数据被视为数据密集型应用环境下面向多任务的数据集。定义数据流关联的数据集的全集为D,相应工作流的任务集为T=IT1, T2,… TJ。对于任意的数据集diD,定义描述数据集属性的二元组为<Ti,Si>,其中Ti表示调用数据集Cli的所有任务的集合,Si是数据集屯的大小。对任意的数据集对屯和…,相应的依赖
关系定义为
权利要求
1.面向智能电网的数据密集型云存储模型,其特征在于针对智能电网海量数据存储需求,设计了两阶段的数据分布策略,在分布策略中引入聚类分析和数据依赖关系计算,实现数据在多数据中心的优化配置,从而在智能电网数据密集型工作流环境下,以最小化数据传输开销为目标在移动计算和移动数据这两个环节作出平衡。
2.根据权利要求1所述的面向智能电网的数据密集型云存储模型,其特征在于该存储架构下数据集平均分布于不同的磁盘;在物理磁盘增加或删除的情况下,最小化物理磁盘变化所导致的数据重新分布的开销。
全文摘要
面向智能电网的数据密集型云存储模型。为充分利用计算存储资源,满足智能电网大规模数据可靠存储和高效处理的实际需求,提出了基于云计算的数据密集型存储方法,该方法将数据集映射成数据空间的点集,并设计了二阶段分类过程,第一阶段基于传统的K均值算法实现点集的初始分类,第二阶段针对各数据集与初始聚类的隶属关系,引入数据迁移的代价函数,对初始分类进行调节,实现数据集到数据中心的布局方案。实验结构表明,该算法能够有效地提高数据存取效率和兼顾全局负载均衡。
文档编号G06F3/06GK102523300SQ20111043652
公开日2012年6月27日 申请日期2011年12月23日 优先权日2011年12月23日
发明者丁杰, 吴军民, 周爱华, 奚后玮, 朱力鹏, 韩海韵 申请人:国网电力科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1