一种磁盘阵列数据分布方法及系统的制作方法

文档序号:6597492阅读:160来源:国知局
专利名称:一种磁盘阵列数据分布方法及系统的制作方法
技术领域
本发明涉及一种优化磁盘阵列数据分布的技术,通常用于大规模的、密集访问的
存储系统的应用。
背景技术
随着信息化速度的加快,数据量和访问量爆炸性地增加,存储系统和磁盘阵列正 面临着性能和高数据访问量的压力。 目前, 一些主要的优化磁盘阵列数据分布技术主要是针对当前时刻的磁盘I/O分 布信息来进行一些优化,但是当前的磁盘I/O分布信息并不能够正确地反应下一个时间点 的磁盘I/O信息,这样,即便是对数据分布进行了一些优化,也不能够很好地达到优化的效 果。申请人通过仔细研究后,考虑到如果能够利用采集到的当前时刻的磁盘1/0信息,去准 确的预测未来磁盘的1/0访问分布信息,来制定相应的磁盘数据优化策略,则可以更为可 靠地提高磁盘阵列的性能。 因此如何提供一种方案,使其在显著提高磁盘阵列性能,保证企业对存储系统在 性能、安全性、可靠性等多方面的要求的同时,能够应对当今数据快速增长、大规模集中数 据访问的挑战,是一个亟待解决的问题。

发明内容
本发明要解决的技术问题是,提一种磁盘阵列数据分布方法及系统,可以在传统 的优化磁盘阵列数据分布技术上再次显著提升性能,有助于解决磁盘阵列访问瓶颈的问 题,从而大大提高磁盘访问性能,热别是针对大规模的、访问频繁的视频存储等应用,也有 助于节约企业成本、有助于企业采取更为灵活的存储架构方式。 为了解决上述技术问题,本发明提供了一种磁盘阵列数据分布系统,包括依次相
连的一数据采集模块、一隐马尔科夫模型建立模块、一磁盘I/O状态和分布预测模块、一预
测状态分析模块、一数据重分布策略分析模块,以及一数据迁移模块,其中 所述数据采集模块,用以采集磁盘阵列中各磁盘的1/0访问数据; 所述隐马尔科夫模型建立模块,用以根据所述磁盘阵列中各磁盘的1/0访问数
据,建立磁盘阵列1/0访问分布状态的隐马尔科夫模型; 所述磁盘1/0状态和分布预测模块,用以根据所述磁盘阵列1/0访问分布状态的 隐马尔科夫模型,计算出磁盘1/0处于不同运行状态下的1/0访问概率,选取具备最大I/O 概率的状态序列作为最有可能的磁盘1/0访问状态输出序列; 所述数据重分布策略分析模块,用以对计算出的最有可能的磁盘I/O访问状态输 出序列进行分析,得到热点磁盘、热数据、冷数据的分布情况; 所述数据重分布策略分析模块,用以根据分析出的热点磁盘、热数据、冷数据的分 布情况制定数据重分布的策略; 所述数据迁移模块,用以根据所述数据重分布策略进行数据迁移。
进一步地,上述系统还可具有以下特点 所述隐马尔科夫模型建立模块建立磁盘阵列I/O访问分布状态的隐马尔科夫模型包括 根据所述磁盘阵列中各磁盘的1/0访问数据,计算磁盘访问状态的集合、模型的隐状态个数、可观测符号的集合、磁盘访问状态观测概率矩阵、磁盘访问状态的集合,以及初始状态概率矩阵; 根据磁盘访问状态观测概率矩阵、模型的隐状态个数、可观测符号的集合、磁盘访问状态的集合,以及初始状态概率矩阵,构造状态空间到观察的特征空间的映射,计算出状态转移概率分布; 根据磁盘访问状态观测概率矩阵、可观测符号的集合、磁盘访问状态的集合、初始状态概率矩阵,以及状态转移概率分布构建磁盘阵列1/0访问分布状态的隐马尔科夫模型。
进一步地,上述系统还可具有以下特点
还包括一日志信息模块,其中
所述日志信息模块,用以记录系统信息。
进一步地,上述系统还可具有以下特点
还包括一界面管理模块,其中 所述界面管理模块,用以对所述数据采集模块、所述预测状态分析模块、所述数据
重分布策略分析模块,以及所述日志信息模块中的一个或多个进行监控。 为了解决上述技术问题,本发明还提供了一种磁盘阵列数据分布方法,包括步
骤 采集磁盘阵列中各磁盘的I/O访问数据; 计算磁盘阵列I/O访问的特征参数,包括磁盘访问状态观测概率矩阵、可观测符号的集合、磁盘访问状态的集合、初始状态概率矩阵,以及状态转移概率分布,并以此来构建磁盘阵列1/0访问分布状态的隐马尔科夫模型; 根据所述磁盘阵列I/O访问分布状态的隐马尔科夫模型,计算出磁盘I/O处于不同运行状态下的1/0概率,选取具备最大1/0概率的状态序列作为最有可能的磁盘1/0访问状态输出序列; 对所述最有可能的磁盘I/O访问状态输出序列进行分析,找到热点磁盘、热数据、冷数据分布,据以制定数据重新分布策略; 根据制定好的数据重新分布策略,进行磁盘的数据迁移处理。
进一步地,上述方法还可具有以下特点 所述建立磁盘阵列I/O访问分布状态的隐马尔科夫模型包括步骤 根据所述磁盘阵列中各磁盘的I/O访问数据,计算磁盘访问状态的集合、模型的
隐状态个数、可观测符号的集合、磁盘访问状态观测概率矩阵、磁盘访问状态的集合,以及
初始状态概率矩阵; 根据磁盘访问状态观测概率矩阵、模型的隐状态个数、可观测符号的集合、磁盘访问状态的集合,以及初始状态概率矩阵,构造状态空间到观察的特征空间的映射,计算出状态转移概率分布;
根据磁盘访问状态观测概率矩阵、可观测符号的集合、磁盘访问状态的集合、初始状态概率矩阵,以及状态转移概率分布构建磁盘阵列1/0访问分布状态的隐马尔科夫模型。 进一步地,上述方法还可具有以下特点 通过人机交互界面向用户展示采集到的磁盘阵列1/0信息、预测出的最有可能的
磁盘I/O访问状态输出序列、热点盘信息、磁盘数据迁移信息中的一种或者多种。 本发明提供的一种磁盘阵列数据分布方法及系统,可以在传统的优化磁盘阵列数
据分布技术上再次显著提升性能,有助于解决磁盘阵列访问瓶颈的问题,从而大大提高磁
盘访问性能,热别是针对大规模的、访问频繁的视频存储等应用,也有助于节约企业成本、
有助于企业采取更为灵活的存储架构方式,可以显著提高磁盘阵列性能,能够保证企业对
存储系统在性能、安全性、可靠性等多方面的要求的同时,应对当今数据快速增长、大规模
集中数据访问的挑战。


图1为本发明实施例一种磁盘阵列数据分布系统组成示意 图2为本发明实施例一种磁盘阵列数据分布方法流程示意图。
具体实施例方式
本发明提供了一种磁盘阵列数据分布系统及方法,其基本构思是将隐马尔科夫模型与磁盘阵列数据分布技术有效地结合,利用隐马尔科夫模型优化数据在磁盘阵列中的分布,通过采集一段时间内的I/O访问信息样本,利用隐马尔科夫模型对样本分析并进行磁盘访问信息的预测,根据预测的结果重新组织数据在磁盘阵列上的分布,将冷热数据分离,通过替换业务数据访问路径来提升磁盘阵列性能。
下面将结合附图来详细说明本发明实施方案。
参见图l,该图示出了本发明实施例一种磁盘阵列数据分布系统,包括界面管理
模块、数据采集模块、隐马尔科夫模型建立模块、磁盘1/0状态和分布预测模块、预测状态
分析模块、数据重分布策略分析模块、数据迁移模块,以及日志信息模块,其中 所述界面管理模块,可以对所述数据采集模块、所述预测状态分析模块、所述数据
重分布策略分析模块,以及所述日志信息模块中的一个或者多个进行监控,从而可以为用
户提供对采集的磁盘阵列1/0信息查看、预测出的最有可能的磁盘1/0访问状态输出序列、
热点盘信息查看、磁盘数据迁移信息查看等功能。
所述数据采集模块,用以采集磁盘阵列中各磁盘的1/0访问数据。 所述数据采集模块,可以根据一预设的采集策略,采集磁盘阵列中各磁盘的I/O
访问数据,例如,在预设的时间段内,或者时间点上,采集发生在磁盘阵列中各磁盘上的I/O
访问数据,或者还可以细化到对各磁盘上的各扇区的1/0访问数据,等等。 所述隐马尔科夫模型建立模块,用以根据所述磁盘阵列中各磁盘的1/0访问数
据,建立磁盘阵列1/0访问分布状态的隐马尔科夫模型,具体包括 (1),根据所述磁盘阵列中各磁盘的I/O访问数据,计算磁盘访问状态的集合、模型的隐状态个数、可观测符号的集合、磁盘访问状态观测概率矩阵、磁盘访问状态的集合,
6以及初始状态概率矩阵,其中 磁盘访问状态的集合X,其中X = {Sn . . . , Sn, . . . , SN}, n G [1, N], Sn表示具体的磁盘I/O状态,例如磁盘读状态、写状态、等待读状态,等待写状态等等;
模型的隐状态个数N ;所谓隐状态,是指当前状态是隐含的,并没有确定,例如,当前状态是从等待读状态向读状态迁移的一种状态。 可观测符号的集合0,其中0 = {Vp , Vm, , VM} , m G [1, M] , Vm表示从m状
态可能输出的不同观测值的数目; 磁盘访问状态观测概率矩阵B = {bj (k)},表示状态j下观测的概率值,其中bj (k)=p {ot = vk I qt = Sj} , 1《j《N, 1《k《M ;Ot表示t时刻的观察值,Vk表示从k状态可能输出的不同观测值的数目,qt表示t时刻的磁盘I/O状态,Sj表示磁盘I/O的具体状态;
初始状态概率矩阵JI,其中= { J , i = p {qt = Sj} , 1《i《N, Ji i表示i时刻的磁盘I/O状态,qt表示t时刻的磁盘I/O状态,Sj表示磁盘I/O的具体状态;
(2),根据磁盘访问状态观测概率矩阵、模型的隐状态个数、可观测符号的集合、磁盘访问状态的集合,以及初始状态概率矩阵,构造状态空间到观察的特征空间的映射,计算出状态转移概率分布A; (3),根据磁盘访问状态观测概率矩阵、可观测符号的集合、磁盘访问状态的集合、初始状态概率矩阵,以及状态转移概率分布A这5个磁盘阵列1/0访问的特征参数,构建一个磁盘阵列1/0访问分布状态的隐马尔科夫模型A = (x,O, Ji,A,B)。
所述磁盘I/O状态和分布预测模块,用以根据所述磁盘阵列I/O访问分布状态的隐马尔科夫模型,计算出磁盘I/O处于不同运行状态下的I/O概率,选取具备最大I/O概率的状态序列作为最有可能的磁盘1/0访问状态输出序列; 所述预測状态分析模块,用以对计算出的最有可能的磁盘I/0访问状态输出序列进行分析,得到热点磁盘、热数据、冷数据的分布情况。 所述数据重分布策略分析模块,用以根据分析出的热点盘、热数据分布、冷数据分
布等信息制定数据重分布的策略。例如,将访问频率非常高且所在物理磁盘存储容量高负
荷(磁盘内存储的数据接近上限)的数据迁移至数据访问量较低,且磁盘容量低负荷的磁
盘上,以通过冷热数据分离达到提升性能的效果。 所述数据迁移模块17,根据数据重分布策略进行数据迁移。 所述日志信息模块18,记录系统信息。 参见图2,该图示出了基于隐马尔科夫模型优化磁盘阵列数据分布方法,包括如下步骤 步骤S201 :采集磁盘阵列中各磁盘的I/O访问数据; 根据一预设的采集策略,采集磁盘阵列中各磁盘的1/0访问数据,例如,在预设的时间段内,或者时间点上,采集发生在磁盘阵列中各磁盘上的1/0访问数据,或者还可以细化到对各磁盘上的各扇区的1/0访问数据。 步骤S202 :计算磁盘阵列I/O访问的特征参数,包括磁盘访问状态观测概率矩阵、可观测符号的集合、磁盘访问状态的集合、初始状态概率矩阵,以及状态转移概率分布,并以此来构建磁盘阵列1/0访问分布状态的隐马尔科夫模型; 构建磁盘阵列I/O访问分布状态的隐马尔科夫模型具体包括如下步骤
7
(1),根据所述磁盘阵列中各磁盘的I/O访问数据,计算磁盘访问状态的集合、模型的隐状态个数、可观测符号的集合、磁盘访问状态观测概率矩阵、磁盘访问状态的集合,以及初始状态概率矩阵,其中 磁盘访问状态的集合X,其中X = {Sn . . . , Sn, . . . , SN}, n G [1, N], Sn表示具体的磁盘I/O状态,例如磁盘读状态、写状态、等待读状态,等待写状态等等;
模型的隐状态个数N;所谓隐状态,是指当前状态是隐含的,并没有确定,例如,当前状态是从等待读状态向读状态迁移的一种状态。 可观测符号的集合O,其中0 = {Vp . . . , Vm, . . . , VM}, m G [1, M] , Vm表示从m状
态可能输出的不同观测值的数目; 磁盘访问状态观测概率矩阵B = {bj (k)},表示状态j下观测的概率值,其中bj (k)=p {ot = vk I qt = Sj} , 1《j《N, 1《k《M ;Ot表示t时刻的观察值,Vk表示从k状态可能输出的不同观测值的数目,qt表示t时刻的磁盘I/O状态,Sj表示磁盘I/O的具体状态;
初始状态概率矩阵JI,其中= { J , i = p {qt = Sj} , 1《i《N, Ji i表示i时刻的磁盘I/O状态,qt表示t时刻的磁盘I/O状态,Sj表示磁盘I/O的具体状态;
(2),根据磁盘访问状态观测概率矩阵、模型的隐状态个数、可观测符号的集合、磁盘访问状态的集合,以及初始状态概率矩阵,构造状态空间到观察的特征空间的映射,计算出状态转移概率分布A; (3),根据磁盘访问状态观测概率矩阵、可观测符号的集合、磁盘访问状态的集合、
初始状态概率矩阵,以及状态转移概率分布A这5个磁盘阵列1/0访问的特征参数,构建一
个磁盘阵列1/0访问分布状态的隐马尔科夫模型A = (x,O, Ji,A,B)。 步骤S203 :根据所述磁盘阵列I/O访问分布状态的隐马尔科夫模型,计算出磁盘
1/0处于不同运行状态下的I/0概率,选取具备最大I/0概率的状态序列作为最有可能的磁
盘1/0访问状态输出序列;假设^) = 11^乂^^24-1,9,=''"102.4,|义]为1时刻最大的s (i)所表
示磁盘I/O访问的状态序列集合。(V . . Ot表示给定的观察序列集合,Ql......qt表示在
(V . . Ot状态序列下对应的预测的状态序列集合,则可采用如下具体步骤来计算最有可能的磁盘I/O访问状态输出序列 (1),首先对隐马尔科夫模型状态序列进行初始化; S丄(i) = Ji A (0i) , 1《i《N Ji ,表示初始状态空间的概率分布
A(O表示在状态下观测到Qi状态的概率
bj(0i)表示在0i条件下输出相应观察值的概率。
(2),然后递归计算St(i)的概率; 《(力=max OX ]~ (o'),=arg max [《—i (/) ],2"r,l华A^
iy, "7
8
aij表示由i状态到j状态的转移概率。
(3),找出计算St(i)的概率最大值p* = max[^r(0]
i&, ^ =arg max[& (' )] p^为St(i)最大概率值。 q 为St(i)的状态输出序列的数学期望。
(4),根据St(i)的概率最大值找到最有可能的磁盘I/0访问状态输出序列
q*t = (tt+1(q*t+1) , t = T-l, T_2, , 1
q*t+1为S t(i)的状态输出序列的数学期望。 步骤S204 :对所述最有可能的磁盘I/O访问状态输出序列进行分析,找到热点磁盘、热数据、冷数据分布,据以制定数据重新分布策略; 例如,将访问频率非常高且所在物理磁盘存储容量高负荷(磁盘内存储的数据接近上限)的数据迁移至数据访问量较低,且磁盘容量低负荷的磁盘上,以通过冷热数据分离达到提升性能的效果。 步骤S205 :根据制定好的数据重新分布策略,进行磁盘的数据迁移处理。 较佳地,还可以通过人机交互界面向用户展示采集到的磁盘阵列I/O信息、预测
出的最有可能的磁盘i/o访问状态输出序列、热点盘信息、磁盘数据迁移信息中的一种或
者多种。 至此,已经完整实现了磁盘阵列数据分布优化的全过程,这种技术在传统的优化数据分布的技术上,通过隐马尔科夫模型预测出磁盘I/O的状态分布,再一次提升磁盘阵列的性能。 因此采用这种技术,可以显著提高磁盘阵列性能,能够保证企业对存储系统在性能、安全性、可靠性等多方面的要求的同时,应对当今数据快速增长、大规模集中数据访问的挑战。 以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
一种磁盘阵列数据分布系统,其特征在于,包括依次相连的一数据采集模块、一隐马尔科夫模型建立模块、一磁盘I/O状态和分布预测模块、一预测状态分析模块、一数据重分布策略分析模块,以及一数据迁移模块,其中所述数据采集模块,用以采集磁盘阵列中各磁盘的I/O访问数据;所述隐马尔科夫模型建立模块,用以根据所述磁盘阵列中各磁盘的I/O访问数据,建立磁盘阵列I/O访问分布状态的隐马尔科夫模型;所述磁盘I/O状态和分布预测模块,用以根据所述磁盘阵列I/O访问分布状态的隐马尔科夫模型,计算出磁盘I/O处于不同运行状态下的I/O访问概率,选取具备最大I/O概率的状态序列作为最有可能的磁盘I/O访问状态输出序列;所述数据重分布策略分析模块,用以对计算出的最有可能的磁盘I/O访问状态输出序列进行分析,得到热点磁盘、热数据、冷数据的分布情况;所述数据重分布策略分析模块,用以根据分析出的热点磁盘、热数据、冷数据的分布情况制定数据重分布的策略;所述数据迁移模块,用以根据所述数据重分布策略进行数据迁移。
2. 如权利要求1所述的系统,其特征在于,所述隐马尔科夫模型建立模块建立磁盘阵 列1/0访问分布状态的隐马尔科夫模型包括根据所述磁盘阵列中各磁盘的1/0访问数据,计算磁盘访问状态的集合、模型的隐状 态个数、可观测符号的集合、磁盘访问状态观测概率矩阵、磁盘访问状态的集合,以及初始 状态概率矩阵;根据磁盘访问状态观测概率矩阵、模型的隐状态个数、可观测符号的集合、磁盘访问状 态的集合,以及初始状态概率矩阵,构造状态空间到观察的特征空间的映射,计算出状态转 移概率分布;根据磁盘访问状态观测概率矩阵、可观测符号的集合、磁盘访问状态的集合、初始状态 概率矩阵,以及状态转移概率分布构建磁盘阵列1/0访问分布状态的隐马尔科夫模型。
3. 如权利要求1所述的系统,其特征在于,还包括一日志信息模块,其中 所述日志信息模块,用以记录系统信息。
4. 如权利要求3所述的系统,其特征在于,还包括一界面管理模块,其中 所述界面管理模块,用以对所述数据采集模块、所述预测状态分析模块、所述数据重分布策略分析模块,以及所述日志信息模块中的一个或多个进行监控。
5. —种磁盘阵列数据分布方法,其特征在于,包括步骤 采集磁盘阵列中各磁盘的1/0访问数据;计算磁盘阵列1/0访问的特征参数,包括磁盘访问状态观测概率矩阵、可观测符号的集合、磁盘访问状态的集合、初始状态概率矩阵,以及状态转移概率分布,并以此来构建磁盘阵列1/0访问分布状态的隐马尔科夫模型;根据所述磁盘阵列1/0访问分布状态的隐马尔科夫模型,计算出磁盘1/0处于不同运 行状态下的1/0概率,选取具备最大1/0概率的状态序列作为最有可能的磁盘1/0访问状 态输出序列;对所述最有可能的磁盘I/O访问状态输出序列进行分析,找到热点磁盘、热数据、冷数 据分布,据以制定数据重新分布策略;根据制定好的数据重新分布策略,进行磁盘的数据迁移处理。
6. 如权利要求5所述的方法,其特征在于,所述建立磁盘阵列1/0访问分布状态的隐马 尔科夫模型包括步骤根据所述磁盘阵列中各磁盘的1/0访问数据,计算磁盘访问状态的集合、模型的隐状 态个数、可观测符号的集合、磁盘访问状态观测概率矩阵、磁盘访问状态的集合,以及初始 状态概率矩阵;根据磁盘访问状态观测概率矩阵、模型的隐状态个数、可观测符号的集合、磁盘访问状 态的集合,以及初始状态概率矩阵,构造状态空间到观察的特征空间的映射,计算出状态转 移概率分布;根据磁盘访问状态观测概率矩阵、可观测符号的集合、磁盘访问状态的集合、初始状态 概率矩阵,以及状态转移概率分布构建磁盘阵列1/0访问分布状态的隐马尔科夫模型。
7. 如权利要求5所述的方法,其特征在于通过人机交互界面向用户展示采集到的磁盘阵列1/0信息、预测出的最有可能的磁盘 1/0访问状态输出序列、热点盘信息、磁盘数据迁移信息中的一种或者多种。
全文摘要
本发明提出一种磁盘阵列数据分布方法及系统,该方法包括采集磁盘阵列的I/O访问数据;计算磁盘阵列I/O访问的特征参数,包括磁盘访问状态观测概率矩阵、可观测符号的集合、磁盘访问状态的集合、初始状态概率矩阵,以及状态转移概率分布,据以构建磁盘阵列I/O访问分布状态的隐马尔科夫模型;基于构建好的隐马尔科夫模型进行计算,得到具备最大I/O概率的状态序列,以其作为最有可能的磁盘I/O访问状态输出序列;对所述最有可能的磁盘I/O访问状态输出序列进行分析,找到热点磁盘、热数据、冷数据分布,据以制定数据重新分布策略;根据所述数据重新分布策略,进行磁盘的数据迁移。该方法可以大大提高磁盘访问性能。
文档编号G06F3/06GK101751234SQ20101003448
公开日2010年6月23日 申请日期2010年1月21日 优先权日2010年1月21日
发明者张雷 申请人:浪潮(北京)电子信息产业有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1