智能存储自动分级的方法、装置、存储介质及电子设备与流程

文档序号:23832868发布日期:2021-02-03 18:38阅读:71来源:国知局
智能存储自动分级的方法、装置、存储介质及电子设备与流程

[0001]
本发明涉及数据存储的技术领域,具体涉及一种智能存储自动分级的方法、装置、存储介质及电子设备。


背景技术:

[0002]
随着nvme(non-volatile memory express,非易失性内存主机控制器接口规范)等高性能存储技术的快速发展,存储的密度和性能有很大的提升。但是出于价格、能耗、数据安全性、稳定性的考量,海量的数据不可能完全存储在高性能存储介质中。为了减少用户存储数据的成本,同时又保证核心数据的存储性能,可以将不同类别的数据存储至不同的存储介质中。例如,将不经常使用的数据,即为冷数据,可存储至响应速度慢,但是存储成本低的存储介质中,将频繁使用的数据,即为热数据,可存储至相应速度快,但是存储成本高的存储介质中。
[0003]
目前,用户需要通过对自身业务的预期,预先购买用于存储冷数据的存储介质的存储容量,及用于存储热数据的存储介质的存储容量。在使用时,需用户自己进行数据的分类,进而存储至不同的存储介质中。存储效率较低,且划分不准确,容易造成存储资源的浪费。


技术实现要素:

[0004]
本发明提供一种智能存储自动分级的方法、装置、存储介质及电子设备,用以实现自动进行数据的分级存储,提高存储效率,降低存储资源的浪费。
[0005]
为实现上述目的,本发明的技术方案如下:本申请提供了一种智能存储自动分级的方法,包括:获取目标数据的预期数据访问价值信息,其中,数据访问价值信息是用于标示出用户对目标数据的访问价值及需求的信息;
[0006]
获取目标数据的数据持有成本信息;所述数据持有成本信息与所述目标数据的存储成本相关;
[0007]
根据所述目标数据的预期数据访问价值信息及目标数据的数据持有成本信息,得到目标数据的目标存储介质,将所述目标数据存储至所述目标存储介质中。
[0008]
可选地,所述获取目标数据的预期数据访问价值信息包括:
[0009]
获取目标数据的访问价值的信息、目标数据的访问概率的信息及目标数据的延时价值系数的信息;
[0010]
根据所述目标数据的访问价值的信息、目标数据的访问概率的信息及目标数据的延时价值系数的信息,计算出预期数据访问价值信息。
[0011]
可选地,所述数据持有成本信息包括:数据存储成本的信息及数据迁移成本的信息。
[0012]
可选地,所述根据所述目标数据的预期数据访问价值信息及目标数据的数据持有成本信息,得到目标数据的目标存储介质包括:
[0013]
根据所述目标数据的预期数据访问价值信息及目标数据的数据存储成本信息,利用公式且约束条件为:且约束条件为:计算所述目标数据的目标预期数据访问价值总和;其中,m表示目标数据,k,i,j均表示存储介质,vm表示目标数据m 的访问价值,hm表示目标数据m的访问概率,表示目标数据m在存储介质 k上的延时价值系数;表示长度为存储种类的布尔向量;sm表示目标数据 m的大小,表示存储介质k的的存储成本,t表示存储时间,表示目标数据m由存储介质i迁移至存储介质j的数据迁移成本,为布尔向量,为布尔向量,b表示预期存储成本;
[0014]
根据所述目标数据的目标预期数据访问价值总和,确定所述目标数据的目标存储介质。
[0015]
可选地,所述获取目标数据的访问概率的信息包括:
[0016]
获取用户的数据访问历史记录;
[0017]
根据所述用户的数据访问历史记录,利用分类预测模型,获取所述目标数据的访问概率的信息。
[0018]
可选地,在所述获取目标数据的预期数据访问价值信息之前,还包括:
[0019]
将待处理的文件数据通过聚类的方式聚合为不同类别的文件数据,以得到目标数据。
[0020]
可选地,所述目标存储介质包括:固态硬盘ssd

机械硬盘hhd、磁带中的至少一个。
[0021]
进一步地,本申请提供了一种智能存储自动分级的装置,包括:
[0022]
获取单元,用于获取目标数据的预期数据访问价值信息,其中,数据访问价值信息是用于标示出用户对目标数据的访问价值及需求的信息;
[0023]
所述获取单元,还用于获取目标数据的数据持有成本信息;所述数据持有成本信息与所述目标数据的存储成本相关;
[0024]
处理单元,用于根据所述目标数据的预期数据访问价值信息及目标数据的数据持有成本信息,得到目标数据的目标存储介质,将所述目标数据存储至所述目标存储介质中。
[0025]
可选地,获取单元,具体用于获取目标数据的访问价值的信息、目标数据的访问概率的信息及目标数据的延时价值系数的信息;
[0026]
根据所述目标数据的访问价值的信息、目标数据的访问概率的信息及目标数据的延时价值系数的信息,计算出预期数据访问价值信息。
[0027]
可选地,所述数据持有成本信息包括:数据存储成本的信息及数据迁移成本的信息。
[0028]
可选地,处理单元具体用于,根据所述目标数据的预期数据访问价值信息及目标数据的数据存储成本信息,利用公式利用公式且约束条
件为:件为:计算所述目标数据的目标预期数据访问价值总和;其中,m表示目标数据,k,i,j均表示存储介质, vm表示目标数据m的访问价值,hm表示目标数据m的访问概率,表示目标数据m在存储介质k上的延时价值系数;表示长度为存储种类的布尔向量;sm表示目标数据m的大小,表示存储介质k的的存储成本,t表示存储时间,表示目标数据m由存储介质i迁移至存储介质j的数据迁移成本,为布尔向量,为布尔向量,b表示预期存储成本;
[0029]
根据所述目标数据的目标预期数据访问价值总和,确定所述目标数据的目标存储介质。
[0030]
可选地,获取单元具体用于,获取用户的数据访问历史记录;
[0031]
根据所述用户的数据访问历史记录,利用分类预测模型,获取所述目标数据的访问概率的信息。
[0032]
可选地,还包括:
[0033]
聚合单元,用于将待处理的文件数据通过聚类的方式聚合为不同类别的文件数据,以得到目标数据。
[0034]
可选地,所述目标存储介质包括:固态硬盘ssd、机械硬盘hhd、磁带中的至少一个。
[0035]
进一步地,本申请还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例所述的智能存储自动分级的方法的步骤。
[0036]
进一步地,本申请还提供了一种电子设备,包括:
[0037]
存储器,其上存储有计算机程序;
[0038]
处理器,用于执行所述存储器中的所述计算机程序,以实现上述实施例所述的智能存储自动分级的方法。
[0039]
通过上述技术方案,本申请公开了一种智能存储自动分级的方法、装置、存储介质及电子设备,包括:获取目标数据的预期数据访问价值信息;获取目标数据的数据持有成本信息;根据所述目标数据的预期数据访问价值信息及目标数据的数据持有成本信息,得到目标数据的目标存储介质,将所述目标数据存储至所述目标存储介质中。这样一来,通过获取目标数据的预期数据访问信息及数据持有成本信息,并根据获取的预期数据访问信息及数据持有成本信息,计算得到目标数据的目标存储介质,进而将目标数据进行数据的存储,实现自动分级存储。本申请中确定目标数据的存储介质是通过计算确定的,并不是用户自己确定,实现了自动对数据进行分级存储,提高了存储效率,减少了存储资源的浪费。
附图说明
[0040]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
[0041]
图1为本发明实施例提供的一种智能存储自动分级的方法的示意图;
[0042]
图2为本发明实施例提供的另一种智能存储自动分级的方法的示意图;
[0043]
图3为本发明实施例提供的一种文件数据分类示例图;
[0044]
图4为本发明实施例提供的一种智能存储自动分级的装置的结构示意图;
[0045]
图5本发明实施例提供的另一种智能存储自动分级的装置的结构示意图;
[0046]
图6为本发明实施例提供的一种电子设备的结构示意图;
[0047]
图7为本发明实施例提供的另一种电子设备的结构示意图。
[0048]
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0049]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0050]
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
[0051]
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0052]
在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0053]
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
[0054]
在现有技术中,用户需要通过对自身业务的预期,预先购买用于存储冷数据的存储介质的存储容量,及用于存储热数据的存储介质的存储容量。在使用时,需用户自己进行数据的分类,进而存储至不同的存储介质中。存储效率较低,且划分不准确,容易造成存储资源的浪费。
[0055]
在本申请中,通过获取目标数据的预期数据访问信息及数据持有成本信息,并根据获取的预期数据访问信息及数据持有成本信息,计算得到目标数据的目标存储介质,进而将目标数据进行数据的存储。这样在本申请中确定目标数据的存储介质是通过计算确定的,并不是用户自己确定,实现了自动对数据进行分级存储,提高了存储效率,减少了存储资源的浪费。
[0056]
如图1所示,本发明提出一种智能存储自动分级的方法,包括:
[0057]
步骤s101、获取目标数据的预期数据访问价值信息。
[0058]
其中,数据访问价值信息是用于标示出用户对目标数据的访问价值及需求的信息。
[0059]
具体的,智能存储自动分级的装置在对目标数据进行分级存储之前,需要了解用户对目标数据的访问价值和需求,因此,可以先获取目标数据的预期数据访问价值信息。用户可以直接根据其业务需求,设定目标数据的预期数据访问价值,此时获取用户设定的目标数据的预期数据访问价值,即为获取了目标数据的预期数据访问价值信息。
[0060]
当然,用户也可以预先设定数据访问的价值模型,通过此模型获取。例如,预先设定数据访问的价值模型为:其中,m表示目标数据,k表示存储介质,表示目标数据m的访问价值,h
m
表示目标数据 m的访问概率,表示目标数据m在存储介质k上的延时价值系数。此时,在通过数据访问的价值模型获取预期数据访问价值信息时,需要先获取模型的参数信息,此时获取目标数据的预期数据访问价值信息包括:
[0061]
获取目标数据的访问价值的信息、目标数据的访问概率的信息及目标数据的延时价值系数的信息。根据所述目标数据的访问价值的信息、目标数据的访问概率的信息及目标数据的延时价值系数的信息,计算出预期数据访问价值信息。
[0062]
在本实施例中,所有数据的访问价值由用户根据实际业务需求预先设定。用户还需根据实际业务需求预先设定延时价值对应表,在延时价值对应表中记录了不同数据对应的延时价值系数。此时,可以直接获取用户设定的目标数据的访问价值的信息,通过查找延时价值对应表获取目标数据的延时价值系数的信息。目标数据的访问概率的信息也可以由用户设定,但是为了提高其数值的准确性,可以利用分类预测模型获取。
[0063]
此时,获取目标数据的访问概率的信息包括:
[0064]
获取用户的数据访问历史记录;根据用户的数据访问历史记录,利用分类预测模型,获取目标数据的访问概率的信息。
[0065]
需要说明的是,分类预测模型可以是现有的模型,例如lstm(longshort-term memory,长短期记忆网络),随机森林等分类预测模型,本申请对此不做限制。
[0066]
需要说明的是,延时对数据价值的影响为反相趋势,但是并不是线性关系。延时价值系数越大延时越小,例如,延时小于2毫秒,延时价值系数为1,延时大于5秒,延时价值系数为0。
[0067]
在获取了目标数据的访问价值的信息、目标数据的访问概率的信息及目标数据的延时价值系数的信息后,可以将目标数据的访问价值的信息、目标数据的访问概率的信息及目标数据的延时价值系数的信息根据公式及目标数据的延时价值系数的信息根据公式计算出预期数据访问价值信息。
[0068]
通过上述步骤s101可知,目标数据自身的访问价值越高,被范围的可能性越大,则存储介质性能越好,其对用户的利益就越大。
[0069]
步骤s102、获取目标数据的数据持有成本信息。
[0070]
其中,数据持有成本信息与目标数据的存储成本相关。
[0071]
具体的,数据持有成本信息包括:数据存储成本的信息及数据迁移成本的信息。由于用户需要购买数据在存储介质中的存储容量,因此需要获知不同存储介质的数据存储相
关成本。
[0072]
需要说明的是,由于存储介质的存储容量是用户向存储介质的服务提供商购买的,因此存储介质的服务提供商可以提供以下信息:1)、数据存储成本,即为单位时间、单位容量目标数据存储在存储介质k上的价格2)、数据的迁移成本,即为单位容量数据在不同存储介质之间转移而产生的成本。表示单位容量的目标数据从存储介质i转移到存储介质j的成本。3)、性能指标,即为不同类别的存储介质的性能指标。
[0073]
通过服务提供商,智能存储自动分级的装置可以获取数据存储成本的信息及数据迁移成本的信息。
[0074]
步骤s103、根据目标数据的预期数据访问价值信息及目标数据的数据持有成本信息,得到目标数据的目标存储介质,将所述目标数据存储至所述目标存储介质中。
[0075]
具体的,如果所有数据存储在性能最好的存储介质中,用户的预期数据访问价值达到最大化,但是用户的数据持有成本很高。而如果所有数据存储在冷存储介质上,用户数据持有成本很低,但是不能满足用户对数据的性能需求,用户的预期数据访问价值较低,数据失去其存在价值。因此需要在预期数据访问价值和数据持有成本之间达到优化平衡,在优化平衡时对应的各个数据的存储介质即为目标存储介质,从而可以将各个目标数据存储至其对应的目标存储介质中。由于目标数据有多个,因此需要在各目标数据的预期数据访问价值总和与总数据持有成本之间达到优化平衡。此时,将总数据持有成本小于预期存储成本为约束条件的情况下,需将预期数据访问价值总和最大化。这样一来,可以在总数据持有成本小于预期存储成本为约束条件的情况下,将各目标数据进行排列组合,并计算针对每种排列组合后的目标数据在存储介质中的预期数据访问价值总和,获取在满足约束条件下的最优的预期数据访问价值总和,进而可以将最优的预期数据访问价值总和下,各个目标数据对应的存储介质,确定为目标存储介质,将各目标数据分别存储至其对应的目标存储介质中,实现自动分级存储。
[0076]
需要说明的是,预期存储成本是用户根据实际需求预先设置的。
[0077]
进一步地,根据目标数据的预期数据访问价值信息及目标数据的数据持有成本信息,得到目标数据的目标存储介质包括:
[0078]
根据目标数据的预期数据访问价值信息及目标数据的数据存储成本信息,利用公式且约束条件为:且约束条件为:计算出目标数据的目标预期数据访问价值总和。
[0079]
根据目标数据的目标预期数据访问价值总和,确定目标数据的目标存储介质。
[0080]
其中,m表示目标数据,k,i,j均表示存储介质,v
m
表示目标数据m的访问价值,h
m
表示目标数据m的访问概率,表示目标数据m在存储介质k 上的延时价值系数;表示长度为存储种类的布尔向量;s
m
表示目标数据m 的大小,表示存储介质k的存储成本,t表示存储时间,表示目标数据 m由存储介质i迁移至存储介质j的数据迁移成本,为布
尔向量,为布尔向量,b表示预期存储成本。
[0081]
在本实施例中,约束条件约束条件是控制存储成本。约束条件是为了保证每个目标数据均存储在某个存储介质中。约束条件是为了保证为布尔向量。
[0082]
在上述公式中是在约束条件为::的情况下,可以通过调整每个目标数据对应的的值,计算出目标数据的所有可能的预期数据访问价值总和。在目标数据的各个可能的预期数据访问价值总和中选出最大值作为目标数据的目标预期数据访问价值总和。
[0083]
在本申请中,通过上述步骤s101可以获知每个目标数据m的预期访问价值,即为获取每个目标数据m的通过上述步骤s102可以获知每种存储介质的数据存储成本及迁移成本
[0084]
预期数据访问价值总和可以通过如下公式表示:预期数据访问价值总和可以通过如下公式表示:其中,表示长度为存储种类的布尔向量,其值为1时表示目标数据m应存储在存储介质k中,其值为0时表示目标数据m不应存储在存储介质k 中。
[0085]
总数据持有成本可以通过如下公式表示:总数据持有成本可以通过如下公式表示:其中,为布尔向量,1表示目标数据m从存储介质i迁移到存储介质j,0表示目标数据m不从存储介质i迁移至存储介质j 中。为目标数据的存储成本,为目标数据的迁移成本。是长度为存储种类的布尔向量,只有一项值为1,其余为0,1表示目标数据m目前存储在存储介质i中,0表示目标数据m目前没有存储在存储介质i中。当目标数据m目前存储的介质和未来希望存储的介质相同时,的非对角线上所有项为0,用户没有迁移成本。而当目标数据m目前存储在存储介质a,需要迁移到存储介质b时,目标数据m对应的为1,且目标数据m应存储至其他存储介质的情况对应的的值均为0,目标数据m对应的为1,且目标数据m当前存储至其他存储介质的情况对应的的值为0。此时,通过公式可以计算出为1,的其他所有项均为0。此时表示用户需要为目标数据m支付的数据迁移成本。
[0086]
需要说明的是,对于某个大小为s
m
的目标数据m,其在时间段t存储在存储介质i的成本为当被迁移到存储介质j后相同时间段t的存储成本为
这样的机制限制了数据频繁的在不同介质之间的迁移,造成硬件不必要的磨损。
[0087]
这样,通过调整上述公式中的值,可以针对所有目标数据分别在不同的存储介质时的所有可能情况,均计算出对应的预期数据访问价值总和,得到多个预期数据访问价值总和。在满足约束条件的情况下,最大化预期数据访问价值总和,从而将满足约束条件的情况下的最大预期数据访问价值总和,确定为目标预期数据访问价值总和。进而可以根据目标预期数据访问价值总和,确定出目标存储介质,进而将目标数据对应存储至目标存储介质中。在本申请中,将对冷热数据交换优化需人工判断的问题,转换为数学上的优化问题,可以实现自动确定存储介质,无需人工判定,提高了存储准确性。
[0088]
并且在本申请中需要使用数据访问价值的信息及延时价值系数的信息,通过这两个参数可以体现用户对存储系统的性能需求,满足用户的实际需求。
[0089]
示例性的,目标数据有数据q,数据p,数据l,存储介质有存储介质a,存储介质b。当数据q应存储至存储介质a,数据p及数据l应存储至存储介质b 时,则针对数据q的的值为1,的值为0,及的值为1,及的值为 0。同理,针对数据p、数据l及数据q存储至其他存储介质的情况,的值随之改变,在此不再赘述。
[0090]
此时,通过公式可以计算出出出出出出出出
[0091]
即为针对数据q,数据p,数据l分别存储至存储介质a,存储介质b共有8种情况,针对每种情况均需计算出总预期数据访问价值,进而可以计算出8个预期数据访问价值总和。
[0092]
假设数据q现存储在存储介质a中,数据p现存储在存储介质b中,数据l 现存储在存储介质a中。同时针对上述8种组合,每种组合都会对应一个总数据持有成本。具体如下:
[0093]
对应于而言,需要将数据p 由存储介质b迁移至存储介质a中,此时对应的总数据持有成本为:若c1小于b时,则满足约束条件,则可以将作为目标数据q,p,l的目标预期数据访问价值总和。
[0094]
对应于而言,需要将数据p 由存储介质b迁移至存储介质a中,数据l由存储介质a迁移至存储介质b中,此时对应的总数据持有成本为:若c2小于b 时,则满足约束条件,则可以将作为目标数据q,p,l的目标预期数据访问价值总和。
[0095]
对应于而言,数据q,p,l 无需进行
存储介质的迁移,此时对应的总数据持有成本为:若c3小于b时,则满足约束条件,则可以将作为目标数据q,p,l的目标预期数据访问价值总和。
[0096]
对应于数据l需由存储介质a迁移至存储介质b中,此时,对应的总数据持有成本为:若c4小于b时,则满足约束条件,则可以将作为目标数据q,p,l的目标预期数据访问价值总和。
[0097]
对应于而言,需要将数据q 由存储介质a迁移至存储介质b中,数据p由存储介质b迁移至存储a中,此时对应的总数据持有成本为:若c5小于b 时,则满足约束条件,则可以将作为目标数据q,p,l的目标预期数据访问价值总和。
[0098]
对应于而言,需将数据q由存储介质a迁移至存储介质b中,数据p由存储介质b迁移至存储a中,数据l由存储介质a迁移至存储介质b中,此时,对应的总数据持有成本为:若c6小于b时,则满足约束条件,则可以将作为目标数据q,p,l的目标预期数据访问价值总和。
[0099]
对应于而言,需将数据q由存储介质a迁移至存储介质b中,此时,对应的总数据持有成本为:若c7小于b时,则满足约束条件,则可以将作为目标数据q,p,l的目标预期数据访问价值总和。
[0100]
对应于而言,需将数据q由存储介质a迁移至存储介质b中,数据l此由存储介质a迁移至存储介质b中,此时,对应的总数据持有成本为:若c8小于b 时,则满足约束条件,则可以将作为目标数据q,p,l的目标预期数据访问价值总和。
[0101]
如果在所有满足约束条件的组合中最大,则可以根据中各目标数据对应的存储介质,确定为个目标数据的目标存储介质。即为,根据可以确定数据q的目标存储介质为存储介质b,数据p的目标存储介质为存储介质a,数据l的目标存储介质为存储介质c。将各个目标数据存储至相应的目标存储介质中。
[0102]
进一步地,上述过程可以使用优化算法cplex、xpress,实现在保证约束条件成立的情况下,确定出目标存储介质。
[0103]
进一步地,上述目标存储介质包括:ssd(solid state disk,固态硬盘)、 hhd(hard disk drive,机械硬盘)、磁带等盘中的至少一个。
[0104]
需要说明的是,目标存储介质还可以是其他可以进行数据存储的存储设备或存储器件,本申请对此不做限制。
[0105]
这样一来,通过获取目标数据的预期数据访问信息及数据持有成本信息,并根据获取的预期数据访问信息及数据持有成本信息,计算出目标数据的最优的总预期数据访问价值,并根据最优的总预期数据访问价值,确定出目标存储介质,进而将目标数据进行数据的存储。本申请中确定目标数据的存储介质是通过计算确定的,并不是用户自己确定,实现了自动进行数据的分级存储,提高了存储效率,降低了存储资源的浪费。
[0106]
进一步地,如图2所示,在上述步骤s101之前,还包括:
[0107]
步骤s104、将待处理的文件数据通过聚类的方式聚合为不同类别的文件数据,以得到目标数据。
[0108]
需要说明的是,在文件系统有千万、亿级文件,使用上述优化方法的计算复杂度价高。此时可以将待处理的文件数据采用数据聚类方法将类似行为、特征的数据聚合在一起,聚合为不同类别的文件数据,降低控制的粒度,减少计算复杂度。
[0109]
可以通过简单的方法进行分类,例如可以按文件的目录结构,文件的用途等进行分类。也可以使用聚类算法,例如k-mean,等算法进行分类。将分类后的每类文件数据作为一个目标数据,其中,一类文件数据为一个目标数据,而划分为几个类别的文件数据就有几个目标数据。
[0110]
类的数据可以由控制粒度决定,如果按照tb的粒度来控制冷热数据迁移,可以将多个文件按照大小,热度,价值,延时等要求,聚合为tb大小的数据单元,此时,每个数据单元为一个目标数据。
[0111]
需要说明的是,聚类的过程中可以采用随机采样的方法对上亿文件采样 10万个文件,聚合产生多个簇的中心,随后通过计算文件和簇中心的距离决定文件所属的类别。
[0112]
类的个数由数据迁移的粒度控制,粒度越细,类越多,优化计算的复杂度越高,越能达到最优。极限状态下,每个文件为一类。
[0113]
这样可以将待处理的文件数据划分为多个类别的文件数据,得到目标数据。从而可以降低数据存储时计算的复杂度,提高存储效率。
[0114]
示例性的,待处理文件数据为某自动驾驶人工智能公司的数据,包含原始视频文件,图片文件,多个版本的智能模型文件。此时,可以通过聚类得法方式将文件分为四类,即为,a类,b类,c类及d类,如图3所示。a类为人工智能训练数据;b类为原始视频文件数据;c类为正在训练的智能模型的数据;d类为正在使用的智能模型的数据。其中,
[0115]
a类:数据为很多客户用于机器学习的小图片文件。每次访问价值较大,对延时较为敏感,使用率较高。
[0116]
b类:为原始视频文件(从b中提取a的图片),文件较大,每次访问价值较低,对延时不敏感。使用率很低。
[0117]
c类:为使用b训练的模型,文件很大,访问价值高,对延时很敏感,使用率较低。
[0118]
d类:为客户当前使用的模型,文件很大,访问价值高,对延时很敏感,使用率很高。
[0119]
假设a类数据大小为1m,b类数据的大小为10m,c类数据的大小为100m, d类数据的
大小为100m。用户设定a类数据的访问价值为2,b类数据的访问价值为1,c类数据的访问价值为100,d类数据的访问价值为1000。a类数据的访问概率为50,b类数据的访问概率为1,c类数据的访问概率为100,d类数据的访问概率为1000。具体如下表一所示:
[0120][0121]
表一
[0122]
假设存储介质分为两类,一类为冷存储介质,另一类为热存储介质。其中,a类、b类、c类及d类数据在热存储介质的延时价值系数为1,a类数据在冷存储介质的延时介质系数为0.3,b类数据在冷存储介质的延时介质系数为0.7,c类数据在冷存储介质的延时介质系数为0.1,d类数据在冷存储介质的延时介质系数为0.1。具体如下表二:
[0123][0124]
表二
[0125]
热存储介质的数据存储成本为100/mb,冷存储二级制的数据存储成本为 5/mb,热存储介质迁移至冷存储介质的数据迁移成本为1/mb,冷存储介质迁移到热存储介质的数据迁移成本为2/mb,具有如下表三,表四。
[0126][0127]
表三
[0128]
c
t
热储存冷存储热储存01冷存储20
[0129]
表四
[0130]
当前a类数据存储在冷存储介质中,b类数据存储在热存储介质中,c类数据存储在冷存储介质中,d类数据存储在冷存储介质中,具体如下表五所示。
[0131][0132]
表五通过公式且约束条件为:且约束条件为:计算出目标数据的目标预期数据访问价值总和,得出目标存储介质。a类数据、b类数据、c类数据及d类数据的目标存储介质如下表六所示。
[0133][0134]
表六
[0135]
由此可知,a类数据存储至热存储介质,b类数据存储至冷存储介质,c 类数据存储至冷存储介质,d类数据存储至热存储介质中,用户的预期数据访问介质总和最大。此时,可以将各类数据根据得到的目标存储介质进行数据的存储。
[0136]
如图4所示,本申请还提供了一种智能存储自动分级的装置400,包括:
[0137]
获取单元401,用于获取目标数据的预期数据访问价值信息。
[0138]
其中,数据访问价值信息用于标示出用户对目标数据的访问价值及需求的信息。
[0139]
具体的,获取单元401具体用于获取目标数据的访问价值的信息、目标数据的访问概率的信息及目标数据的延时价值系数的信息;根据目标数据的访问价值的信息、目标数据的访问概率的信息及目标数据的延时价值系数的信息,计算出预期数据访问价值信息。
[0140]
可选地,上述获取单元401获取目标数据的访问概率的信息具体为:
[0141]
获取单元401获取用户的数据访问历史记录;根据用户的数据访问历史记录,利用分类预测模型,获取目标数据的访问概率的信息。
[0142]
获取单元401,还用于获取目标数据的数据持有成本信息。
[0143]
其中,数据持有成本信息与所述目标数据的存储成本相关。
[0144]
具体的,数据持有成本信息包括:数据存储成本的信息及数据迁移成本的信息。
[0145]
处理单元402,用于根据目标数据的预期数据访问价值信息及目标数据的数据持有成本信息,得到目标数据的目标存储介质,将目标数据存储至目标存储介质中。
[0146]
具体的,处理单元402,具体用于根据所述目标数据的预期数据访问价值信息及目标数据的数据存储成本信息,利用公式利用公式且约束条件为:条件为:计算所述目标数据的目标预期数据访问价值总和;其中,m表示目标数据,k,i,j均表示存储介质, vm表示目标数据m的访问价值,hm表示目标数据m的访问概率,表示目标数据m在存储介质k上的延时价值系数;表示长度为存储种类的布尔向量;sm表示目标数据m的大小,表示存储介质k的的存储成本,t表示存储时间,表示目标数据m由存储介质i迁移至存储介质j的数据迁移成本,为布尔向量,为布尔向量,b表示预期存储成本;
[0147]
根据目标数据的目标预期数据访问价值总和,确定目标数据的目标存储介质。
[0148]
可选地,上述智能存储自动分级的装置400,如图5所示,还包括:
[0149]
聚合单元403,用于将待处理的文件数据通过聚类的方式聚合为不同类别的文件数据,以得到目标数据。
[0150]
可选地,上述目标存储介质包括:上述目标存储介质包括:ssd(solid statedisk,固态硬盘)、hhd(hard disk drive,机械硬盘)、磁带等盘中的至少一个。
[0151]
这样一来,通过获取目标数据的预期数据访问信息及数据持有成本信息,并根据获取的预期数据访问信息及数据持有成本信息,计算得到目标数据的目标存储介质,进而将目标数据进行数据的存储。本申请中确定目标数据的存储介质是通过计算确定的,并不是用户自己确定,实现了自动对数据进行分级存储,提高了存储效率,减少了存储资源的浪费。
[0152]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0153]
进一步地,本申请还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例所述的智能存储自动分级的方法的步骤。
[0154]
图6是根据一示例性实施例示出的一种电子设备600的框图。如图6所示,该电子设备600可以包括:处理器601,存储器602。该电子设备600还可以包括多媒体组件603,输入/输出(i/o)接口604,以及通信组件605中的一者或多者。
[0155]
其中,处理器601用于控制该电子设备600的整体操作,以完成上述的智能存储自动分级的方法中的全部或部分步骤。存储器602用于存储各种类型的数据以支持在该电子设备600的操作,这些数据例如可以包括用于在该电子设备600上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器602可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(static random access memory,简称sram),电可擦除可编程只读存储
器(electrically erasable programmable read-only memory,简称 eeprom),可擦除可编程只读存储器(erasable programmable read-onlymemory,简称eprom),可编程只读存储器(programmable read-onlymemory,简称prom),只读存储器(read-only memory,简称rom),磁存储器,快闪存储器,磁盘或光盘。多媒体组件603可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器602或通过通信组件605发送。音频组件还包括至少一个扬声器,用于输出音频信号。i/o接口604为处理器601和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件605用于该电子设备600与其他设备之间进行有线或无线通信。无线通信,例如wi-fi,蓝牙,近场通信(nearfield communication,简称nfc),2g、3g、4g、nb-iot、emtc、或其他 5g等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件605可以包括:wi-fi模块,蓝牙模块,nfc模块等等。
[0156]
在一示例性实施例中,电子设备600可以被一个或多个应用专用集成电路 (application specific integrated circuit,简称asic)、数字信号处理器(digital signal processor,简称dsp)、数字信号处理设备(digital signal processingdevice,简称dspd)、可编程逻辑器件(programmable logic device,简称 pld)、现场可编程门阵列(field programmable gate array,简称fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的智能存储自动分级的方法。
[0157]
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的智能存储自动分级的方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器602,上述程序指令可由电子设备600的处理器601执行以完成上述的智能存储自动分级的方法。
[0158]
图7是根据一示例性实施例示出的一种电子设备700的框图。例如,电子设备700可以被提供为一服务器。参照图7,电子设备700包括处理器710,其数量可以为一个或多个,以及存储器720,用于存储可由处理器710执行的计算机程序。存储器720中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器710可以被配置为执行该计算机程序,以执行上述的智能存储自动分级的方法。
[0159]
另外,电子设备700还可以包括电源组件730和通信组件740,该电源组件 730可以被配置为执行电子设备700的电源管理,该通信组件740可以被配置为实现电子设备700的通信,例如,有线或无线通信。此外,该电子设备700还可以包括输入/输出(i/o)接口750。电子设备700可以操作基于存储在存储器 720的操作系统,例如windows servertm,mac os xtm,unixtm,linuxtm 等等。
[0160]
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的智能存储自动分级的方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器720,上述程序指令可由电子设备700的处理器710执行以完成上述的智能存储自动分级的方法。
[0161]
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于
执行上述的智能存储自动分级的方法的代码部分。
[0162]
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1