专利名称:基于访问频率的连续存储数据的存储管理方法和系统的制作方法
技术领域:
本发明涉及数据处理领域,具体涉及数据存储管理领域,更具体涉及 一种基于访问频率的连续存储数据的存储管理方法和系统。
背景技术:
具有强烈的顾客导向的企业,例如零售、金融、通信和市场营销组织 等,经常需要查询所存储的业务数据(通常是大量数据,且典型地是与商 业或市场有关的),以便寻找稳定的模式和/或变量之间的系统性关系,然 后将所发现的模式应用于新的数据子集来验证所发现的模式,并据此预测 未来的趋势。
在IT系统管理领域,为了进行问题确定、响应分析以及变化管理,经 营需要查询存储在配置变更管理数据库(CCMDB)中的数据,以寻找稳 定的模式和/或配置项(CI)之间的系统性关系,然后通过将所发现的模式 应用于新的数据子集来验证所发现的模式,并据此预测未来的趋势。
在其他需要连续地监视、采集以及存储或者备份或存档数据的领域中, 往往也需要经常地访问所连续存储的数据,以便进行分析和评估等。
这种需求产生了如何以尽量少的计算资源和时间快速地获得所需要的 数据的挑战。而现有的数据存储管理和访问技术由于其局限性不能很好地 解决这一杏匕战。
例如,在大型商业数据中心,其历史数据按照安全等策略经常性被备 份和归档,这些被务盼和归档的数据需要被商业智能分析数据软件经常访 问。表1列出了可用于存储和/或名音清如大型商业数据中心的历史数据的 现有的几种常用的数据备除方法及其特点。
7表l常用*方法
常用备份方法工作原理特点
完整备份*给定计算机或文件 系统中的每个文件 都被复制,无论其自 上次备份以来是否 发生变化*需要移动大量的数 据。通常不适合于网 络环境。
完整+增量**定期进行完整M, 例如,每周一次 *在完整*之间,定 期的增量备份仅复 制自上次备份以来 已发生变化的文件*与完整*相比,需 要移动较少的数据。 仅恢复最近的增量 她
完整+差异**定期进行完整*, 例如,每周一次 *在完整*之间,差 异备份仅复制自上 次完整备份以来已 发生变化的文件与完整+增量*相比, 具有较好的恢复性能。 但差异备份方案将备份 更多的数据,因为它不 考虑在上次完整备份和 当前差异备份之间所作 的差异务盼。
渐近备份*完整备份仅进行一 次 *在完整*之后,增 量备份仅复制自上 次备份以来发生变 化的文件 *在诸如Tivoli存储管 理器的数据库中记*完全消除了冗余数 据躲 * Tivoli存储管理器自 动地释放过期文件 空间以便被盖写。这 减少了操作者的干 预以及对当前数据 的意外盖写的可能。
8录与备份副本相关*长期来看,与完整+
的元数据。所存储的增量或完整+差异备
备份副本的数量以份相比,需要移动较
及它们被保持的时少的数据,并且数据
间由存储管理员指恢复通过数据库进
定。行。
由上表可见,在每个时间点上进行完整备份的方案,由于其需要占有 过多的存储空间和网络带宽,因此已很少采用。现有的备份方案多采用某 种完整*+差异性*的形式,无论这种完整*是只进行一次,还是定 期进行,也无论这种差异性*是相对于上次完整备盼进行的,还是相对 于上次差异性M进行的。这种完整M+差异性M的解决方案尽管节约 了存储空间和备盼时用于传输数据的网络带宽,但在需要恢复某一时间点 的数据时,却往往需要根据该时间点处的差异性*以及该时间点之前的 完整备盼(以及两者之间的差异性务除)重构出该时间点的完整的数据快 照,因而需要占用较多的计算资源以及较长的数据恢复时间。因此,在需 要频繁地访问M数据的场合,这种完整备份+差异性备份的解决方案是不 适用的。
在CCMDB系统中也存在着同样的问题。CCMDB系统中的配置等数 据的存储和管理类似于存储管理系统中的*才几制,也M于差异性存储 的,即保存某一时间点的完整数据,而此后保存的数据都是基于该完整数 据的差异性数据。这样,如果需要访问某个时间点的数据,就需要根据该 时间点处的差异性数据以及该时间点之前的完整数据进行重构计算,得出 该时间点的完整的数据以供使用,因而需要占用较多的计算资源和时间。 由于CCMDB系统中的数据是整个IT管理的核心数据,根据管理和应用 的需求需要经常性地被访问,因此现有的CCMDB系统中的数据存储与管 理方案的开销4艮大,从而严重地影响了整个IT管理的效率和效果。
显然,本领域中需要一种用于诸如M系统和CCMDB系统中的连续 存储数据的、使能对数据的快速恢复和访问的存储管理及访问解决方案。
发明内容
为使能针对诸如*系统和CCMDB系统中的连接存储数据的快速恢 复和访问,提高数据存储管理和访问系统的性能和效率,而提出了本发明。
根据本发明的一个方面,提供了 一种基于访问频率的连续存储数据的 存储管理方法,该方法包括以下步骤确定取决于对存储在存储系统中的 连续存储数据中的一时间点的数据快照的访问频率的访问权重;判断所述 访问权重是否达到第 一 阔值以及所述时间点的数据快照的完整副本是否存 在于所述存储系统中;以及当所述访问权重达到所述第一阔值且所述时间 点的数据快照的完整副本不存在于所述存储系统中时,将所述时间点的数 据快照的完整副M储在所述存储系统中。
根据本发明的另 一个方面,提供了 一种基于访问频率的连续存储数据 的存储管理系统,该系统包括高速緩存管理器,该高速緩存管理器包括 用于确定取决于对存储在存储系统中的连续存储数据中的 一 时间点的数据 快照的访问频率的访问权重的装置;用于判断所述访问权重是否达到第一 阈值以及所述时间点的数据快照的完整副本是否存在于所述存储系统中的 装置;以及用于当所述访问权重达到所述第一阈值且所述时间点的数据快 照的完整副本不存在于所述存储系统中时,将所述时间点的数据快照的完 整副本存储在所述存储系统中的装置。
本发明可应用于一切以完整副本+差异性副本的形式存储和管理数 据、数据又需要经常性被访问以儉使用的场合,无论是用户业务历史数据 的存储和利用,还是CCDMB领域,使得对大量数据的快速访问以及分析 和利用成为可能,并极大地节约了计算资源和网络资源。
所附权利要求中阐述了被认为是本发明的特点的创造性特征。但是, 通过参照附图阅读下面对说明性实施例的详细il明可更好地理解发明本身 以及其优选使用模式、另外的目标、特征以及优点,在附图中
10图1示出了根据本发明的实施例的一种基于访问频率的连续存储数据
的存储管理系统;
图2示出了根据本发明的一实施例的元数据库107的示例性结构;
图3示出了在根据本发明的实施例的系统执行根据本发明的实施例的 操作之前存储系统101的状态;
图4示出了在根据本发明的实施例的该系统执行根据本发明的操作之 后存储系统101的状态;以及
图5示出了根据本发明的实施例的基于访问频率的连续存储数据的存 储管理方法。
具体实施例方式
本发明涉及对存储设备中被连续存储的数据(该连续存储的数据带或 不带特定的模式或者关系约束)的存储形态的动态调整。根据存^i殳备原 来的存储策略,从存储设备中恢复某一时刻的被访问数据快照,供访问者 使用,并同时将恢复的被访问数据快照放置到访问緩存中。其后,如果该 数据快照被访问,则可以将访问緩存中的该数据快照提供给访问者,同时 监视和记录该数据快照被访问的频率或权重。当该数据快照被访问的频率 或权重超过某个岡值时,调整被访问数据在存储设备中的存储形式,将其 以完整备份形式存储,并且还可以该数据的完整备阶为基础,按照存储设 备的存储策略,相应地调整在此时刻以后的该数据在存储介质上的存储, 从而提高存储访问的速度和降低存储访问开销。
下面参照附图来描述本发明的实施例。然而,应当理解的是,本发明 并不限于所介绍的特定实施例。相反,可以考虑用下面的特征和元素的任 意组合来实施和实践本发明,而无论它们是否涉及不同的实施例。因此, 下面的方面、特征、实施例和优点仅作说明之用而不应被看作是所附权利 要求的要素或限定,除非权利要求中明确提出。
图1示出了根据本发明的实施例的一种基于访问频率的连续存储数据 的存储管理系统。如图所示,该系统包括存储系统101,数据管理器102,
ii高速緩存管理器103。
其中,所述存储系统101用于存储和/或^#数据。所述存储系统101 可以是本领域中所知的任何存储系统和/或4^系统,且优选地可4皮配置为 以完整副本+差异性副本的形式存储数据,例如IBM公司的Tivoli Storage Manager.存储系统101可以采用各样存储策略,且所述存储策略优选地 是可设置的。根据不同的存储策略,存储系统101既可以仅存储初始时间 点处的一个完整副本,也可以定期地或以其他方式存储多个时间点处的多 个完整副本。所述差异性副本既可以是相对于初始时间点或前一时间点处 的完整副本,也可以是相对于前一时间点处的差异性副本。此外,在本文 中,存储应被理解为也包括备份。
所述数据优选地是被连续监视、获取和存储的数据。例如包含被连续 监视的IT系统的配置、日志和性能信息的CCMDB数据,以及企业的包 含例如顾客、市场营销、销售等信息的连续产生和存储的业务数据等。
所述数据管理器102用于访问所述存储系统101,并通过所述存储系 统101根据数据存储方法和存储策略存储、调整和恢复数据快照。具体地, 当接收到下文所述的数据采集器104所获取的数据后,数据管理器102可 将该数据提供给存储系统101,以便存储在存储系统101中的持久存储器 中。当接收到来自所述高速緩存管理器103的、^^存储系统101加载某一 时间点的数据快照的请求时,数据管理器102可从存储系统101的持久存 储器中获取或恢复该时间点的数据快照的完整副本(例如通过使用该时间 点的数据快照的差异性副本以及以前时间点的数据快照的完整副本来重构 和恢复该时间点的数据快照的完整副本),并将其提供给高速緩存管理器 103。当接收到来自高速緩存管理器103的、在存储系统101中存储某一时 间点的数据快照的完整副本的请求时,数据管理器102可将该时间点的数 据快照的完整副本存储在存储系统101的持久存储器中,这样当此后接收 到来自高速緩存管理器103的、加载该时间点的数据的请求时,数据管理 器102可直接将存储系统101的持久存储器中存储的该时间点的数据快照 的完整副本提供给高速緩存管理器103,而不必通过该时间点的数据快照的差异性副本以及以前时间点的该数据快照的完整副本来重构和恢复该时
间点的数据快照的完整副本。此外,当数据管理器102已根据来自高速緩 存管理器103的请求将某时间点的数据快照的完整副本存储在存储系统 101的持久存储器中之后,数据管理器102可进一步地基于所述时间点的 数据快照的完整副本以及已设置的存储策略调整所述存储系统101中该时 间点之后的数据的存储。也就是说,使该时间点之后的差异性数据基于该 时间点的数据快照的完整副本,而不再基于先前的某时间点的数据快照的 完整副本。
所述数据管理器102可以是所述存储系统101之外的部件,也可以是 所述存储系统101的一部分。所述数据管理器102可以是任何现有的可以 与存储系统101进行交互以存储、调整和恢复持久存储器中的数据快照的 部件,也可以是根据本发明创建的部件。
所述高速緩存管理器103用于管理一访问高速緩存106,并接收对存 储在所述存储系统101中的连续存储数据中一时间点的数据快照的访问请 求,然后判断请求访问的所述时间点的数据快照的完整副本是否存在于所 述访问高速緩存106中。当判断所请求访问的所述时间点的数据快照的完 整副本存在于访问高速緩存中时,高速緩存管理器103可用访问高速緩存 106中的所述时间点的数据快照的完整副本服务于该访问请求,即将该数 据快照的完整副本发送给请求者。当判断请求访问的所述时间点的数据快 照的完整副本不存在于访问高速緩存中时,高速緩存管理器103可通过所 述数据管理器102获取或恢复所述存储系统101中存储的所述时间点的数 据快照的完整副本并将其加载到该访问高速緩存106中,并用加载的所述 时间点的数据快照的完整副本服务于所述访问请求。这样,当此后高速緩 存管理器103再次接收到对该时间点的数据快照的访问请求时,它可以直 接用緩存在访问高速緩存106中的该时间点的数据快照的完整副本来服务 于该访问请 求,直到緩存在访问高速緩存106中的该时间点的数据快照的 完整副^^皮移除。
在本发明的进一步的实施例中,所述高速緩存管理器103还用于管理一数据高速緩存105。在接收到对存储在所述存储系统101中的连续存储 数据中一时间点的数据快照的访问请求后,所述高速緩存管理器103可判 断请求访问的所述时间点的数据快照的完整副本是否存在于所述访问高速 緩存106中。当判断请求访问的所述时间点的数据快照的完整副本不存在 于访问高速緩存106中时,高速緩存管理器103可进一步判断请求访问的 所述时间点的数据快照的完整副本是否存在于所述数据高速緩存105中。 当判断请求访问的所述时间点的数据快照的完整副本存在于所述数据高速 緩存105中时,高速緩存管理器103可从所述数据高速緩存105中获取所 述时间点的数据快照的完整副本,将其加载到所述访问高速緩存106中, 并同时用所述时间点的数据快照的完整副本服务于所述访问请求。当判断 请求访问的所述时间点的数据快照的完整副本不存在于所述数据高速緩存 105中时,高速緩存管理器103可如上所述通过所述数据管理器102从所 述存储系统101中恢复和加载所述时间点的数据快照的完整副本。这样, 当此后再次接收到对该时间点的数据快照的访问请求时,高速緩存管理器 103可以直接用緩存在访问高速緩存106中的该时间点的数据快照的完整 副本来服务于该访问请求,直到緩存在访问高速緩存106中的该时间点的 数据快照的完整副^f皮移除。
所述高速緩存管理器103还用于监视和统计对一时间点的数据快照的 访问请求,并计算取决于对该时间点的数据快照的访问频率的访问权重。 所述高速緩存管理器103可进一步判断对某一时间点的数据快照的访问权 重是否达到第一阈值以及该时间点的数据快照的完整副本是否存在于所述 存储系统101中。当判断对该时间点的数据快照的访问;f又重达到第一阈值 并且该时间点的数据快照的完整副本不存在于存储系统101中时,所述高 速緩存管理器103可通过所述数据管理器102将所述时间点的数据快照的 完整副;^储在存储系统101中。这样,当此后再次接收到对该时间点的 数据快照的访问请求时,高速緩存管理器103可通过数据管理器102从存 储系统101中直接获得该时间点的数据快照的完整副本,而不必再用该时 间点的数据快照的差异性副本以及先前时间点的数据快照的完整副本(和
14两者之间的其他时间点的差异性副本)来重构和恢复该时间点的数据快照 的完整副本。
在本发明的进一步的实施例中,当计算取决于对一时间点的数据快照
的访问频率的访问权重之后,所述高速緩存管理器103还可判断对该时间 点的数据快照的访问权重是否达到第二阈值以及该时间点的数据快照的完 整副本是否存在于所述数据高速緩存105中。当判断对该时间点的访问权 重达到第二阈值并且该时间点的数据快照的完整副本不存在于该数据高速 緩存105中时,高速緩存管理器103可将所述时间点的数据快照的完整副 本存储在所述数据高速緩存105中。这样,当此后再次接收到对该时间点 的数据快照的访问请求时,高速緩存管理器103可直接从数据高速緩存105 中获得该时间点的数据快照的完整副本,而不必再从所述存储系统中101 获得该时间点的数据快照的完整副本。在本发明的一实施例中,所述第一 阈值为一较低阈值,所述第二阈值为一较高阈值。
所述高速緩存管理器103可以多种方式计算所述访问权重。在本发明 的一实施例中,所述访问权重等于访问频率,即在某一时间段内对某一时 间点的数据快照的访问次数。
所述高速緩存管理器103可以在所述访问高速緩存106中保存一个或 多个数据快照的完整副本。高速緩存管理器103可以将在设定时间段内对 其的访问未达到所述第 一 阈值和第二阈值的数据快照的完整副本从所述访 问高速緩存106中移除;高速緩存管理器103也可以定期地将访问高速緩 存106中访问权重较低的数据快照的完整副本移除;或者,高速緩存管理 器103也可以在访问高速緩存106已满时或加载新的数据快照的完整副本 时,将现有的访问权重较低的时间点的数据快照的完整副本移除。
所述高速緩存管理器103优选地在所述数据高速緩存105中保存多个 数据快照的完整副本。高速緩存管理器103定期地将数据高速緩存105中 访问权重较低的数据快照的完整副本移除;或者,高速緩存管理器103也 可以在数据高速緩存105已满时或加载新的数据快照的完整副本时,将访 问权重较低的数据快照的完整副本移除。
15所述访问高速緩存106和所述数据高速緩存105可以是多种类型的存 储设备。所述访问高速緩存106可以是易失性或非易失性存储设备。所述 数据高速緩存105优选地是非易性存储设备。
尽管图中示出所述访问高速緩存106位于高速緩存管理器103的内部, 而所述数据高速緩存105位于高速緩存管理器103的外部,但这并非是本 发明的限制。所述访问高速緩存106和数据高速緩存105均既可以位于所 述高速緩存管理器103的内部,也可以位于所述高速緩存管理器103的外 部。
在本发明的一实施例中,所述高速緩存管理器103在一元数据库107 中维护所述访问频率、访问权重、第一阈值和/或第二阈值、以及所述时间 点的数据快照的存储位置信息。图2示出了根据本发明的一实施例的元数 据库107的示例性结构。如图所示,该元数据库107中包括数据标识、数 据源、请求条件、访问次数、最后请求时间、访问权重、第一阈值、第二 阈值和存储位置。其中,所述数据标识用于标识在存储系统101中所存储 的、由本发明的系统所管理的、且在该元数据库107中记录其信息的数据; 所述数据源表示该数据的来源;所述请求条件表示请求访问该数据的条件, 例如所请求访问的数据所在的时间点或所属的时间段以及任何其他条件; 所述访问次数表示该数据被访问的次数;所述最后请求时间表示该数据最 近一次被访问的时间;所述访问权重是与该数据被访问的频率等有关的一 种度量,且在本发明的一实施例中等于在给定时间段内的访问次数;所述 第一阈值是用于判断是否应当将该数据的完整副M储在存储系统101中 的标准;所述第二阈值是用于判断是否应当将该数据的完整副本保存在数 据高速緩存105中的标准。所述存储位置表示该数据的完整副本的存储位 置,例如所述数据高速緩存105中,或存储系统101中。以上元数据库结 构仅是示例,而不是对本发明的限制。根据本发明的实施例的元数据库结 构可具有更多、更少和不同的信息项。例如,元数据库107中可包括多个 存储位置信息项,以分别表示某一时间点的数据快照的完整副本是否存在 于访问高速緩存106、数据高速緩存105以及存储系统101中。此外,所
16述元数据库107可位于可由所述高速緩存管理器103访问的任何位置和存 储设备中。
在本发明的实施例中,所述基于访问频率的连续存储数据的存储管理 系统根据所述元数据库107中的信息进行前述M作,并在执行前述^ 作的过程中记录和更新元数据库中的信息。
例如,当接收到对存储系统101中的一时间点处的数据快照的访问请 求时,所述高速緩存管理器103可通过查询该元数据库107判断在该元数 据库107是否包含了该时间点处的数据快照的信息。
如果判断在所述元数据库107中不包含该时间点处的数据快照的信 息,则高速緩存管理器103可通过数据管理器102根据存储系统101的存 储策略使用存储系统101中存储的前一时间点处的数据快照的完整副本以 及当前时间点的数据快照的完整副本(和两者之间的一个或多个时间点处 的数据快照的差异性副本)重构和恢复当前时间点的数据快照的完整副本, 将其加栽到所述访问高速緩存106中,并用所加载的该时间点处的数据快 照的完整副本服务于所述数据请求。同时,所述高速緩存管理器103可在 元数据库107中创建关于该时间点处的数据快照的条目,并添加该数据快 照的数据标识、数据源、请求条件、访问次数、访问权重、最后请求时间、 第一阈值、第二阈值和存储位置等信息。
如果判断该元数据库107包含了该时间点处的数据快照的信息,则高 速緩存管理器103进一步通过查询元数据库107中相应的信息项判断该时 间点处的数据快照的完整副本是否存储在访问高速緩存106中。
如果判断该时间点处的数据快照的完整副M储在访问高速緩存106 中,则高速緩存管理器103直接用访问高速緩存106中的该时间点处的数 据快照的完整副本来服务于该数据访问请求,并同时更新元数据库中的访 问次数、访问权重和最后请求时间等信息。然后,高速緩存管理器103判 断所述更新的访问权重是否超过了元数据库107中存储的所述第一阈值, 以及根据元数据库107中相应的信息项判断该时间点处的数据快照的完整 副本是否存在于所述存储系统101中,并且在所述更新的访问权重超过了所述第 一 阈值且该时间点处的数据快照的完整副本不存在于存储系统101 中时,通过所述数据管理器102将该时间点处的数据快照的完整副本存储 在存储系统101中,并同时更新元数据库107中相应的存储位置信息项。 此外,高速緩存管理器103可进一步判断所述更新的访问权重是否超过了 元数据库107中存储的所述第二阈值,以及根据元数据库107中相应的信 息项判断该时间点处的数据快照的完整副本是否存在于所述数据高速緩存 105中,并且在所述更新的访问权重超过了所述第二阈值且该时间点处的 数据快照的完整副本不存在于数据高速緩存105中时,将该时间点处的数 据快照的完整副本保存在数据高速緩存105中,并同时更新元数据库107 相应的存储位置信息项。
如果判断该时间点处的数据快照的完整副本不存在于访问高速緩存 106中,则高速緩存管理器103进一步通过查询元数据库107中相应的信 息项来判断该时间点处的数据快照的完整副本是否存在于所述数据高速緩
存105中。如果判断该时间点处的数据快照的完整副;^在于数据高速緩 存105中,则高速緩存管理器103将数据高速緩存105中的该时间点处的 数据快照的完整副本加载到访问高速緩存106中,并用该时间点处的数据 快照的完整副本来服务于该数据访问请求,同时更新元数椐库中的访问次 数、访问权重、最后请求时间和存储位置等信息。
如果判断该时间点处的数据快照的完整副本既不存在于所述访问高速 緩存106中,也不存在于所述数据高速緩存105中,则高速緩存管理器103 进一步通过查询元数据库107中相应的信息项来判断该时间点处的数据快 照是否存在于所述存储系统101中。如果判断该时间点处的数据快照的完 整副本存在于存储系统101中,则高速緩存管理器103通过所述数据管理 器102将存储系统101中该时间点的数据快照的完整副本加栽到所述访问 高速緩存106中,并用该时间点处的数据快照的完整副本来服务于该数据 访问请求,同时更新元数据库107中的访问次数、访问权重、最后请求时 间和存储位置等信息。此外,高速緩存管理器103可进一步判断所述更新 的访问权重是否达到元数据库107中存储的所述第二阈值,并在判断所述更新的访问权重达到元数据库107中存储的所述第二阈值时,将该时间点 处的数据快照的完整副本进一步保存到所述数据高速緩存105,并更新元 数据库中相应的存储位置信息项。另一方面,如果判断该时间点处的数据 快照的完整副本不存在于所述存储系统101中,则高速緩存管理器103可 通过数据管理器102根据存储系统101的存储策略从存储系统101中存储 的前一时间点处的数据快照的完整副本以及当前时间点的数据快照的完整 副本(和两者之间的一个或多个时间点处的数据快照的差异性副本)重构 和恢复当前时间点的数据快照的完整副本,将其加载到所述访问高速緩存 106中,并用所加载的该时间点处的数据快照的完整副本服务于所述数据 请求。同时,所述高速緩存管理器103可在元数据库107中更新该数据快 照的访问次数、访问权重、最后请求时间和存储位置等信息。
在本发明的一实施例中,所述基于访问频率的连续存储数据的存 储管理系统还包括数据采集器104,该数据采集器104用于持续地从数 据源采集相关数据,并将所采集的数据提交给数据管理器102,以便存储 在存储系统101中。在将所采集的数据提交给数据管理器102之前,数据 采集器可以在其上执行必要的过虑、处理和转换操作。数据采集器102可 以是本领域中所知的任何数据采集器。数据采集器104既可以从单个数据 源采集数据,也可以从多个不同的数据源采集数据。
在本发明的一实施例中,所述基于访问频率的连续存储数据的存储 管理系统还包括数据访问器109,用户通过该数据访问器109来访问 所述高速緩存管理器109。该数据访问器109既可以是可用于访问高速緩 存管理器的任何现有的数据访问器,也可以是根据本发明创建的数据访问 器。此外,该数据访问器109既可以是所述高速緩存管理器103之外的部 件,也可以并入高速緩存管理器之中。此外,该数据访问器109还可以是 用户所在的客户机的一部分。
在本发明的一些实施例中,所述基于访问频率的连续存储数据的存储 管理系统可以不包括所述数据采集器104以及所述数据访问器109。
图3和图4示意性地示出了以上所述根据本发明的实施例的基于访问
19频率的连续存储数据的存储管理系统的操作原理。其中,图3具体示出了 在该系统执行根据本发明的实施例的操作之前存储系统101的状态,图4 具体示出了在该系统执行根据本发明的操作之后存储系统101的状态。如 图3所示,在该系统执行根据本发明的操作之前,在存储系统101中存储 有T0时间点上数据的完整副本FO,以及T1、 T2等时间点上数据的差异 性副本dl、 d2等。从图中可见,除时间点TO处存储的完整副本FO夕卜, 在其他时间点T1、 T2等处存储的差异性副本dl、 d2等均是以前一时间点 处的完整副本或差异性副本为基础的,也就是说,在时间点Tl、 T2等处 仅存储了数据在该时间点处与在前一时间点处之间的变化。在这种存储方 案中,为了恢复时间点T1、 T2等处完整的数据快照,应当将该时间点处 的差异性副本与前一个完整副本以及两者之间的所有差异性副本结合起 来。图3中还示出了在访问高速緩存106中保存有时间点T2处的数据快 照的完整副本,该完整副本显然是通过将存储系统101中所存储的时间点 T2处的差异性副本d2与前一时间点Tl处的差异性副本dl以及时间点 TO处的完整副本相结合而重构和恢复出来的。
如图4所示,在访问高速緩存106中保存了时间点T2和T10处的数 据快照的完整副本,且由于对时间点T2和T10处的数据快照的完整副本 的访问超出了某一设定阈值,根据本发明的系统在存储系统101中存储了 时间点T2和T10处的数据快照的完整副本F2和F3,并同时调整了时间 点T2和T10之后的数据存储形式,使得时间点T2和T10之后的差异性 副本不再是基于时间点T0处的完整副本,而是分别基于T2和T10处的完 整副本。这样,为服务于以后对时间点T2和T10处的数据快照的访问, 可从存储系统101中直接获得时间点T2和T10处的数据快照的完整副本; 而为了服务于以后对时间点T2和T10之后的时间点处的数据快照的访问, 可分别基于时间点T2和T10处的完整副本来恢复各时间点处的数据快照 的完整副本,而不必基于时间点TO处的完整副本来恢复各时间点处的数 据快照的完整副本。
以上参照附图描述了根据本发明的实施例的基于访问频率的连续存储
20数据的存储管理系统,应注意的是,以上描述仅为示例,而不是对本发明
的限制。本发明的系统可具有与所图示和描iM目比更多、更少和不同的模
块,此外,各;f莫块之间的关系也可以与所图示和描述的不同。例如,也可 以考虑所述高速緩存管理器103只用于根据访问权重调整数据在存储系统 101中的存储形态和/或数据在数据高速緩存105中的存储,而不服务于数 据访问请求,以及可以考虑本发明的系统只包括高速緩存管理器103,而 不包括存储系统101和数据管理器102,等等。
此外,以上所述的高速緩存管理器103所执行的各项功能都可以实现 为由该高速緩存管理器103包含的相应的装置来执行。例如,在本发明的 实施例中,所述高速緩存管理器103包括用于确定取决于对存储在存储 系统中的连续存储数据中的一时间点的数据快照的访问频率的访问权重的 装置;用于判断所述访问权重是否达到第一阈值以及所述时间点的数据快 照的完整副本是否存在于所述存储系统中的装置;以及用于当所述访问权 重达到所述第 一 阈值且所述时间点的数据快照的完整副本不存在于所述存 储系统中时,将所述时间点的数据快照的完整副M储在所述存储系统中 的装置。在本发明的实施例中,所述高速緩存管理器103还包括用于判 断所述访问权重是否达到第二阈值以及所述时间点的数据快照的完整副本 是否存在于一数据高速緩存的装置;以及用于当所述访问权重达到所述第 二阈值且所述时间点的数据快照的完整副本不存在于该数据高速緩存时, 将所述时间点的数据快照的完整副本存储到该数据高速緩存中的装置。在 本发明的实施例中,所述高速緩存管理器103还包括用于接收对存储在 所述存储系统中的连续存储数据中 一时间点的数据快照的访问请求的装 置;以及用于服务于所述访问请求的装置。且在本发明的实施例中,所述 用于服务于所述访问请求的装置进一步包括用于判断所述请求访问的所 述时间点的数据快照是否存在于一访问高速緩存中的装置;用于当该判断 为否时,从所述存储系统中获取或恢复所述时间点的数据快照的完整副本 并将其加载到该访问高速緩存中的装置;以及用于用所述加载的所述时间
点的数据快照的完整副本服务于对所述时间点的数据快照的访问请求的装置。而在本发明的另一实施例中,所述用于服务于所述访问请求的装置进
一步包括用于判断所述请求访问的所述时间点的数据快照是否存在于一 访问高速緩存中的装置;用于当该判断为否时,进一步判断所述时间点的 数据快照是否存在于所述数据高速緩存中的装置;用于当所述进一步判断 为是时,将所述时间点的数据快照的完整副本从所述数据高速緩存加载到 所述访问高速緩存中的装置;用于当所述进一步判断是否时,从所述存储 系统中获取或恢复所述时间点的数据快照的完整副本并将其加栽到所述访 问高速緩存中的装置;以及用于用所述加栽的所述时间点的数据快照的完 整副本服务于对所述时间点的数据快照的访问请求的装置。
下面参照图5描述根据本发明的实施例的基于访问频率的连续存储数 据的存储管理方法。
如图所示,在步骤501,接收对存储在存储系统中的连续存储数据中 一时间点的数据快照的访问请求。所述存储系统可以是任何本领域中已知 的数据存储和/或备份系统,且优选地可被配置为以完整副本+差异性副本 的形式存储数据。
在步骤502,判断所请求的所述时间点的数据快照是否存在于一访问高 速緩存中。当该判断为否时,前进到步骤503;当该判断为是时,前进到步 骤506。
在步骤503,判断所请求的所述时间点的数据快照是否存在于一数据高 速緩存中。当该判断为是时,前进到步骤505;当该判断为否时,前进到步 骤504。
在步骤504,通过所述存储系统的数据管理器获取或恢复存储系统中的 该时间点的数据快照的完整副本,并将其加载到访问高速緩存中。也就是 说,当在存储系统中该时间点的数据快照是以完整副本的形式存在时,直
接通过数据管理器将该完整副本加载到访问高速緩存中;而当在存储系统
中该时间点的数据快照是以差异性副本的形式存在时,则由数据管理器根 据该存储系统的存储策略使用该时间点的数据快照的差异性副本以及该时 间点之前的完整性副本(以及该差异性副本和完整性副本之间的其他差异
22性副本)来重构和恢复该时间点的数据快照的完整副本,并将该完整副本 加载到访问高速緩存中。
在步骤505,将数据快照的完整副^数据高速緩存加载到访问高速緩存。
在本发明的一实施例中,不存在步骤503和505。这样,当在步骤502 中判断数据快照不存在于访问高速緩存中时,直接前进到步骤504。 在步骤506,向请求者返回该时间点的数据快照的完整副本。 在步骤507,计算和更新访问权重。该访问权重优选地存储在一元数据 库中。该元数据库中存储有关于所访问的各时间点的数据快照的信息,例 如各时间点的数据快照的数据源、请求条件、最后访问时间、访问次数、 访问权重、第一阈值和第二阈值等。所述访问权重是根据访问次数计算的, 并且在本发明的一实施例中,访问权重等于给定时间段内的访问次数,即 访问频率。也就是说,在该步骤中,将提取元数据库中原有的访问次数, 将该访问次数加一,从而得到新的访问次数,根据该新的访问次数计算新 的访问权重,然后用新的访问次数和访问权重替换元数据库中原来的访问 次数和"i方问4又重。
在步骤508,判断访问权重是否达到第一阈值并且存储系统中不存在该 时间点的数据快照的完整副本。当判断访问权重达到第一阈值并且存储系 统中不存在该时间点的数据快照的完整副本时,前进到步骤509;当判断访 问权重未达到第 一阈值或者存储系统中已存在该时间点处的数据快照的完 整副本时,前进到步骤510。所述第一阈值优选地存储在元数据库中。
在步骤509,通过数据管理器在存储系统中存储该时间点的数据快照的 完整副本。同时,更新元数据库中关于该时间点的数据快照的存储位置信 息。在本发明的一实施例中,在存储系统中存储了该时间点的数据快照的 完整副本之后,需要调整该时间点之后的数据快照的存储形式。也就是说, 将原有的以先前时间点的数据快照的完整副本为基础的差异性副本修改为 以该时间点的数据快照的完整副本为基础的差异性副本,或者在原有的以 先前时间点的数据快照的完整副本为基础的差异性副本之外重新生成以该时间点的数据快照的完整副本为基础的差异性副本,或者只是当需要存储 新的、该时间点以后的时间点的数据快照的副本时,根据该存储系统中的 存储策略以该时间点的完整副本为基础存储该数据快照的差异性副本。
在步骤510 ,判断访问权重是否达到第二阈值并且一数据高速緩存中不 存在该时间点的数据快照的完整副本。当判断访问权重已达到第二阈值并 且数据高速緩存中不存在该时间点的数据快照的完整副本时,前进到步骤 511;当判断访问权重未达到第二阈值或者数据高速緩存中已存在该时间点 的数据快照的完整副本时,过程结束,从而结束对该访问请求的处理。所 述第二阈值优选地存储在元数据库中。
在步骤511 ,将该时间点的数据快照的完整副本存储在数据高速緩存
中。同时,更新元数据库中关于该时间点的数据快照的相应的存储位置信 自
在本发明的一实施例中,不存在步骤510和511。这样,当在步骤508 中判断访问权重未达到第 一 阈值或者存储系统中已存在该时间点处的数据 快照的完整副本时,或者在步骤509中在存储系统中存储该时间点的数据快 照的完整副本执行完成以后,过程结束。
在该过程结束之后,当接收到新的对存储系统中 一时间点的数据快照 的访问请求时,可重复该过程以处理该新的访问请求。
以上参照附图描述了根据本发明的实施例的基于访问频率的连续存储 数据的存储管理方法,应指出的是,所图示及描述的方法仅为示例,而不 是对本发明的限制。本发明的方法可以具有更多、更不和不同的步骤,一 些步骤的顺序可能与所图示和描述的不同,且可能并行执行。此外,所图 示和描述的一些步骤可合并为更大的步骤或划分为更小的步骤,例如,所 图示和描述的步骤502 - 506可被合并为一个步骤,该步骤可称为服务于数 据访问请求的步骤,等等。这些变化都处于本发明的范围之内。
本发明可以硬件、软件、固件或其组合的方式实现。本发明可以集中 的方式在一个计算机系统中实现,或以分布方式实现,在这种分布方式中, 不同的部件分布在若干互连的计算机系统中。适于执行本文中描述的方法
24的任何计算机系统或其它装置都是合适的。优选地,本发明以计算机软件 和通用计算机硬件的组合的方式实现,在这种实现方式中,当该计算枳一呈 序被加栽和执行时,控制该计算机系统而使其执行本发明的方法,或构成 本发明的系统。
尽管已参照实施例具体示出和说明了本发明,但是本领域内的那些技 术人员应理解,可在形式和细节上对其进行各种改变而不会背离本发明的 精神和范围。
权利要求
1. 一种基于访问频率的连续存储数据的存储管理方法,包括以下步骤确定取决于对存储在存储系统中的连续存储数据中的一时间点的数据快照的访问频率的访问权重;判断所述访问权重是否达到第一阈值以及所述时间点的数据快照的完整副本是否存在于所述存储系统中;以及当所述访问权重达到所述第一阈值且所述时间点的数据快照的完整副本不存在于所述存储系统中时,将所述时间点的数据快照的完整副本存储在所述存储系统中。
2. 如权利要求l所述的方法,还包括以下步骤判断所述访问权重是否达到第二阈值以及所述时间点的数据快照的完整副本是否存在于一数据高速緩存中;以及当所述访问权重达到所述第二阈值且所述时间点的数据快照的完整副本不存在于该数据高速緩存时,将所述时间点的数据快照的完整副本存储到该数据高速緩存中。
3. 根据权利要求l的方法,还包括以下步骤接收对存储在存储系统中的连续存储数据中的该时间点的数据快照的访问请求;以及月l务于所述访问请求。
4. 如权利要求3所述的方法,其中,所述服务于所述访问请求的步骤包括判断所述请求访问的所述时间点的数据快照是否存在于 一 访问高速緩存中;当该判断为否时,从所述存储系统中获取或恢复所述时间点的数据快照的完整副本并将其加载到该访问高速緩存中;以及用所述加载的所述时间点的数据快照的完整副本服务于对所述时间点的数据快照的访问请求。
5. 如权利要求3所述的方法,其中,所述服务于所述访问请 求的步骤包括判断所述请求访问的所述时间点的数据快照是否存在于 一 访 问高速緩存中;当该判断为否时,进一步判断所述时间点的数据快照是否存 在于所述数据高速緩存中;当所述进一步判断为是时,将所述时间点的数据快照的完整 副本从所述数据高速緩存加载到所述访问高速緩存中;当所述进一步判断是否时,从所述存储系统中获取或恢复所 述时间点的数据快照的完整副本并将其加栽到所述访问高速緩存 中;以及用所述加载的所述时间点的数据快照的完整副本服务于对所 述时间点的数据快照的访问请求。
6. 如权利要求l所述的方法,其中,所述访问权重等于所述 访问频率。
7. 如权利要求4或5所述的方法,其中所述访问频率、访问 权重、第一阈值和/或第二阈值、以及所述时间点的数据快照的存 储位置信息是在一元数据库中维护的,且所述各判断是基于所述 元数据库中的信息进行的。
8. 如权利要求1所述的方法,其中所述存储在存储系统中的 连续存储数据是以完整副本加差异性副本的形式存储的。
9. 如权利要求1所述的方法,其中所述连续存储数据为配置 变更管理数据库数据或业务数据。
10. 如权利要求1所述的方法,还包括以下步骤 从数据源采集数据;以及将所采集的数据存储在所述存储系统中,作为所述连续存储数据。
11. 如权利要求1所述的方法,还包括基于所述时间点的数据 快照的完整副本以及存储策略调整所述存储系统中该时间点之后 的数据的存储的步骤。
12. —种基于访问频率的连续存储数据的存储管理系统,包括高速緩存管理器,所述高速緩存管理器包括用于确定取决于对存储在存储系统中的连续存储数据中的 一 时间点的数据快照的访问频率的访问权重的装置;用于判断所述访问权重是否达到第 一 阈值以及所述时间点的数据快照的完整副本是否存在于所述存储系统中的装置;以及用于当所述访问权重达到所述第 一 阈值且所述时间点的 数据快照的完整副本不存在于所述存储系统中时,将所述时间点 的数据快照的完整副本存储在所述存储系统中的装置。
13. 如权利要求12所述的系统,其中所述高速緩存管理器还 包括用于判断所述访问权重是否达到第二阈值以及所述时间点的 数据快照的完整副本是否存在于一数据高速緩存的装置;以及用于当所述访问权重达到所述第二阈值且所述时间点的数据 快照的完整副本不存在于该数据高速緩存时,将所述时间点的数 据快照的完整副本存储到该数据高速緩存中的装置。
14. 如权利要求12所述的系统,其中,所述高速緩存管理器 还包括用于接收对存储在所述存储系统中的连续存储数据中一时间 点的数据快照的访问请求的装置;以及 用于服务于所述访问请求的装置。
15. 如权利要求14所述的系统,其中,所述用于服务于所述 访问请求的装置进一步包括用于判断所述请求访问的所述时间点的数据快照是否存在于一访问高速緩存中的装置;用于当该判断为否时,从所述存储系统中获取或恢复所述时 间点的数据快照的完整副本并将其加载到该访问高速緩存中的装 置;以及用于用所述加栽的所述时间点的数据快照的完整副本服务于 对所述时间点的数据快照的访问请求的装置。
16. 如权利要求14所述的系统,其中,所述用于服务于所述 访问请求的装置进一步包括用于判断所迷请求访问的所述时间点的数据快照是否存在于 一访问高速緩存中的装置;用于当该判断为否时,进一步判断所述时间点的数据快照是 否存在于所述数据高速緩存中的装置;用于当所述进 一 步判断为是时,将所述时间点的数据快照的 完整副本从所述数据高速緩存加载到所述访问高速緩存中的装置;用于当所述进一步判断是否时,从所述存储系统中获取或恢 复所述时间点的数据快照的完整副本并将其加载到所述访问高速緩存中的装置;以及用于用所述加载的所述时间点的数据快照的完整副本服务于 对所述时间点的数据快照的访问请求的装置。
17. 如权利要求12所述的系统,其中,所述访问权重等于所 述访问频率。
18. 如权利要求15或16所述的系统,还包括一元数据库,其 中所述访问频率、访问权重、第一阈值和/或第二阈值、以及所述 时间点的数据快照的存储位置信息是在所述元数据库中维护的, 且所述各判断是基于所述元数据库中的信息进行的。
19. 如权利要求12所述的系统,其中所述存储在所述存储系统中的连续存储数据是以完整副本加差异性副本的形式存储的。
20. 如权利要求12所述的系统,其中所述连续存储数据为配 置变更管理数据库数据或业务数据。
21. 如权利要求12所述的系统,还包括 存储系统,其被配置为存储连续存储数据; 数据管理器,其被配置为访问所述存储系统;并且其中,对所述存储系统中的连续存储数据的访问是通过所述数据管理器进 行的。
22. 如权利要求21所述的系统,还包括数据采集器,其被 配置为从数据源采集数据;且其中所述数据管理器还被配置为将 所采集的数据存储在所述存储系统中,作为所述连续存储数据。
23. 如权利要求21所述的系统,其中所述数据管理器还被配 置为基于所述时间点的数据快照的完整副本以及存储策略调整所 述存储系统中该时间点之后的数据的存储。
全文摘要
一种基于访问频率的连续存储数据的存储管理方法和系统,该方法包括以下步骤确定取决于对存储在存储系统中的连续存储数据中的一时间点的数据快照的访问频率的访问权重;判断所述访问权重是否达到第一阈值以及所述时间点的数据快照的完整副本是否存在于所述存储系统中;以及当所述访问权重达到所述第一阈值且所述时间点的数据快照的完整副本不存在于所述存储系统中时,将所述时间点的数据快照的完整副本存储在所述存储系统中。
文档编号G06F17/30GK101499073SQ200810009228
公开日2009年8月5日 申请日期2008年1月29日 优先权日2008年1月29日
发明者亮 刘, 正 刘, 唐雪峰, 博 杨, 浩 王, 杰 陈, 滢 陈 申请人:国际商业机器公司