用于验证缓存文件的方法、设备和计算机程序产品与流程

文档序号:20616406发布日期:2020-05-06 20:12阅读:146来源:国知局
用于验证缓存文件的方法、设备和计算机程序产品与流程

本公开的实施例总体上涉及计算机技术,更具体地,涉及用于验证缓存文件的方法、设备和计算机程序产品。



背景技术:

在数据备份过程中,通常需要创建用于记录已备份的数据的缓存,以减少网络流量和服务器的工作负载。例如,可以在备份客户端中创建和存储缓存文件,其中记录了已备份的文件数据。当备份客户端启动备份作业时,备份客户端可以首先检查缓存文件以查找已备份的文件数据。由于缓存文件本地存储在客户端中,所以通过检查缓存文件可以避免通过网络向备份服务器发送检查请求,从而减少了网络流量。同时,可以避免增加在服务器中查找已有的文件数据的工作量。

缓存文件在最初可以被创建为空文件。因此,对于第一次数据备份,将不会有在缓存文件中命中已有的文件数据的情况。当后续的备份作业启动时,新的备份作业可以将新备份的文件数据的相关信息(例如,哈希值)添加到缓存文件中。由此,缓存文件的内容将会被逐渐填充。

传统上,如果缓存文件损坏,例如,某个已备份的数据段没有被正确记录到缓存文件中,则缓存文件将被视为已损坏。此时,将无法查找已备份的数据。如果没有可用的缓存文件,则将执行完整的数据备份,这将需要很长时间。相对于使用缓存文件的数据备份而言,完整的数据备份可能需要十倍的时间才能完成。这种情况在数据备份过程中时有发生,这严重影响了用户体验。



技术实现要素:

总体上,本公开的实施例提出了用于验证缓存文件的方法、设备和计算机程序产品。

在第一方面,本公开的实施例提供了一种验证用于记录已备份的数据的缓存文件的方法。在方法中,将与已备份的数据相关联的参考缓存文件分成多个参考分段。针对多个参考分段中的各个参考分段,生成相应的参考校验信息,并且存储所生成的参考校验信息。响应于数据要被备份,使用所存储的参考校验信息来验证缓存文件。

在第二方面,本公开的实施例提供了一种用于验证用于记录已备份的数据的缓存文件的设备。该设备包括处理器以及存储有计算机可执行指令的存储器。计算机可执行指令在被处理器执行时使得设备执行动作,动作包括:将与已备份的数据相关联的参考缓存文件分成多个参考分段;针对多个参考分段中的各个参考分段,生成相应的参考校验信息;存储所生成的参考校验信息;以及响应于数据要被备份,使用所存储的参考校验信息来验证缓存文件。

在第三方面,本公开的实施例提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令。机器可执行指令在被执行时使机器执行根据第一方面的方法。

应当理解,发明内容部分中所描述的内容并非旨在限定本公开实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:

图1示出了本公开的实施例可以在其中实施的示例备份系统;

图2示出了根据本公开的某些实施例的方法的流程图;

图3示出了根据本公开的某些实施例的对参考缓存文件的进行处理的示例过程;

图4示出了根据本公开的某些实施例的验证缓存文件的示例过程;

图5示出了根据本公开的某些实施例的数据备份的示例过程;以及

图6示出了适合实现本公开的实施例的设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。

在此使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”。其他术语的相关定义将在下文描述中给出。

在数据备份过程中,为了减少网络流量和服务器的工作负载,可以在客户端创建缓存文件,用于记录已备份的数据。在备份数据之前,客户端可以通过检查缓存文件来确定哪些数据备份到服务器上。对于这些数据,客户端可以不必再执行备份操作。因而,大大减少了网络流量和服务器的工作负载。然而,当缓存文件损坏时,传统上,需要重新执行数据的完整备份,这明显增加了备份作业的处理时间。在缓存文件损坏时有发生的情况下,备份效率和性能受到严重影响,从而大大影响了用户体验。

本公开的实施例提出了一种缓存文件的验证机制。该机制以预定的分段方式将参考缓存文件分成多个参考分段,并且针对每个参考分段生成相应的参考校验信息。参考缓存文件可以例如是当前可用的最新的缓存文件。针对各个参考分段生成的参考校验信息被存储起来。在有数据要备份时,使用所存储的参考校验信息来对缓存文件进行验证。

根据本公开的实施例,可以对缓存文件分段,并且逐段检查缓存文件的可用性。这样,在缓存文件损坏时,可以找出缓存文件的损坏部分和未损坏部分。在大多数情况下,损坏的缓存文件中实际上只有部分内容被损坏。这使得缓存文件的未损坏部分仍然可以继续使用,从而不必频繁地执行数据的完整备份。以此方式,大大减少了网络流量和服务器的工作负载,并且显著提高了备份效率和性能,提升了用户体验。

图1示出了本公开的实施例可以在其中实施的示例备份系统100。系统100包括客户端105和服务器110。客户端105和服务器110可以是任意适当的计算设备。计算设备的示例包括但不限于:个人计算机(pc)、膝上型计算机、平板式计算机、个人数字助理(pda)、刀片机,等等。应当理解,图1中仅仅出于示例的目的而示出了一个客户端和一个服务器。系统100中可以包括任意适当数目的客户端和服务器。

如图所示,在客户端105处,创建并且存储了缓存文件115。缓存文件115用于记录已经在服务器110处备份的数据。当有新的备份作业时(框120),客户端105可以首先检查缓存文件115,以确定哪些待备份的数据已经备份到服务器120上。继而,服务器110从客户端105接收尚未备份的数据(框125),用于进行数据备份。

在本公开的各实施例中,客户端105将与已备份的数据相关联的参考缓存文件分成多个参考分段,并且针对每个参考分段生成相应的参考校验信息。客户端105将所生成的参考校验信息例如存储在本地存储设备(未示出)中。如果有数据要备份,客户端105使用所存储的参考校验信息来验证相关的缓存文件。

图2示出了根据本公开的某些实施例的用于验证缓存文件的示例方法200的流程图。方法200可以在如图1所示的客户端105处实施。为讨论方便,下面将结合图1描述方法200。

如图2所示,在框205,在客户105端处将与已备份的数据相关联的参考缓存文件分成多个参考分段。作为示例,参考缓存文件可以是记录了已备份到服务器110的数据的可用的最新的缓存文件。参考缓存文件也可以是某次数据备份之后更新的可用的缓存文件。

参考缓存文件可以任意适当方式被分段。在某些实施例中,参考缓存文件包括文件头部和多个元素。元素可以是参考缓存文件的最小数据结构单元,例如用于存储已备份的数据的哈希值。在这种情况下,可以将文件头部作为多个参考分段中的一个参考分段,将多个元素划分成多个参考分段中的其余参考分段。

多个参考分段的长度可以相等。例如,在将参考缓存文件中的多个元素划分成多个参考分段时,可以首先确定每个参考分段中所包括的元素的参考数目,继而基于所确定元素的参考数目来划分参考分段。

对于最后一个分段,该分段中的元素的数目可以小于所确定的参考数目。例如,假设元素的总数是m,并且元素的参考数目为n,则最后一个分段中的元素的数目可以为mmodn,即m%n。作为备选,最后一个分段中的元素也可以大于所确定的参考数目。例如,最后m%n个元素可以与紧接在其之前的n个元素分成一个分段。

参考分段的长度可以是固定不变的。例如,可以在对不同的参考缓存文件进行分段时,都将相同数目的元素划分成一个分段。备选地,参考分段的长度也可以是动态改变的。例如,可以在每次对参考缓存文件分段时,动态地改变元素的参考数目。

在对参考缓存文件分段之后,在框210,针对多个参考分段中的每个参考分段,生成该参考分段的参考校验信息。作为示例,可以计算每个参考分段中所包含的信息比特的校验和,作为相应的参考校验信息。用于生成能够验证缓存文件的参考校验信息的其他计算方式也是可行的。

在框215,客户端105存储所生成的参考校验信息。例如,客户端105可以将参考校验信息存储在本地存储设备中,或者客户端105可访问的某个存储设备。在某些实施例中,参考校验信息可以文件形式存储在校验文件中。校验文件可以与参考缓存文件以及待验证的缓存文件相分隔。将所生成的参考校验信息存储在单独文件中,可以不触及缓存文件。因为不会对缓存文件执行写入操作,所以校验信息的生成和存储都不会影响缓存文件,从而增加了校验信息以及缓存文件二者的可靠性。

图3示出了根据本公开的某些实施例的对参考缓存文件的进行处理的示例过程300。在此示例中,参考缓存文件305是记录了已备份的数据的可用的最新的缓存文件。

如图3所示,参考缓存文件305包括文件头部310和多个元素315-1、315-2、315-3、315-4……315-k-1和315-k(统称为“元素315”)。参考缓存文件305被分成多个分段,并且针对各个分段生成了相应的参考校验信息320-1、320-2、320-3……320-i(统称为“参考校验信息320”)。

在此示例中,文件头部310被划分成一个单独的分段,并且生成了相应的参考校验信息320-1。参考缓存文件305所包含的元素315被划分成多个分段。在对元素315进行分段时,将固定数目的元素315(例如,每两个元素315)分成一个分段,并且针对每个分段生成参考校验信息320-2、320-3……320-i(统称为“校验信息320”)。参考校验信息320例如是相应分段的信息比特的校验和。所生成的参考校验信息320被存储在单独的校验文件325中。

接下来,继续参考图2,在框220,响应于数据要被备份,使用所存储的参考校验信息来验证缓存文件。在某些实施例中可以按照对参考缓存文件进行分段以及生成参考校验信息的方式,对缓存文件进行分段并且生成相应的校验信息。例而言,可以首先确定参考缓存文件被分成多个参考分段的分段方式以及相应的参考校验信息的生成方式。继而,以所确定的分段方式将待验证的缓存文件分成多个分段,并且以所确定的参考校验信息的生成方式来生成各个分段的校验信息。

通过逐段将所生成的校验信息与所存储的相应的参考校验信息相比较,来验证缓存文件中的哪个分段损坏了。例如,如果校验信息相同,可以确定该分段未损坏。如果校验信息不同,可以确定该分段损坏。已经损坏的分段可以标识为无效分段,未损坏的分段可以被标识为可用分段。被标识为无效的分段中的元素可以被重新初始化为空元素。如果下次备份需要添加新的元素,则可以使用这些空元素。例如,可以使用这些空元素来记录新的备份数据。

在某些实施例中,缓存文件的验证可以在确定了缓存文件已经损坏的情况下执行。这使得缓存文件的分段验证可以在必要时才被执行,从而进一步提高了数据备份的效率。

图4示出了根据本公开的某些实施例的验证缓存文件的示例过程400。在此示例中,参考缓存文件305按照图3所示的方式被分成多个分段,并且针对每个分段生成了校验信息320。这些校验信息320被存储在单独校验文件325中。

如图4所示,缓存文件115包括文件头部410和多个元素415-1、415-2、415-3、415-4……415-k-1和415-k(统称为“元素415”)。按照与参考缓存文件305相同的分段方式和校验信息生成方式,缓存文件405中的文件头部410被分成一个分段,并且每两个元素415被分成一个分段。针对每个分段,生成了相应的校验信息420-1、420-2、420-3……420-i(统称为“校验信息420”)。

如果缓存文件405的文件头部410中的内容不正确,则缓存文件405无法被信任。在这种情况下,在某些实施例中,可以对由文件头部410的分段进行特别的处理,以提高该分段的可靠性,从而可以确保该分段能够例如在从损坏的缓存文件重建新的缓存文件之前具有较高的可靠性。

通过将所生成的校验信息420与所存储的相应的参考校验信息320相比较,发现缓存文件420中的元素415-3和415-4损坏(425)。继而,重新构建(430)新的缓存文件435,例如将这两个元素415-3和415-4标识为无效,例如初始化为空元素,以用于在后续数据备份中使用。

图5示出了根据本公开的某些实施例的数据备份的示例过程500。过程500可以在如图1所示的备份系统100中实施。为讨论方便,下面将结合图1描述过程500。

如图5所示,在框502,在客户端105处开始备份作业。在框504,客户端105读取缓存文件115以用于对缓存文件115进行验证。上文参考图1到图4所描述的分段验证的全部操作和特征都可以在框504处实施,具体细节不再赘述。

在对缓存文件115进行验证后,在框506,客户端105将缓存文件115发送给服务器110。服务器110在框508接收到缓存文件115,继而在框510验证缓存文件115中的各个元素是否有效。在框512,服务器110将验证结果发送给客户端105。在框514,客户端105对被标识为无效的元素重新初始化。在框516,客户端105继续执行备份作业。

以此方式,可以同步地查看缓存文件115中的内容在服务器110中是否仍然可用。这使得根据损坏的缓存文件重建的新的缓存文件的内容可以与服务器同步,从而可以确保新缓存文件中的内容仍然保持有效。如果通过服务器110处的验证发现某个元素不存在,客户端105可以更新缓存文件115,并且将相应的数据标记为无效。在后续的数据备份中,客户端105可以对无效的数据进行重新备份,从而提高了数据备份的效率和性能。

在传统的基于缓存文件的数据备份中,如果检测到缓存文件已损坏,则不会使用缓存文件,并且将触发数据的完整备份。完整备份通常需要很长时间,这严重影响了用户体验。根据本公开的实施例,缓存文件被划分为分段,并且逐段检查缓存文件的可用性。在缓存文件损坏后,仍然可以使用缓存文件中的某些段,而不必进行完整的备份,从而大大提高了备份性能。

图6示出了一个可以用来实施本公开的实施例的设备600的示意性框图。如图6所示,设备600包括控制器或处理器,或者称中央处理单元(cpu)601,其可以根据存储在只读存储器(rom)602和/或随机访问存储器(ram)603的程序而执行各种适当的动作和处理。rom602和/或ram603可存储设备600操作所需的各种程序和数据。cpu601、rom602和ram603通过总线604彼此相连。特别地,设备600还包括一个或多个专用处理单元(未示出),这些专用处理单元也可以连接至总线604。

输入/输出(i/o)接口605也连接至总线604。设备600中的多个部件连接至i/o接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。特别地,在本公开的实施例中,通信单元609支持与客户端或者其他设备的通信。

在某些实施例中,cpu601可被配置为执行上文所描述的各个过程和处理,例如方法700。例如,在一些实施例中,方法700可被实现为计算机软件程序,其被有形地包含于计算机可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由rom602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序被加载到ram603并由cpu601执行时,可以执行上文描述的方法200的一个或多个步骤。备选地,在其他实施例中,cpu601也可以以其他任何适当的方式被配置以实现上述过程/方法。

特别地,根据本公开的实施例,上文参考图1至图6描述的过程可以被实现为计算机程序产品,其可以被有形地存储在非瞬态计算机可读存储介质上,并且包括计算机可执行指令,该指令在被执行时使得设备实现根据本公开的各个方面。

计算机可读存储介质可以是可以存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的、非穷举的例子包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,编程语言包括面向对象的编程语言—诸如java、smalltalk、c++等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。

这里参照根据本公开实施例的设备、方法和计算机程序产品的框图和/或流程图描述了本公开的各个方面。应当理解,框图和/或流程图的每个方框以及框图和/或流程图中各方框的组合,都可以由计算机可读程序指令实现。

已经出于示例的目的描述了本公开的各个实施例,但是本公开并不意图限于所公开的这些实施例。在不脱离本公开实质的前提下,所有修改和变型均落入由权利要求所限定的本公开的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1