数据复制方法、装置、电子设备及存储介质与流程

文档序号:17398477发布日期:2019-04-13 01:00阅读:155来源:国知局
数据复制方法、装置、电子设备及存储介质与流程

本发明涉及大数据技术领域,具体而言,涉及一种数据复制方法、数据复制装置、电子设备以及计算机可读存储介质。



背景技术:

随着互联网技术的发展,分布式文件系统例如hdfs(hadoopdistributedfilesystem,分布式文件系统)的应用越来越广泛。在分布式文件系统例如hdfs中,经常需要对数据节点存放的文件进行复制或拷贝。

在一种技术方案中,在分布式系统例如hdfs内部进行文件拷贝时,可以通过cp命令的方式进行文件拷贝,也可以通过distcp命令的方式进行文件拷贝。cp的方式是获取待拷贝目录下所有的文件列表,然后进行文件元数据、文件块的拷贝。distcp方式也是先获取需要拷贝目录下所有的文件列表,然后按照配置的参数启动分布式map任务,进行并发式的文件复制。

然而,cp命令和distcp命令的方式都会发生实际的文件读写,都需要先读取源文件,然后再将源文件写入目的地址。在分布式系统中,还会发生跨网络读写的情况。这两种方案由于拷贝的速度受到硬件磁盘、网卡、并发进程的限制,往往拷贝一个大容量的数据需要几个小时。另外,在这两种方案中,在进行文件拷贝之后,由于会使用实际的磁盘空间,对于重复数据比较多的分布式文件系统,磁盘空间利用率极低。

因此,需要提供一种能够解决上述问题中的一个或多个问题的数据复制方法、数据复制装置、电子设备以及计算机可读存储介质。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。



技术实现要素:

本发明的目的在于提供一种数据复制方法、数据复制装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服由于受到硬件磁盘、网卡、并发进程的限制拷贝时间长的问题以及磁盘空间利用率低的问题。

根据本发明实施例的第一方面,提供了一种数据复制方法,应用具有多个数据节点的分布式系统,包括:获取源文件块所在的源数据节点的位置以及目的文件块所在的目的数据节点的位置;判断所述源数据节点的位置与所述目的数据节点的位置是否属于同一个数据节点;在判定属于同一数据节点时,采用硬链方式对所述源文件块进行复制;在判定不属于同一数据节点时,则采用数据拷贝的方式将所述源文件块复制到所述目的文件块。

在本发明的一些实施例中,基于前述方案,所述数据复制方法还包括:在接收到对所述源文件的数据更新请求时,基于所述数据更新请求从名称节点中确定待更新的文件块;判断所述待更新的文件块是否存在硬链链接;在判定存在硬链链接时,创建临时文件块复制所述源文件块的内容,并对所述临时文件块进行数据更新操作;在判定不存在硬链链接时,直接对待更新的文件块进行数据更新操作。

在本发明的一些实施例中,基于前述方案,所述数据复制方法还包括:遍历名称节点中的源文件的目录,获取源文件的所有源文件块信息;从所述源文件块信息中获取所述源数据节点的位置,基于所述源文件块信息以及所述源数据节点的位置创建目的文件块;基于所述源文件块、所述源数据节点的位置、所述目的文件块生成复制任务。

在本发明的一些实施例中,基于前述方案,所述数据复制方法还包括:从所述复制任务中获取所述源文件块所在的所述源数据节点的位置;基于所述源数据节点的位置确定所述目的文件块所在的目的数据节点。

在本发明的一些实施例中,基于前述方案,基于所述源数据节点的位置确定所述目的文件块所在的目的数据节点,包括:将所述源数据节点的位置确定为所述目的文件块的目的数据节点。

在本发明的一些实施例中,基于前述方案,从所述复制任务中获取所述源文件块所在的所述源数据节点的位置,包括:通过多线程的方式从所述复制任务中获取所述源文件所在的所述源数据节点的位置。

在本发明的一些实施例中,基于前述方案,采用硬链方式对所述源文件块进行复制,包括:在所述源数据节点对所述目的文件块新建一个链接指向所述源文件块。

根据本发明实施例的第二方面,提供了一种数据复制装置,应用具有多个数据节点的分布式系统,包括:信息获取单元,用于获取源文件块所在的源数据节点的位置以及目的文件块所在的目的数据节点的位置;判断单元,用于判断所述源数据节点的位置与所述目的数据节点的位置是否属于同一个数据节点;本地复制单元,用于在判定属于同一数据节点时,采用硬链方式对所述源文件块进行复制;数据复制单元,用于在判定不属于同一数据节点时,则采用数据复制的方式将所述源文件块复制到所述目的文件块。

根据本发明实施例的第三方面,提供了一种电子设备,包括:处理器;以及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上述第一方面所述的数据复制方法。

根据本发明实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的数据复制方法。

在本发明的一些实施例所提供的技术方案中,一方面,获取源文件块的源数据节点的位置与目的文件块的目的数据节点的位置,能够根据源数据节点的位置以及目的数据节点的位置判断源文件块与目的文件块是否属于同一个数据节点;另一方面,在源文件块与目的文件块属于同一数据节点时,采用硬链方式对源文件进行复制,由于硬链方式不进行实际文件复制,从而能够显著提高复制效率,降低对实际硬盘存储空间的占用,提高硬盘存储空间的利用率。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1示出了根据本发明的一些实施例的数据复制方法的流程示意图;

图2示出了根据本发明的另一些实施例的数据复制方法的流程示意图;

图3示出了根据本发明的一示例性实施例的数据复制装置的示意框图;

图4示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本发明将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。

图1示出了根据本发明的一些实施例的数据复制方法的流程示意图。参照图1所示,该数据复制方法可以包括以下步骤:

步骤s110,获取源文件块所在的源数据节点的位置以及目的文件块所在的目的数据节点的位置;

步骤s120,判断所述源数据节点的位置与所述目的数据节点的位置是否属于同一个数据节点;

步骤s130,在判定属于同一数据节点时,采用硬链方式对所述源文件块进行复制;

步骤s140,在判定不属于同一数据节点时,则采用数据拷贝的方式将所述源文件块复制到所述目的文件块。

根据图1的示例实施例中的数据复制方法,一方面,获取源文件块的源数据节点的位置与目的文件块的目的数据节点的位置,能够根据源数据节点的位置以及目的数据节点的位置判断源文件块与目的文件块是否属于同一个数据节点;另一方面,在源文件块与目的文件块属于同一数据节点时,采用硬链方式对源文件进行复制,由于硬链方式不进行实际文件复制,从而能够显著提高复制效率,降低对实际硬盘存储空间的占用,提高硬盘存储空间的利用率。

下面,将对图1的示例实施例中的数据复制方法进行详细的说明。

在步骤s110中,获取源文件块所在的源数据节点的位置以及目的文件块所在的目的数据节点的位置。

在示例实施例中,可以从名称节点namenode中查询待拷贝或复制的源文件的所有文件块信息,并获取这些源文件块所处的数据节点的位置信息。此外,还可以从名称节点获取目的文件所在的数据节点的目的数据节点的位置。名称节点即namenode为分布式文件系统中的管理者,负责管理文件系统命名空间、数据块的复制等。数据节点即datanode是文件存储的基本单元,以数据块或文件块的形式保存了分布式文件系统中的文件的内容。

步骤s120,判断所述源数据节点的位置与所述目的数据节点的位置是否属于同一个数据节点。

在示例实施例中,判断源文件块所在的数据节点的源数据节点的位置与目的文件块所在的数据节点的目的数据节点的位置是否属于同一个数据节点。

步骤s130,在判定属于同一数据节点时,采用硬链方式对所述源文件块进行复制。

在示例实施例中,在判定源文件块所在的数据节点的源数据节点的位置与目的文件块所在的数据节点的目的数据节点的位置属于同一数据节点时,采用硬链方式或本地拷贝的方式对源文件块进行复制,即利用linux系统的硬链方式,新建一个链接指向源文件块。

硬链接(hardlink)相当于文件块的一个别名。它指向的是一个文件inode(索引节点)的引用地址,而非软链接中的文件路径指向。所以对于硬链接中的文件做修改会影响到其所指向的真实文件,当对硬链接做删除动作后,如果其所指向的文件inode当前没有被外部硬链接引用的话,则原文件会被删除,否则原文件不会被删除。

步骤s140,在判定不属于同一数据节点时,则采用数据拷贝的方式将所述源文件块复制到所述目的文件块。

在示例实施例中,在判定源文件块所在的数据节点的源数据节点的位置与目的文件块所在的数据节点的目的数据节点的位置不属于同一数据节点时,采用数据拷贝的方式将源文件块复制到目的文件块。数据拷贝的方式需要将源数据块的数据写入到其他数据节点,发生实际地数据读写。

此外,在示例实施例中,遍历名称节点中的源文件的目录,获取源文件的所有源文件块信息;从源文件块信息中获取源文件块的源数据节点的位置即所属的数据节点,基于源文件块信息以及源数据节点的位置创建目的文件块;基于源文件块、源数据节点的位置、目的文件块生成复制任务或拷贝任务。在创建目的文件块时,生成名称节点的目的文件块信息。为了防止节点实际使用空间不足导致拷贝失败,需要生成优先复制数据的数据节点信息,该数据节点信息与源文件的数据块的数据节点信息一致,在数据节点的空间不足时,可以向其他数据节点进行拷贝。

进一步地,在示例实施例中,可以通过多线程的方式读取复制任务中源文件块和目的文件块的信息,与名称节点进行通信,从名称节点中获取源文件块所在的数据节点的位置。

此外,在示例实施例中,由于使用了硬链方式,在对实际的文件块或数据块进行更新或修改时,由于源文件块和目的文件块指向同一数据块,会导致源文件块的内容和目的文件块的内容都会修改,需要特别地处理。具体而言,在接收到对所述源文件的数据更新请求例如append更新操作时,基于数据更新请求从名称节点中确定待更新的文件块;判断所述待更新的文件块是否存在硬链链接;在判定存在硬链链接时,创建临时文件块复制所述源文件块的内容,并对所述临时文件块进行数据更新操作;在判定不存在硬链链接时,直接对待更新的文件块进行数据更新操作。

图2示出了根据本发明的另一些实施例的数据复制方法的流程示意图。

参照图2所示,在步骤s210中,接收客户端发来的数据复制请求。例如,客户端发起复制请求,与源文件块所在的数据节点进行通信,向源文件所在的数据节点发起数据拷贝请求。

进一步地,在示例实施例中,遍历名称节点中的源文件的目录,获取源文件的所有源文件块信息;从源文件块信息中获取源文件块的源数据节点的位置即所属的数据节点,基于源文件块信息以及源数据节点的位置创建目的文件块;基于源文件块、源数据节点的位置、目的文件块生成复制任务或拷贝任务。在创建目的文件块时,生成名称节点的目的文件块信息。为了防止节点实际使用空间不足导致拷贝失败,需要生成优先复制数据的数据节点信息,该数据节点信息与源文件的数据块的数据节点信息一致,在数据节点的空间不足时,可以向其他数据节点进行拷贝。

在步骤s220中,通过多线程的方式读取数据复制请求,从数据复制请求中获取源文件块和目的文件块,与名称节点进行通信获取源文件块所在的数据节点位置以及目的文件块所在的数据节点位置。

在步骤s230中,在源文件块所在的数据节点的源数据节点的位置与目的文件块所在的数据节点的目的数据节点的位置属于同一数据节点即数据节点1时,采用硬链方式或本地拷贝的方式对源文件块进行复制,即利用linux系统的硬链方式,新建一个链接指向源文件块,新建链接的操作基本是毫秒级的,从而能够显著提高复制效率。进一步地,还可以将硬链接块的信息发送至名称节点。

在步骤s240中,在源文件块所在的数据节点的源数据节点的位置与目的文件块所在的数据节点的目的数据节点的位置不属于同一数据节点时即源文件块属于数据节点1、目的文件块属于数据节点2,采用数据拷贝的方式将源文件块从数据节点1复制到数据节点2的目的文件块。数据拷贝的方式需要将源数据块的数据写入到其他数据节点,发生实际地数据读写。数据拷贝的方式与distcp与cp拷贝的方式一致。

在示例实施例中,由于数据会基于原始版本进行不断的迭代更新生产,即使在新版本进行数据生产时,也是直接覆盖的部分文件,并不会发生文件块的更新操作。在使用原生的cp命令或者distcp命令方式进行文件拷贝时,往往需要几个小时拷贝一个数据版本,还会额外增加一倍的使用空间。而使用本发明的示例实施例的技术方案进行数据拷贝后,进行数据的版本迭代周期大大的缩短,只需要几分钟甚至几秒即可完成一个数据版本的拷贝,同时不会发生数据的实际占用空间增加,从而能够显著节省人力时间成本、降低了硬件成本。

此外,在本发明的实施例中,还提供了一种数据复制装置,该数据复制装置可以应用具有多个数据节点的分布式系统。参照图3所示,该数据复制装置300可以包括:信息获取单元310、判断单元320、本地复制单元330以及数据复制单元340。其中,信息获取单元310用于获取源文件块所在的源数据节点的位置以及目的文件块所在的目的数据节点的位置;判断单元320用于判断所述源数据节点的位置与所述目的数据节点的位置是否属于同一个数据节点;本地复制单元330用于在判定属于同一数据节点时,采用硬链方式对所述源文件块进行复制;数据复制单元340用于在判定不属于同一数据节点时,则采用数据复制的方式将所述源文件块复制到所述目的文件块。

在本发明的一些实施例中,基于前述方案,所述数据复制装置300还包括:确定单元,用于在接收到对所述源文件的数据更新请求时,基于所述数据更新请求从名称节点中确定待更新的文件块;硬链链接判断单元,用于判断所述待更新的文件块是否存在硬链链接;第一更新单元,用于在判定存在硬链链接时,创建临时文件块复制所述源文件块的内容,并对所述临时文件块进行数据更新操作;第二更新单元,用于在判定不存在硬链链接时,直接对待更新的文件块进行数据更新操作。

在本发明的一些实施例中,基于前述方案,所述数据复制装置300还包括:源文件块信息获取单元,用于遍历名称节点中的源文件的目录,获取源文件的所有源文件块信息;目的文件块创建单元,用于从所述源文件块信息中获取所述源数据节点的位置,基于所述源文件块信息以及所述源数据节点的位置创建目的文件块;复制任务生成单元,用于基于所述源文件块、所述源数据节点的位置、所述目的文件块生成复制任务。

在本发明的一些实施例中,基于前述方案,所述数据复制装置300还包括:位置获取单元,用于从所述复制任务中获取所述源文件块所在的所述源数据节点的位置;节点确定单元,用于基于所述源数据节点的位置确定所述目的文件块所在的目的数据节点。

在本发明的一些实施例中,基于前述方案,节点确定单元被配置为:将所述源数据节点的位置确定为所述目的文件块的目的数据节点。

在本发明的一些实施例中,基于前述方案,位置获取单元被配置为:通过多线程的方式从所述复制任务中获取所述源文件所在的所述源数据节点的位置。

在本发明的一些实施例中,基于前述方案,本地复制单元330被配置为:在所述源数据节点对所述目的文件块新建一个链接指向所述源文件块。

由于本发明的示例实施例的数据复制装置300的各个功能模块与上述数据复制方法的示例实施例的步骤对应,因此在此不再赘述。

在本发明的示例性实施例中,还提供了一种能够实现上述方法的电子设备。

下面参考图4,其示出了适于用来实现本发明实施例的电子设备的计算机系统400的结构示意图。图4示出的电子设备的计算机系统400仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示,计算机系统400包括中央处理单元(cpu)401,其可以根据存储在只读存储器(rom)402中的程序或者从存储部分408加载到随机访问存储器(ram)403中的程序而执行各种适当的动作和处理。在ram403中,还存储有系统操作所需的各种程序和数据。cpu401、rom402以及ram403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。

以下部件连接至i/o接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至i/o接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。

特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(cpu)401执行时,执行本申请的系统中限定的上述功能。

需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的数据复制方法。

例如,所述电子设备可以实现如图1中所示的:步骤s110,获取源文件块所在的源数据节点的位置以及目的文件块所在的目的数据节点的位置;步骤s120,判断所述源数据节点的位置与所述目的数据节点的位置是否属于同一个数据节点;步骤s130,在判定属于同一数据节点时,采用硬链方式对所述源文件块进行复制;步骤s140,在判定不属于同一数据节点时,则采用数据拷贝的方式将所述源文件块复制到所述目的文件块。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备或装置的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1