一种分布式基础框架中的数据存取方法及装置与流程

文档序号:22313591发布日期:2020-09-23 01:34阅读:来源:国知局

技术特征:

1.一种分布式基础框架中的数据存取方法,其特征在于,所述方法包括:

分布式文件系统客户端hdfsclient获取待写入云存储系统的文件,将文件按预设块大小切分为一个或多个数据块;

hdfsclient向管理节点namenode发送所述文件与被切分的数据块之间的映射关系,由namenode管理所述待写入文件的元数据信息;其中,所述元数据信息至少包括所述文件的文件名、访问控制信息、存储位置信息及所述文件与被切分的数据块之间的映射关系;

hdfsclient将被切分的数据块存储于云存储系统中;

hdfsclient基于所述namenode所管理的元数据信息从所述云存储系统中读取所述文件。

2.根据权利要求1所述的方法,其特征在于,所述hdfsclient将文件按预设块大小切分为一个或多个数据块之前,还包括如下写入验证和鉴权步骤:

hdfsclient向namenode发送写文件请求,写文件请求中包括文件名、存储位置信息、访问控制信息;

namenode基于管理的元数据信息验证发起写文件请求的用户是否有访问权限,并进行是否允许写入的写入验证;

若写入验证和鉴权通过,则执行所述hdfsclient将被切分的数据块存储于云存储系统中的步骤,若未通过则向hdfsclient发送写入失败的响应。

3.根据权利要求1所述的方法,其特征在于,所述hdfsclient基于所述namenode所管理的元数据信息从所述云存储系统中读取所述文件的方法为:

hdfsclient与namenode建立连接,发起读文件请求,所述读文件请求中至少包括文件名、访问控制信息、存储位置信息;

namenode检查文件是否存在并进行鉴权检测,若文件存在且鉴权通过,则向hdfsclient返回所要读取的文件和数据块之间的映射关系,若文件不存在或鉴权未通过,则向hdfsclient返回文件读取失败响应;

hdfsclient根据文件和数据块之间的映射关系,从云存储系统中读取数据块。

4.根据权利要求1或3所述的方法,其特征在于,

分布式计算框架通过所述hdfsclient读取文件时,根据所述文件对应的数据块个数启动多个任务并行从所述云存储系统读取所述文件的多个数据块。

5.根据权利要求1所述的方法,其特征在于,

所述云存储系统为云端部署的ceph存储系统。

6.一种分布式基础框架中的数据存取装置,其特征在于,该装置包括位于分布式文件系统客户端hdfsclient中的验证模块、获取模块、映射模块、上传模块、读取模块和管理节点namenode:

验证模块,用于在获取待写入云存储系统的文件之前,对文件进行写入验证和鉴权;

获取模块,用于在写入验证和鉴权通过时获取待写入云存储系统的文件,将文件按预设块大小切分为一个或多个数据块;

映射模块,用于向管理节点namenode发送所述文件与被切分的数据块之间的映射关系;

上传模块,用于将被切分的数据块存储于云存储系统中;

读取模块,用于基于所述namenode所管理的元数据信息从所述云存储系统中读取所述文件;

namenode,用于管理所述待写入文件的元数据信息;其中,所述元数据信息至少包括所述文件的文件名、访问控制信息、存储位置信息及所述文件与被切分的数据块之间的映射关系。

7.根据权利要求6所述的装置,其特征在于,

所述验证模块与namenode建立连接后,向namenode发送写文件请求,写文件请求中包括文件名、存储位置信息、访问控制信息;

所述namenode基于管理的元数据信息验证发起写文件请求的用户是否有访问权限,并进行是否允许写入的写入验证;若写入验证和鉴权通过,则反馈成功响应消息给验证模块,验证模块通知获取模块执行所述hdfsclient将被切分的数据块存储于云存储系统中的步骤,若未通过则向验证模块反馈失败响应消息。

8.根据权利要求6所述的装置,其特征在于,

所述读取模块与namenode建立连接,发起读文件请求,所述读文件请求中至少包括文件名、访问控制信息、存储位置信息;

所述namenode检查文件是否存在并进行鉴权检测,若文件存在且鉴权通过,则向所述读取模块返回所要读取的文件和数据块之间的映射关系,若文件不存在或鉴权未通过,则向所述读取模块返回文件读取失败响应;

所述读取模块根据文件和数据块之间的映射关系,从云存储系统中读取数据块。

9.根据权利要求6或8所述的装置,其特征在于,

分布式计算框架通过所述hdfsclient读取文件时,根据所述文件对应的数据块个数启动多个任务并行从所述云存储系统读取所述文件的多个数据块。

10.根据权利要求6所述的装置,其特征在于,

所述云存储系统为云端部署的ceph存储系统。


技术总结
本发明提供了一种分布式基础框架中的数据存取方法及装置,用于实现分布式基础框架中的存储于计算分离。本发明中,HDFS Client将待存储于云存储系统的文件切分成数据块,使用NameNode作为元数据管理服务管理文件与数据块之间的映射关系,将数据块存储于云存储系统中,当需要从云存储系统中读取文件时,根据NameNode管理的文件与数据块的映射关系可开启多个任务并行从云存储系统中读取多个数据块。本发明实现了分布式基础框架中计算资源与存储资源的分离部署,不需要对上层的分布式并行计算框架进行修改,具有很好的兼容性,同时解决了分布式文件系统与云存储系统权限管理模型不一致导致鉴权过程复杂、文件重命名性能差的技术问题。

技术研发人员:史宁宁;户蕾蕾;于胜强
受保护的技术使用者:新华三大数据技术有限公司
技术研发日:2020.04.01
技术公布日:2020.09.22
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1