1.一种分布式基础框架中的数据存取方法,其特征在于,所述方法包括:
分布式文件系统客户端hdfsclient获取待写入云存储系统的文件,将文件按预设块大小切分为一个或多个数据块;
hdfsclient向管理节点namenode发送所述文件与被切分的数据块之间的映射关系,由namenode管理所述待写入文件的元数据信息;其中,所述元数据信息至少包括所述文件的文件名、访问控制信息、存储位置信息及所述文件与被切分的数据块之间的映射关系;
hdfsclient将被切分的数据块存储于云存储系统中;
hdfsclient基于所述namenode所管理的元数据信息从所述云存储系统中读取所述文件。
2.根据权利要求1所述的方法,其特征在于,所述hdfsclient将文件按预设块大小切分为一个或多个数据块之前,还包括如下写入验证和鉴权步骤:
hdfsclient向namenode发送写文件请求,写文件请求中包括文件名、存储位置信息、访问控制信息;
namenode基于管理的元数据信息验证发起写文件请求的用户是否有访问权限,并进行是否允许写入的写入验证;
若写入验证和鉴权通过,则执行所述hdfsclient将被切分的数据块存储于云存储系统中的步骤,若未通过则向hdfsclient发送写入失败的响应。
3.根据权利要求1所述的方法,其特征在于,所述hdfsclient基于所述namenode所管理的元数据信息从所述云存储系统中读取所述文件的方法为:
hdfsclient与namenode建立连接,发起读文件请求,所述读文件请求中至少包括文件名、访问控制信息、存储位置信息;
namenode检查文件是否存在并进行鉴权检测,若文件存在且鉴权通过,则向hdfsclient返回所要读取的文件和数据块之间的映射关系,若文件不存在或鉴权未通过,则向hdfsclient返回文件读取失败响应;
hdfsclient根据文件和数据块之间的映射关系,从云存储系统中读取数据块。
4.根据权利要求1或3所述的方法,其特征在于,
分布式计算框架通过所述hdfsclient读取文件时,根据所述文件对应的数据块个数启动多个任务并行从所述云存储系统读取所述文件的多个数据块。
5.根据权利要求1所述的方法,其特征在于,
所述云存储系统为云端部署的ceph存储系统。
6.一种分布式基础框架中的数据存取装置,其特征在于,该装置包括位于分布式文件系统客户端hdfsclient中的验证模块、获取模块、映射模块、上传模块、读取模块和管理节点namenode:
验证模块,用于在获取待写入云存储系统的文件之前,对文件进行写入验证和鉴权;
获取模块,用于在写入验证和鉴权通过时获取待写入云存储系统的文件,将文件按预设块大小切分为一个或多个数据块;
映射模块,用于向管理节点namenode发送所述文件与被切分的数据块之间的映射关系;
上传模块,用于将被切分的数据块存储于云存储系统中;
读取模块,用于基于所述namenode所管理的元数据信息从所述云存储系统中读取所述文件;
namenode,用于管理所述待写入文件的元数据信息;其中,所述元数据信息至少包括所述文件的文件名、访问控制信息、存储位置信息及所述文件与被切分的数据块之间的映射关系。
7.根据权利要求6所述的装置,其特征在于,
所述验证模块与namenode建立连接后,向namenode发送写文件请求,写文件请求中包括文件名、存储位置信息、访问控制信息;
所述namenode基于管理的元数据信息验证发起写文件请求的用户是否有访问权限,并进行是否允许写入的写入验证;若写入验证和鉴权通过,则反馈成功响应消息给验证模块,验证模块通知获取模块执行所述hdfsclient将被切分的数据块存储于云存储系统中的步骤,若未通过则向验证模块反馈失败响应消息。
8.根据权利要求6所述的装置,其特征在于,
所述读取模块与namenode建立连接,发起读文件请求,所述读文件请求中至少包括文件名、访问控制信息、存储位置信息;
所述namenode检查文件是否存在并进行鉴权检测,若文件存在且鉴权通过,则向所述读取模块返回所要读取的文件和数据块之间的映射关系,若文件不存在或鉴权未通过,则向所述读取模块返回文件读取失败响应;
所述读取模块根据文件和数据块之间的映射关系,从云存储系统中读取数据块。
9.根据权利要求6或8所述的装置,其特征在于,
分布式计算框架通过所述hdfsclient读取文件时,根据所述文件对应的数据块个数启动多个任务并行从所述云存储系统读取所述文件的多个数据块。
10.根据权利要求6所述的装置,其特征在于,
所述云存储系统为云端部署的ceph存储系统。