一种面向多元异构丝绸遗产数据的云存储方法与流程

文档序号:23651826发布日期:2021-01-15 13:48阅读:125来源:国知局
一种面向多元异构丝绸遗产数据的云存储方法与流程

本发明涉及历史文化遗产数据的存储方法,特别是涉及到多元异构丝绸遗产数据元数据、丝绸要素地图和图文资料的存储方法。



背景技术:

“丝绸之路”是东西方融合、交流和对话之路,为近两千年以来人类的共同繁荣做出了卓越贡献。丝路遗产种类丰富,其中丝绸最具代表性。丝绸是丝绸之路的原动力,通过丝绸之路传播于全球,为人类文明的发展做出了重要贡献。

长期以来,丝绸源于中国和丝路始于中国的命题已成为广大学者和民众的基本共识。随着时间推移,针对丝绸的研究越来越多,而丝绸生产多环节、遗产多类别、文化多区域的特点,致使丝绸遗产数据体量的不断增长。在涉及数据存储方面,基于传统的人工建立丝绸遗产档案存在管理成本高昂、查询效率低、不利于信息展示等不足。随着互联网技术的发展,数字博物馆的出现一定程度上满足了各博物馆展品资源的数字化存储,但仍缺乏有效的知识服务体系共享和存储管理平台。

基于此,聚焦世界各大博物馆的相关丝绸遗产成果,针对丝绸遗产数据来源多样、种类多样、数据格式多样、数据量大等特性,立足多维度(文物、图像、史料、工艺、遗址等),有必要在云环境下以最优存储方式构建多元丝绸遗产数据的多态存储模型,实现面向云存储的多元异构大规模丝绸遗产数据存储管理体系,以攻克结构化、半结构化及非结构化丝绸遗产数据成果集成管理的难题。



技术实现要素:

本发明的目的是为了克服现有丝绸遗产数据存储技术存在的问题,提供一种面向多元异构丝绸遗产数据的云存储方法。

为了实现上述发明目的,本发明具体采用的技术方案如下:

一种面向多元异构丝绸遗产数据的云存储方法,其包括如下步骤:

s1:获取针对不同要素类型的丝绸遗产数据的元数据规范;

s2:根据所述元数据规范构建丝绸遗产要素编码体系,并基于原始数据对每条丝绸遗产要素进行编码赋值;其中,每条所述丝绸遗产要素包括结构化元数据属性及其对应的非结构化图文数据;

在所述编码体系中,每一条丝绸遗产要素对应唯一的要素编码,该要素编码由类型码、年代码、区域码和顺序码组成,且丝绸遗产要素中的非结构化图文数据进一步具有由要素编码、图文数据类型和图文数据序号组成的非结构化数据编码;

s3:将每种类别的丝绸遗产要素元数据以表单的形式分类存储于对象-关系型数据库postgresql中,每一条丝绸遗产要素的元数据均同步存储其对应的唯一要素编码以及地址匹配后的地理空间位置信息,形成元数据库;

s4:在统一空间参考坐标系下,基于所述丝绸遗产要素的地理空间位置信息在底图上叠加丝绸遗产地图要素,并形成由低分辨率到高分辨率的多层级切片数据,在文件数据域中进行存储与组织;

s5:以hdfs为基础,将丝绸遗产地图要素及丝绸遗产的非结构化图文数据以文件夹形式在云环境中进行组织存储,构建文件数据域;

s6:对多元异构丝绸遗产数据进行自适应入库操作,入库的同时根据所述编码体系对元数据库与文件数据域进行时空关联。

作为优选,所述丝绸遗产数据的类型包括与丝绸相关的文物、图像、史料、工艺、遗址和染料六个要素类别。

作为优选,每种类型丝绸遗产数据的元数据规范中,元数据信息包含用于描述丝绸遗产的内容和设计属性的基本信息,以及记录非结构化图文数据的在线链接路径和离线存储路径的分发信息。

作为优选,所述类型码根据不同丝绸遗产要素类型确定;所述年代码以中国朝代顺序为基础,根据要素创作年代确定;所述区域码根据丝绸遗产要素的地理标识字段经地址匹配后进行定位;所述顺序码为标识的要素序号。

进一步的,所述的地理标识字段为丝绸遗产要素的出土地、发现地或收藏地。

更进一步的,所述类型码为2位数字,所述年代码为9位数字,所述区域码为8位数字,所述顺序码为5位数字。

作为优选,所述的底图为全球地形地图。

作为优选,所述s5中,基于存储虚拟化和网络虚拟化技术,以hadoop分布式文件系统为基础搭建底层云计算基础设施。

作为优选,所述s5中,通过namenode管理文件系统的命名空间,统一维护对文件系统文件和目录的访问,datanode负责管理和存储数据。

作为优选,所述s6中进行自适应入库操作时,首先新增要素编码字段,读取多元异构丝绸遗产数据的各类型数据,将元数据存入元数据表;再根据所述编码体系在hdfs中对非结构化数据进行编目,实现大规模丝绸遗产非结构化数据自适应导入文件数据域。

本发明与现有技术相比具有的有益效果包括:

本发明拓展了传统丝绸遗产数据的存储方式,在云环境下构建丝绸遗产数据的最优存储方式,实现多态存储模式,并对每一个丝绸要素及其图文数据构建唯一的编码,实现丝绸遗产数据的自适应分类入库,有效实现了多元异构丝绸遗产数据的时空关联和高效存储。

附图说明

图1是本发明一种面向多元异构丝绸遗产数据的云存储方法的技术流程图;

图2是本发明一种面向多元异构丝绸遗产数据的云存储方法的丝绸遗产要素编码示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

如图1所示,在本发明一个较佳实施例中,提供了一种面向多元异构丝绸遗产数据的云存储方法的技术流程图,包括如下步骤:

第一步:获取针对不同要素类型的丝绸遗产数据的元数据规范

丝绸遗产数据可以按照其要素类别进行分类,本实施例中可以分为文物、图像、史料、工艺、遗址和染料六大类型。每种类型的丝绸遗产要素数据均有其自身的特点,需要分别设计相应的元数据规范,具体为:分析丝绸遗产中的文物、图像、史料、工艺、遗址和文物染料要素的描述性特色属性信息,然后提取其中的重要内容或设计属性以及相应的分发信息制定元数据规范。在本实施例中,元数据规范中的元数据信息可以分为:基本信息和分发信息。其中,基本信息用于描述丝绸遗产的内容和设计属性,分发信息用于记录非结构化图文数据的在线链接路径和离线存储路径。

以丝绸文物数据为例,基本信息中,内容信息包含:文物名称、图案主题、出土/发现地、收藏地、产地、创作年代、尺寸大小、详细描述、关键字描述和参考文献,设计属性信息包含:丝绸文物创作技术、材质和功能属性;分发信息包含丝绸文物图片的在线链接路径和离线存储路径。再以染料数据为例,基本信息中,内容信息包含:染料名称、辑录年代、颜色值、使用部位、产地,设计属性信息包含:染料的布样、成分和文物使用案例;分发信息包含染料图片的在线链接路径和离线存储路径。其余的要素类别也分别针对各自特性设计相应的元数据规范。

第二步,根据第一步中设计的元数据规范构建丝绸遗产要素编码体系。每条丝绸遗产要素包括结构化元数据属性及其对应的非结构化图文数据,其中非结构化图文数据可以是对应的图片、视频或文档等图文数据,本实施例中常见的为图片。

在构建的编码体系中,每一个丝绸遗产要素都有唯一的要素编码,编码的内容需涵盖准确表达丝绸要素的信息,并对每条丝绸要素及其图文数据进行编码赋值。编码体系构建时,需要在制定丝绸遗产要素元数据信息基础上确定编码所需表达的内容,以唯一性和强可读性为前提,建立丝绸遗产要素编码体系。

另外,丝绸遗产要素中的非结构化图文数据一般需要与元数据分开存储,因此为了便于后续进行时空关联,可以针对非结构化数据设置相应的非结构化数据编码。非结构化数据编码由要素编码、图文数据类型和图文数据序号组成,其格式为要素编码_图文数据类型_2位数字的图文数据序号,可根据唯一的要素编码进行元数据和非结构化数据的关联。图文数据类型用于显示该图文数据的类别形式,例如为图片、文档或者视频,图文数据序号用于区分当前的图文数据在所有图文数据中的排序。

参照图2所示,是本实施例中的丝绸遗产要素编码体系中的设计规则图,该要素编码由类型码、年代码、区域码和顺序码组成。四类编码具体如下:

(1)类型码:根据不同丝绸遗产要素类型确定,采用2位数字组成的数字码分别表示丝绸遗产的六个类型(文物、图像、史料、工艺、遗址和染料)。

(2)年代码:以中国朝代顺序为基础,根据丝绸要素创作年代或辑录确定9位的年代码。

(3)区域码:根据丝绸遗产要素的地理标识字段经地址匹配后进行定位得到8位的区域码。地理标识字段可以是丝绸遗产要素的出土地、发现地或收藏地,优先选中出土地或者发现地,这两者不存在时刻选择收藏地。

(4)顺序码:为标识要素序号的5位数字。

第三步,构建丝绸遗产要素的多态组织与管理方案,其包含两方面内容:①丝绸遗产元数据根据类别区分,以表单形式于对象-关系型数据库postgresql中存储组织,形成元数据库;②以hdfs为基础,丝绸遗产地图要素及历史地图切片服务、丝绸遗产图片、文档和视频等非结构化数据以文件夹形式在云环境中进行组织存储,构建文件数据域。该过程具体如下:

(1)将每种类别的丝绸遗产要素元数据以表单的形式分类存储于对象-关系型数据库postgresql中,六大类丝绸遗产(文物、图像、史料、工艺、遗址和染料)分别存储。另外为了便于后续的地图要素加载显示以及时空关联,每一条丝绸遗产要素的元数据(基本信息和分发信息)均同步存储其对应的唯一要素编码以及地址匹配后的地理空间位置信息,形成元数据库。

(2)在统一空间参考坐标系下,以全球地形地图为底图,基于丝绸遗产要素的地理空间位置信息在底图上叠加丝绸遗产地图要素,形成由低分辨率到高分辨率的多层级地图切片数据,在文件数据域中进行存储与组织。地图切片数据根据分辨率从低到高逐层形成文件夹目录,形成目录命名规范并建立索引机制,实现地图切片的按需拼接和调度。

(3)以hdfs为基础,将丝绸遗产地图要素及丝绸遗产的图片、文档和视频等非结构化图文数据以文件夹形式在云环境中进行组织存储,构建文件数据域。在该过程中,可基于存储虚拟化和网络虚拟化等技术,以hadoop分布式文件系统为基础搭建底层云计算基础设施。

第四步,实现大规模多元异构丝绸遗产数据自适应入库操作,入库同时根据前述的编码体系对元数据库与文件数据域进行时空关联。具体实现时,可按照如下方式进行:

(1)读取丝绸遗产各类型数据,将元数据存入postgresql中的元数据表;

(2)完成大规模丝绸遗产非结构化数据自适应导入文件数据域,前述的编码体系中每一个丝绸遗产要素都有唯一的要素编码,而且其非结构化数据的编码中也带有该要素编码,因此可以根据这个唯一的要素编码实现元数据与文件数据的时空关联。根据编码体系在hdfs中对图片、视频和文档等非结构化数据进行编目。通过namenode管理文件系统的命名空间,统一维护对文件系统文件和目录的访问,datanode负责管理和存储数据,由namenode进行统一调度,数据内容映射到各个datanode节点。

由此,在面对具有数据来源多样、种类多样、数据格式多样、数据量大等特性的丝绸遗产数据时,本发明在云环境下以最优存储方式构建多元丝绸遗产数据的多态存储模式,实现面向云存储的多元异构大规模丝绸遗产数据存储管理体系和自适应分类入库,有效实现了多元异构丝绸遗产数据的时空关联和高效存储。

以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1