基于湖仓一体的遥感影像存储系统及方法与流程

文档序号:32051379发布日期:2022-11-03 09:54阅读:16819来源:国知局
基于湖仓一体的遥感影像存储系统及方法与流程

1.本发明涉及遥感数据存储技术领域,具体涉及一种基于湖仓一体的遥感影像存储系统及方法。


背景技术:

2.对地观测技术的发展,造成了遥感数据体量的持续增长,数据获取和更新周期缩短,时效性越来越强。世界各国卫星数据中心存储的数据总量已超过数pb,卫星遥感已进入大数据时代。遥感大数据一方面为国土资源普查、环境污染防治、防灾减灾等提供了充足的数据源,另一方面遥感大数据海量、多源、异构的特征也为数据的组织、管理、检索等带来了巨大挑战,使得潜藏在海量遥感数据中的有价值对地观测信息无法被快速访问,数据利用率极低。
3.目前在遥感数据管理方面主要有如下四种方式,基于传统文件系统配备磁盘阵列、基于文档型数据库(mongodb、couchdb等)、基于列存储数据库(cassandra、hbase等)、基于分布式文件系统(hdfs、mfs等)。基于文件系统的管理模式主要依赖文件目录进行文件检索效率低下,且在单个文件夹文件数量超过2000时效率变得低下;文档型数据库内部将大型文件拆分成小块存储于各个节点,对于单景影像大小超过8g的大型文件来说其数据入库和提取的效率会受到影响,且不支持空间查询,不利于影像数据的快速检索;列数据库难以实现复杂的多条件查询,很难支持按空间范围查询数据的需求;基于分布式文件系统的影像存储模式,支持在普通机器上组建分布式存储系统,且能够根据数据量增加动态扩容,在数据分布存储过程中将数据文件拆分为较大数据分块进行存储,较文档型数据库来说更为适合遥感影像数据文件的存储。
4.而对遥感数据进行存储的架构可分为数据仓与数据湖,数据湖是指使用大型二进制对象或文件这样的自然格式储存数据的系统。数据湖可以包括关系数据库的结构化数据、半结构化的数据和非结构化数据。但数据湖存在数据冗余、运行速度较慢、运维成本高和数据治理效率低等问题。而数据仓是来自一个或多个不同源的集成数据的中央存储库,其用于存储大量的结构化数据,并能进行频繁和可重复的分析,但数据仓不能存储非结构化数据,应用有一定限制。
5.因此,寻找一种合适的优于数据湖及数据仓架构的遥感影像存储结构,是当前遥感数据存储领域亟需解决的重要问题之一。


技术实现要素:

6.基于上述技术问题, 本发明提供的存储系统采用湖仓一体架构,能够存储结构类数据和非结构类数据,系统对遥感数据进行分类别存储,并通过统一的元数据对遥感数据进行管理,能够大大提高存储效率,避免数据沼泽的出现,且检索快速,检索精度高。
7.为了实现上述技术目的,本发明提供一种基于湖仓一体的遥感影像存储系统,所述系统包括:
数据获取模块,其配置为获取待入库的遥感影像数据;数据管理模块,其配置为将遥感影像数据按照数据类型进行划分,形成多个类别的数据;数据存储模块,其配置为根据存储结构对遥感影像数据进行存储,所述存储结构为湖仓一体结构,所述湖仓一体结构包括数据湖与数据仓,所述数据湖与所述数据仓采用层级的方式连接;数据检索模块,其配置为根据索引对遥感影像数据进行检索。
8.于本发明一具体实施例中,所述湖仓一体结构为上下连接的层级结构,其包括第一数据湖层、数据仓层和第二数据湖层。
9.于本发明一具体实施例中,所述数据仓层位于所述湖仓一体结构的中心,所述第一数据湖层与所述第二数据湖层分别与所述数据仓层连接。
10.于本发明一具体实施例中,所述数据仓层采用关系型数据库架构。
11.于本发明一具体实施例中,所述数据管理模块包括:元数据提取单元,其配置为提取遥感影像数据的遥感影像元数据,对遥感影像元数据进行空间化处理,建立遥感影像元数据与遥感影像数据之间的关联关系;数据分类单元,其配置为将遥感影像数据按照类型进行分类,形成多个类别的数据,所述多个类别的数据包括结构类数据和非结构类数据。
12.于本发明一具体实施例中,所述遥感影像元数据存储于所述数据仓层。
13.于本发明一具体实施例中,所述结构类数据存储于所述第一数据湖层,所述非结构类数据存储于所述第二数据湖层;或所述非结构类存储于所述第一数据湖层,所述结构类数据存储于所述第二数据湖层。
14.于本发明一具体实施例中,所述数据检索模块包括:索引构建单元,其配置为根据遥感影像数据及其多个类别的数据构建索引;查询解析单元,其配置为解析数据查询请求,获取检索约束条件;检索单元,其配置为根据检索约束条件在所述湖仓一体结构中利用索引进行检索,获取检索结果。
15.于本发明一具体实施例中,所述索引为多维混合索引,所述多维混合索引是从时间、空间、元数据的多元属性三个维度对遥感影像数据进行抽象和编码所构建得到的。
16.另外,本发明还提供一种基于湖仓一体的遥感影像存储方法,所述方法应用于上述所述的存储系统中。
17.相对于现有技术,本发明的有益效果为:(1)湖仓一体结构能够直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据架构和数据管理功能。
18.(2)采用湖仓一体结构能够去除数据的重复性,真正做到了唯一。
19.(3)湖仓一体结构能够大大降低系统运维的成本。
20.(4)湖仓一体的引入,对于海量数据进行治理,能够更有效地帮助提升分析数据的时效性。
21.(5)采用时空多维混合索引,保证数据在存储时与遥感影像数据的空间、时间、元
数据的多元属性值的排列顺序一致,从而实现遥感影像数据在多维度上索引的连续性,在检索时,提高检索的效率和精度。
附图说明
22.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
23.图1为本发明实施例的基于湖仓一体的遥感影像存储系统的结构示意图;图2为本发明实施例的湖仓一体结构的示意图;图3为本发明实施例的etl工具的实现流程图;图4为本发明实施例的数据检索模块的结构示意图;图5为本发明实施例的索引构建单元的结构示意图;图6为本发明实施例的基于湖仓一体的遥感影像存储方法的流程示意图。
具体实施方式
24.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
25.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
26.请参阅图1,本发明提供一种基于湖仓一体的遥感影像存储系统,所述装置包括:数据获取模块,其配置为获取待入库的遥感影像数据。
27.具体地,所述遥感影像数据包含影像数据、元数据、标签数据、质量数据等,其中,所述影像数据以tag包的形式获取。
28.数据管理模块,其配置为将遥感影像数据按照数据类型进行划分,形成多个类别的数据。
29.具体地,在本发明一实施例中,所述数据管理模块包括:元数据提取单元,其配置为提取遥感影像数据的遥感影像元数据,对遥感影像元数据进行空间化处理,建立遥感影像元数据与遥感影像数据之间的关联关系。
30.进一步地,在本发明实施例中采用基于模板匹配的技术提取多源遥感影像数据中的元数据信息,并对其进行空间化处理后存储于关系型空间数据库,并将存有遥感影像元数据的关系型空间数据库作为湖仓一体结构中的数据仓层。
31.针对遥感影像数据来源广泛、不同传感器采集的影像数据其元数据文件格式不统一且元数据文件内各元数据属性项的名称、格式也存在差异的情况,采用模板匹配的技术从不同来源、不同传感器、不同格式的遥感影像元数据中自动提取目标元数据信息,为大批
量遥感影像自动化存储提供技术支撑。模板匹配技术能够增强系统的可扩展性,由于遥感技术发展速度非常快,系统建设过程中不可能将所有类型的影像文件都考虑进去,且新的遥感影像文件在不断地出现,模板匹配技术通过按照影像数据实际情况构建元数据提取模板,建立遥感影像元数据文件中元数据属性项与标准元数据属性项之间的对应关系,在元数据提取程序中采用通用处理办法,按照元数据文件属性项与标准元数据属性项之间对应关系,自动解析元数据文件、提取元数据信息,达到对多源遥感影像元数据动态匹配提取的目的。
32.数据分类单元,其配置为将遥感影像数据按照类型进行分类,形成多个类别的数据,所述多个类别的数据包括结构类数据和非结构类数据。
33.数据存储模块,其配置为根据存储结构对遥感影像数据进行存储,所述存储结构为湖仓一体结构,所述湖仓一体结构包括数据湖与数据仓,所述数据湖与所述数据仓采用层级的方式连接。
34.请参阅图2,本发明一实施例中,所述湖仓一体结构为上下连接的层级结构,其包括第一数据湖层、数据仓层和第二数据湖层。
35.具体地,所述数据仓层位于所述湖仓一体结构的中心,所述第一数据湖层与所述第二数据湖层分别与所述数据仓层连接。
36.所述数据仓层用于存储所述遥感影像元数据,所述遥感影像元数据采用关系型数据库架构进行存储。
37.所述结构类数据存储于所述第一数据湖层,所述非结构类数据存储于所述第二数据湖层;或所述非结构类存储于所述第一数据湖层,所述结构类数据存储于所述第二数据湖层。
38.在本发明一具体实施例中,在构建所述湖仓一体结构时,先构建所述第一数据湖层和所述第二数据湖层,所述第一数据湖层存储所述结构类数据,所述第二数据湖层存储所述非结构类数据,在所述第一数据湖层和所述第二数据湖层之上构建所述数据仓层,所述数据仓层存储所述遥感影像元数据。
39.其中,在将所述非结构类数据进行存储之前,利用etl工具将所述非结构类数据进行数据抽取、数据清洗进行数据转换,将所述非结构类数据结构化,之后存储到所述第二数据湖层中。
40.所述etl工具在实现时的流程如图3,本实施例中,所述etl工具充当一个中间数据库,etl是英文extract-transform-load的缩写,用来描述将数据从源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,它能够对各种分布的、异构的源数据(如关系数据)进行抽取,按照预先设计的规则将不完整数据、重复数据以及错误数据等“脏"数据内容进行清洗,得到符合要求的“干净”数据,并加载到数据仓库中进行存储,这些“干净”数据就成为了数据分析、数据挖掘的基石。
41.所述非结构类数据包括原始的影像数据、空间位置数据、地理位置数据等,所述结构类数据包括文件数据,如tif文件、xml文件、rpc文件、georange文件、tfw文件、ovr文件、xls文件、shp文件等,这些文件中包含了各类组织结构,其为遥感影像数据的辅助信息。
42.所述第一数据湖层中采用hdfs和spark存储所述结构类数据,将所述结构类数据写入hdfs中,按原始格式进行保存,并在spark下利用dkd-tree算法计算数据的分裂值,结
合数据仓层中的遥感影像元数据进行数据目录的编写,将其也保存到hdfs。hdfs能够保证数据一致性和数据容灾。如果想要实现大数据的高效查询必须做到数据常驻内存和任务常驻内存并且在计算的时候数据分布均匀,不出现长尾现象。spark作为分布式并行计算框架能够实现数据缓存,合理高效的任务调度,这为后续的高效查询提供了基础。所述结构类数据为具有行、列组织的结构数据所述第二数据湖层中采用hive架构存储所述非结构类数据,所述hive架构连有一个所述etl工具,所述非结构类数据首先在所述etl工具中进行数据清洗、数据转换等操作,将所述非结构类数据进行结构化,之后将其存储进所述第二数据湖层。
43.湖仓一体结构能够直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据架构和数据管理功能。
44.湖仓一体结构相对于单独数据湖与单独数据仓结构的进步在于:(1)数据重复性:如果一个组织同时维护了一个数据湖和多个数据仓库,这无疑会带来数据冗余。在最好的情况下,这仅仅只会带来数据处理的不高效,但是在最差的情况下,它会导致数据不一致的情况出现。湖仓一体的结合,能够去除数据的重复性,真正做到了唯一。
45.(2)高存储成本:数据仓库和数据湖都是为了降低数据存储的成本。数据仓库往往是通过降低冗余,以及整合异构的数据源来做到降低成本。而数据湖则往往使用大数据文件系统和spark在廉价的硬件上存储计算数据。湖仓一体架构的目标就是结合这些技术来最大力度降低成本。
46.(3)数据停滞:在数据湖中,数据停滞是一个最为严重的问题,如果数据一直无人治理,那将很快变为数据沼泽。我们往往轻易的将数据丢入湖中,但缺乏有效的治理,长此以往,数据的时效性变得越来越难追溯。湖仓一体的引入,对于海量数据进行治理,能够更有效地帮助提升分析数据的时效性。
47.数据检索模块,其配置为根据索引对遥感影像数据进行检索。
48.在本发明一具体实施例中,所述数据检索模块的整体结构如图4所示,所述数据检索模块包括如下单元:索引构建单元,其配置为根据遥感影像数据及其多个类别的数据构建索引。
49.进一步地,所述索引为多维混合索引,所述多维混合索引是从时间、空间、元数据的多元属性三个维度对遥感影像数据进行抽象和编码所构建得到的。请参阅图5中所述索引构建单元的整体结构,所述索引构建单元包括多维混合索引模型构建和多维混合索引模型编码两个部分。
50.具体地,所述多维混合索引模型构建包括多尺度网格划分、时空特征聚类、邻域搜索优化三个步骤:(1)多尺度网格划分建立遥感影像数据的网格模型,在金字塔式的网格层次结构的基础上关联时空信息。首先,根据遥感影像数据的空间分辨率、地理范围等建立遥感影像数据与网格模型的对应关系,并以对应关系为依据将遥感影像数据复制到网格中的相应位置,得到由该遥感影像数据生成的一张网格。然后,通过重采样算法(如双线性插值算法)对遥感影像数据进行逐级降采样处理,得到较低分辨率层级下的网格数据,从而得到完整的遥感影像数据金字
塔。最后,将多源遥感影像数据在统一的遥感影像数据金字塔层次结构上进行采样处理,形成层级结构,得到全球的遥感影像数据金字塔,实现对多源遥感影像数据的统一管理。
51.(2)时空特征聚类对遥感影像数据网格,提取各个网格的数据特征和时空属性,将其量化后封装为向量。考虑到单一特征无法对数据进行完整描述,对不同特征设置不同的特征权重因子,实现对遥感影像数据的多源特征的融合。扩展聚类算法的维度,并将这些设置了权重的特征向量作为聚类算法的输入,将特征相似度较高的数据划分在同一类中,实现对遥感影像数据网格的初步划分。确定权重因子时,首先为每个特征设置一个满足约束条件的初始权重值,然后使用该权重进行划分聚类,并将聚类结果的评价指标反馈进行特征的权重调节,可以使用经验学习或机器学习的方法经过多次迭代后得到分类结果最佳时各个特征的比例系数。
52.(3)邻域搜索优化将区域分割算法应用到网格金字塔中,将区域相似性判定准则由像素值的差异提升为网格特征值的差异,及将按照聚类的结果选择与聚类中心相似度最高的网格数据作为种子网格,并以该种子与其邻域网格在特征值的相似度作为判断依据,将符合区域生长准则的网格进行连接,实现网格级别的区域生长。
53.具体地,所述多维混合索引模型编码包括立方体构建和混合索引编码两个步骤:(1)立方体构建立方体构建用于建立多维混合索引与遥感影像数据存储结构间映射关系。将多源遥感影像数据依据地理范围、空间分辨率、网格数据尺寸等划分为不同的遥感影像数据集。在空间维度上,基于金字塔结构的网格组织模型,构建统一地理范围、空间分辨率、网格尺寸的空间数据集;在时间维度上,以时间戳形式定义数据集的时间有效范围,构建时间数据集。使用元数据的多元属性性描述不同时间维度、空间维度的组合范围,并利用元数据的多元属性影响域在时间和空间维度上划分为若干单元,支持用户基于元数据的多元属性对多源遥感影像数据进行统一提取和分析。
54.(2)混合索引编码引入空间曲线和压缩编码建立分层遥感影像数据索引,实现遥感影像数据的高效检索。在不同尺度下,分别使用hilbert曲线对“立方体”模型进行填充,使其能够遍历空间维度上的所有网格;将不同尺度下的空间填充曲线按照层级递增的顺序首尾相接,保证时空金字塔模型上所有的网格都能够被唯一映射为空间填充曲线上的一个点,实现对“立方体”模型进行降维。将节点所属层级的网格按照空间位置均匀分成不同的区域,并对每个区域按照填充曲线的填充顺序进行编号,计算该区域所对应的网格偏移量;对节点所述的区域按照上述过程不断细分,直到子区域中包含的网格数量为1;将迭代过程中节点所属子区域的相对偏移量累加,然后根据不同分辨率层级上对于空间填充曲线的串联关系,对网格节点的编号进行校正,即增加取值为低于当前层级的所有网格总数的偏移量,得到网格节点在整个网格金字塔中的编码值。根据空间填充曲线填充的编码结果构建rowkey,同时在rowkey中引入数据时间属性、元数据的多元属性作为前缀,提供在空间、时间、元数据等三种维度上的索引能力,并保证数据在存储时与遥感影像数据的空间、时间、元数据的多元属性值的排列顺序一致,从而实现遥感影像数据在多维度上索引的连续性。
55.查询解析单元,其配置为解析数据查询请求,获取检索约束条件。
56.具体地,检索约束条件主要包括空间检索范围、卫星类型、传感器类型、传感器分辨率、云量和影像拍摄时间等,检索约束条件可自定义,可扩展。
57.检索单元,其配置为根据检索约束条件在所述湖仓一体结构中利用索引进行检索,获取检索结果。
58.为解决本发明提出的技术问题,本发明还提供一种基于湖仓一体的遥感影像存储方法,请参阅图6,所述方法包括:步骤s610、获取待入库的遥感影像数据,所述遥感影像数据包括影像数据、元数据、标签数据、质量数据等,其中,所述影像数据以tag包的形式获取。
59.步骤s620、将所述遥感影像数据按照数据类型进行划分,形成多个类别的数据,包括结构类数据和非结构类数据。
60.步骤s630、根据存储结构对遥感影像数据进行存储,所述存储结构为湖仓一体结构,所述湖仓一体结构包括数据湖与数据仓,所述数据湖与所述数据仓采用层级的方式连接。
61.步骤s640、根据索引对遥感影像数据进行检索。
62.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1