1.本发明属于卫星影像技术领域,尤其涉及全球卫星影像搜索引擎数据爬取与归一化方法及系统。
背景技术:2.卫星遥感影像是重要的地理空间数据,近年来随着卫星遥感技术的飞速发展,世界各国纷纷发射了一系列搭载不同传感器的遥感卫星,采集了多平台、多传感器、多波段、多时空分辨率的遥感影像,数据体量爆发式增长,数据的种类和结构也越来越复杂。与此同时,卫星遥感影像已经在农业、林业、水利、交通、国土、环保、住建等多领域得到了广泛应用。各行各业对卫星遥感影像的多样性需求日益增长。因此获取全球多源海量卫星影像数据,并按统一标准规范录入数据库,对各行业应用和相关科学研究具有十分重要的意义。
3.现有的软件往往只提供几颗或某几个系列的卫星影像数据,未对全球海量的多源卫星影像进行有效的集成,且较少顾忌到不同数据源影像的异构问题,未划分统一的标准规范对影像统一入库,大大降低了影像汇总成果的可读性。传统的卫星影像有效覆盖率方法大多是在相关平台搜索和查询对应的遥感影像,在通过影像快视图查看整体的覆盖情况,操作过程复杂,且无法获取精确的有效覆盖率值。且目前现有软件未计算卫星影像有效覆盖率,需要用户通过快视图逐图查看,时间成本显著增加。目前的软件未考虑卫星侧摆角对卫星成像效果质量的影响,需要用户自行逐幅挑选所需角度的影像,极大影响工作效率。且现有的软件只提供了较为单一的数据检索功能,不能满足各用户的个性化需求,且存在兴趣区域影像分割不精确的问题。
技术实现要素:4.本发明实施例的目的在于提供全球卫星影像搜索引擎数据爬取与归一化方法及系统,旨在解决背景技术中提出的问题。
5.为实现上述目的,本发明实施例提供如下技术方案:
6.全球卫星影像搜索引擎数据爬取与归一化方法,所述方法具体包括以下步骤:
7.使用大数据实时获取程序,从全球各卫星官方平台实时获取最新发布的遥感卫星影像数据,并将所述遥感卫星影像数据根据数据来源初步分类归档存入本地数据库;
8.利用超算中心的算力,在闲置时段对分类归档存入本地数据库的所述遥感卫星影像数据进行精细分类处理;
9.构建统一标准规范,将精细分类处理之后的所述遥感卫星影像数据进行属性信息一致性整合;
10.识别计算所述遥感卫星影像数据中各个卫星影像的视图偏转角度,根据所述视图偏转角度,将各个卫星影像进行标准角度校正,并将精细分类处理、属性信息一致性整合和标准角度校正之后的遥感卫星影像数据上传至服务器;
11.接收用户的查询信息,根据所述查询信息确定用户的兴趣区域,并调取所述兴趣
区域对应的遥感卫星影像数据可视化向用户展示;
12.引入卫星云图辅助卫星影像区域精准识别单朵云,顾及影像覆盖区域内云离散分布的情况,通过每朵云的覆盖区域与影像覆盖区域的比值得到有效覆盖率,利用所述有效覆盖率和从卫星影像属性信息中获得卫星侧摆角。
13.作为本发明实施例技术方案进一步的限定,所述使用大数据实时获取程序,从全球各卫星官方平台实时获取最新发布的遥感卫星影像数据,并将所述遥感卫星影像数据根据数据来源初步分类归档存入本地数据库具体包括以下步骤:
14.检查目标平台是否提供api,若有则直接调用遥感卫星影像数据,若没有则使用大数据实时获取程序获取遥感卫星影像数据;
15.对所述遥感卫星影像数据进行数据结构分析与数据存储;
16.对所述遥感卫星影像数据进行数据流分析;
17.对所述遥感卫星影像数据进行数据整理,并存入本地数据库中。
18.作为本发明实施例技术方案进一步的限定,所述对分类归档存入本地数据库的所述遥感卫星影像数据进行精细分类处理具体包括以下步骤:
19.采用基于层次的文本聚类算法对获取的遥感卫星影像数据进行高效精准的分类;
20.对已分类影像进行准确性评估,确定完整准确的类别后,之后的获取的遥感卫星影像数据按照此结果直接分类提取。
21.作为本发明实施例技术方案进一步的限定,所述构建统一标准规范,将精细分类处理之后的所述遥感卫星影像数据进行属性信息一致性整合具体包括以下步骤:
22.利用顾忌空间特征的遥感影像数据一体化存储策略、顾忌多源异构特征的卫星影像数据分段和分区存储策略,设计统一的卫星影像数据属性表;
23.采用属性字段批量统一标准命名算法进行卫星影像属性信息标准字段的属性命名及修改;
24.根据所述卫星影像数据属性表,动态扩充卫星影像属性信息,对所述遥感卫星影像数据进行属性信息一致性整合。
25.作为本发明实施例技术方案进一步的限定,所述卫星影像属性信息标准字段包括:影像名称、产品id、卫星类型、传感器类型、影像获取日期、影像获取时间、影像云量、景号、数据分类和wkid值。
26.作为本发明实施例技术方案进一步的限定,所述卫星影像的视图偏转角度的计算公式为:
[0027][0028][0029]
通过标准快视图的角点坐标按上述公式计算倾斜角度d
bd
,再计算不规范快视图倾斜角度θ,则两个倾斜角度的差值即为卫星影像的视图偏转角度。
[0030]
全球卫星影像搜索引擎数据爬取与归一化系统,所述系统包括卫星影像数据获取单元、卫星影像数据分类单元、属性信息一致性整合单元、卫星影像角度校正单元、兴趣区域影像展示单元和卫星侧摆角获取单元,其中:
[0031]
卫星影像数据获取单元,用于使用大数据实时获取程序,从全球各卫星官方平台
实时获取最新发布的遥感卫星影像数据,并将所述遥感卫星影像数据根据数据来源初步分类归档存入本地数据库;
[0032]
卫星影像数据分类单元,用于利用超算中心的算力,在闲置时段对分类归档存入本地数据库的所述遥感卫星影像数据进行精细分类处理;
[0033]
属性信息一致性整合单元,用于构建统一标准规范,将精细分类处理之后的所述遥感卫星影像数据进行属性信息一致性整合;
[0034]
卫星影像角度校正单元,用于识别计算所述遥感卫星影像数据中各个卫星影像的视图偏转角度,根据所述视图偏转角度,将各个卫星影像进行标准角度校正,并将精细分类处理、属性信息一致性整合和标准角度校正之后的遥感卫星影像数据上传至服务器;
[0035]
兴趣区域影像展示单元,用于接收用户的查询信息,根据所述查询信息确定用户的兴趣区域,并调取所述兴趣区域对应的遥感卫星影像数据可视化向用户展示;
[0036]
卫星侧摆角获取单元,用于引入卫星云图辅助卫星影像区域精准识别单朵云,顾及影像覆盖区域内云离散分布的情况,通过每朵云的覆盖区域与影像覆盖区域的比值得到有效覆盖率,利用所述有效覆盖率和从卫星影像属性信息中获得卫星侧摆角。
[0037]
与现有技术相比,本发明的有益效果是:
[0038]
本发明能够从全球各卫星官方平台实时获取最新发布的遥感卫星影像数据,并预先计算卫星轨道预测的相关数据和产品,以此来提高用户实时访问时展示卫星影像的速度,能够对获取的卫星影像大数据进行高效精准的分类,能够构建统一标准规范将海量卫星影像属性信息一致性整合,能够偏转角度校正展示标准快视图,能够可视化展示用户的兴趣区域,能够通过增加使用卫星云图辅助预测遥感卫星轨道下的覆盖区域的展示,更加有效更加准确的计算影像有效覆盖率并展示卫星影像的有效覆盖区域,通过考虑卫星的侧摆能力参数,来支持用户的自定义筛选影像功能。
附图说明
[0039]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
[0040]
图1示出了本发明实施例提供的方法的流程图。
[0041]
图2示出了本发明实施例提供的方法中卫星影像标准角度校正示意图。
[0042]
图3示出了本发明实施例提供的方法中有效覆盖率计算原理示意图。
[0043]
图4示出了本发明实施例提供的系统的应用架构图。
具体实施方式
[0044]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0045]
可以理解的是,现有的软件往往只提供几颗或某几个系列的卫星影像数据,未对全球海量的多源卫星影像进行有效的集成,且较少顾忌到不同数据源影像的异构问题,未划分统一的标准规范对影像统一入库,大大降低了影像汇总成果的可读性。传统的卫星影
像有效覆盖率方法大多是在相关平台搜索和查询对应的遥感影像,在通过影像快视图查看整体的覆盖情况,操作过程复杂,且无法获取精确的有效覆盖率值。且目前现有软件未计算卫星影像有效覆盖率,需要用户通过快视图逐图查看,时间成本显著增加。目前的软件未考虑卫星侧摆角对卫星成像效果质量的影响,需要用户自行逐幅挑选所需角度的影像,极大影响工作效率。且现有的软件只提供了较为单一的数据检索功能,不能满足各用户的个性化需求,且存在兴趣区域影像分割不精确的问题。
[0046]
为解决上述问题,本发明实施例提供了全球卫星影像搜索引擎数据爬取与归一化方法及系统。
[0047]
图1示出了本发明实施例提供的方法的流程图。
[0048]
具体的,全球卫星影像搜索引擎数据爬取与归一化方法,其特征在于,所述方法具体包括以下步骤:
[0049]
步骤s101,使用大数据实时获取程序,从全球各卫星官方平台实时获取最新发布的遥感卫星影像数据,并将所述遥感卫星影像数据根据数据来源初步分类归档存入本地数据库。
[0050]
在本发明实施例中,通过使用自己编写的大数据实时获取程序,每天实时从全球各卫星官方平台获取最新发布的遥感卫星影像数据,先将获取的海量影像数据根据数据来源初步分类归档存入本地数据库。具体的,大数据实时获取程序流程为:第一步首先检查目标平台是否提供api,若有则直接调用,若没有则使用实时获取程序;第二步为数据结构分析与数据存储,先确定所需字段,确定构建的表及连接关系并选择数据库进行存储;第三步为数据流分析,主要包括确定采集范围以及切入源头,多层网页结构间跳转,范围细分、访问方式分析,url及参数分析;第四步为数据采集,其中使用scrapy模块、beautifulsoup解析工具和pandas方法进行数据整理,最后写入数据库中。
[0051]
具体的,在本发明提供的优选实施方式中,所述使用大数据实时获取程序,从全球各卫星官方平台实时获取最新发布的遥感卫星影像数据,并将所述遥感卫星影像数据根据数据来源初步分类归档存入本地数据库具体包括以下步骤:
[0052]
检查目标平台是否提供api,若有则直接调用遥感卫星影像数据,若没有则使用大数据实时获取程序获取遥感卫星影像数据;
[0053]
对所述遥感卫星影像数据进行数据结构分析与数据存储;
[0054]
对所述遥感卫星影像数据进行数据流分析;
[0055]
对所述遥感卫星影像数据进行数据整理,并存入本地数据库中。
[0056]
进一步的,所述全球卫星影像搜索引擎数据爬取与归一化方法还包括以下步骤:
[0057]
步骤s102,利用超算中心的算力,在闲置时段对分类归档存入本地数据库的所述遥感卫星影像数据进行精细分类处理。
[0058]
在本发明实施例中,将初步分类的海量影像数据存入本地服务器后,利用超算中心的强大算力并设定在闲置时段对已获取影像数据进一步的精细分类处理。采用基于层次的文本聚类算法对获取的卫星影像大数据进行高效精准的分类。在层次划分方面建立卫星型号、传感器类型和分辨率多层次结构;在文本聚类算法方面基于以上层次结构和卫星影像信息间的语义关联结合聚类算法实现精准分类。再对已分类影像进行准确性评估,确定完整准确的类别后,之后卫星影像数据获取可按照此结果直接分类提取。
[0059]
具体的,首先采用层次划分方法分类影像数据,第一层为传感器类型,第二层为光学、雷达、高光谱等,第三层为光学传感器影像下分的多种分辨率,具体分为0.5m、1m、2m、3m和中低分辨率,最后一层为各分类对应的卫星型号。基于以上层次划分方式,采用凝聚式聚类算法agnes算法进行聚类。agnes聚类算法逻辑:如果簇c1中的一个对象和簇c2中的一个对象之间的距离时所有属于不同簇的对象间的欧式距离最小的,c1和c2可能被合并,本发明采用影像信息描述文本的相似度代表欧式距离。这是一种单连接方法,其每个簇可以被簇中的所有对象代表,两个簇之间的相似度由这两个簇中距离最近的数据点对的相似度来确定。算法流程如下:
[0060]
输入:包含n个对象的数据库,终止条件簇的数目k;
[0061]
输出:k个簇
[0062]
(1)将每个对象当成一个初始簇;
[0063]
(2)repeat;
[0064]
(3)根据两个簇中最近的数据点找到最近的两个簇;
[0065]
(4)合并两个簇,生成新的簇的集合;
[0066]
until达到定义的簇的数目。
[0067]
具体的,在本发明提供的优选实施方式中,所述对分类归档存入本地数据库的所述遥感卫星影像数据进行精细分类处理具体包括以下步骤:
[0068]
采用基于层次的文本聚类算法对获取的遥感卫星影像数据进行高效精准的分类;
[0069]
对已分类影像进行准确性评估,确定完整准确的类别后,之后的获取的遥感卫星影像数据按照此结果直接分类提取。
[0070]
进一步的,所述全球卫星影像搜索引擎数据爬取与归一化方法还包括以下步骤:
[0071]
步骤s103,构建统一标准规范,将精细分类处理之后的所述遥感卫星影像数据进行属性信息一致性整合。
[0072]
在本发明实施例中,首先利用顾忌空间特征的遥感影像数据一体化存储策略、顾忌多源异构特征的卫星影像数据分段和分区存储策略,然后,设计统一的卫星影像数据属性表,并采用属性字段批量统一标准命名算法以代替手工命名及修改的过程。最后实现在不修改程序标准规范的基础上,动态扩充卫星影像属性信息,快速支持新影像数据的属性归一化处理。
[0073]
具体的,卫星影像属性信息标准字段包括:影像名称、产品id、卫星类型、传感器类型、影像获取日期、影像获取时间、影像云量、景号、数据分类和wkid值。
[0074]
具体的,在本发明提供的优选实施方式中,所述构建统一标准规范,将精细分类处理之后的所述遥感卫星影像数据进行属性信息一致性整合具体包括以下步骤:
[0075]
利用顾忌空间特征的遥感影像数据一体化存储策略、顾忌多源异构特征的卫星影像数据分段和分区存储策略,设计统一的卫星影像数据属性表;
[0076]
采用属性字段批量统一标准命名算法进行卫星影像属性信息标准字段的属性命名及修改;
[0077]
根据所述卫星影像数据属性表,动态扩充卫星影像属性信息,对所述遥感卫星影像数据进行属性信息一致性整合。
[0078]
进一步的,所述全球卫星影像搜索引擎数据爬取与归一化方法还包括以下步骤:
[0079]
步骤s104,识别计算所述遥感卫星影像数据中各个卫星影像的视图偏转角度,根据所述视图偏转角度,将各个卫星影像进行标准角度校正,并将精细分类处理、属性信息一致性整合和标准角度校正之后的遥感卫星影像数据上传至服务器。
[0080]
在本发明实施例中,全球各卫星平台提供的快视图形式不尽相同,快视图偏转角度有较大差异。通过快速识别计算各卫星影像快视图偏转角度,同时将偏转角度异常快视图校正成标准角度,生成标准快视图方便用户查看。最后将以上步骤整合的影像、分类和属性信息在同一时段上传至服务器。
[0081]
具体的,图2示出了本发明实施例提供的方法中卫星影像标准角度校正示意图,卫星影像的视图偏转角度的计算公式为:
[0082][0083][0084]
通过标准快视图的角点坐标按上述公式计算倾斜角度d
bd
,再计算不规范快视图倾斜角度θ,则两个倾斜角度的差值即为卫星影像的视图偏转角度。
[0085]
步骤s105,接收用户的查询信息,根据所述查询信息确定用户的兴趣区域,并调取所述兴趣区域对应的遥感卫星影像数据可视化向用户展示。
[0086]
在本发明实施例中,在用户端接受用户查询的卫星对象、时间、传感器类型、分辨率等查询信息,利用影像分类和属性信息,调取对应影像数据进行可视化向用户展示。为实现用户兴趣区域的个性化需求,通过基于大数据的矢量索引方法,根据行政区、自绘多边形和用户上传矢量区域文件,匹配所有落在矢量多边形范围的卫星影像。其中行政边界选取,事先对卫星影像按省级行政边界、地级市/州/盟级边界、区/县级市/县、乡镇行政边界划分。
[0087]
步骤s106,引入卫星云图辅助卫星影像区域精准识别单朵云,顾及影像覆盖区域内云离散分布的情况,通过每朵云的覆盖区域与影像覆盖区域的比值得到有效覆盖率,利用所述有效覆盖率和从卫星影像属性信息中获得卫星侧摆角。
[0088]
在本发明实施例中,通过引入卫星云图辅助卫星影像区域精准识别单朵云,顾及影像区域内云离散分布的情况,通过每朵云的覆盖区域与影像覆盖区域的比值得到准确的有效覆盖率。最后利用计算的有效覆盖率和从卫星影像属性信息中获得卫星侧摆角,满足用户自定义筛选对应卫星影像需求。
[0089]
具体的,图3示出了本发明实施例提供的方法中有效覆盖率计算原理示意图,假定图3中间矩形为用户给定兴趣区域,周边四个矩形为落在兴趣区域所有卫星影像,将每景影像识别的单朵云和兴趣区域求交,图中蓝色云部分的面积与中间矩形总面积的比值。
[0090]
按用户给定多边形与识别出的单多云求交方法介绍:用户给定的兴趣区域一般为不规范多边形,单朵云形状也较为复杂,因此采用复杂矢量多边形求交算法。算法流程如下:
[0091]
步骤1:输入图层进行多边形的最下外包矩形抽取;
[0092]
步骤2:基于被叠加多边形图层进行hibert网格构建,然后在数据分配阶段将图层的最小外包矩形集合填充到各网格分区,形成网格分区最小外包矩形集合;
[0093]
步骤3:对被迭加图层构建网格内r-tree索引,形成网格分区索引;
[0094]
步骤4:将叠加图层的网格分区索引与叠加图层网格分区最小外包矩形集合调用zippartition算子进行join操作,并基于跨区数据交点定位策略进行跨区最小外包矩形去重;
[0095]
步骤5:各个网格分区从分布式缓存读取多边形数据进行求交计算,并输出结果。
[0096]
进一步的,图4示出了本发明实施例提供的系统的应用架构图。
[0097]
其中,在本发明提供的又一个优选实施方式中,全球卫星影像搜索引擎数据爬取与归一化系统,包括:
[0098]
卫星影像数据获取单元101,用于使用大数据实时获取程序,从全球各卫星官方平台实时获取最新发布的遥感卫星影像数据,并将所述遥感卫星影像数据根据数据来源初步分类归档存入本地数据库。
[0099]
卫星影像数据分类单元102,用于利用超算中心的算力,在闲置时段对分类归档存入本地数据库的所述遥感卫星影像数据进行精细分类处理。
[0100]
属性信息一致性整合单元103,用于构建统一标准规范,将精细分类处理之后的所述遥感卫星影像数据进行属性信息一致性整合。
[0101]
卫星影像角度校正单元104,用于识别计算所述遥感卫星影像数据中各个卫星影像的视图偏转角度,根据所述视图偏转角度,将各个卫星影像进行标准角度校正,并将精细分类处理、属性信息一致性整合和标准角度校正之后的遥感卫星影像数据上传至服务器。
[0102]
兴趣区域影像展示单元105,用于接收用户的查询信息,根据所述查询信息确定用户的兴趣区域,并调取所述兴趣区域对应的遥感卫星影像数据可视化向用户展示。
[0103]
卫星侧摆角获取单元106,用于引入卫星云图辅助卫星影像区域精准识别单朵云,顾及影像覆盖区域内云离散分布的情况,通过每朵云的覆盖区域与影像覆盖区域的比值得到有效覆盖率,利用所述有效覆盖率和从卫星影像属性信息中获得卫星侧摆角。
[0104]
综上所述,本发明实施例能够从全球各卫星官方平台实时获取最新发布的遥感卫星影像数据,并预先计算卫星轨道预测的相关数据和产品,以此来提高用户实时访问时展示卫星影像的速度,能够对获取的卫星影像大数据进行高效精准的分类,能够构建统一标准规范将海量卫星影像属性信息一致性整合,能够偏转角度校正展示标准快视图,能够可视化展示用户的兴趣区域,能够通过增加使用卫星云图辅助预测遥感卫星轨道下的覆盖区域的展示,更加有效更加准确的计算影像有效覆盖率并展示卫星影像的有效覆盖区域,通过考虑卫星的侧摆能力参数,来支持用户的自定义筛选影像功能。
[0105]
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0106]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供
的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0107]
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0108]
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
[0109]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。