本发明属于空间数据处理、地理空间对象识别以及地图制图,特别涉及一种基于自监督学习的遥感影像建筑物样本库构建方法及系统。
背景技术:
1、作为地理空间图像智能分析的重要研究内容之一,基于图像的建筑物检测与分割,数十年来一直是许多工程应用和科研领域的热门课题。深度学习方法现在被认为是处理这类问题最先进的方法,也已经成功地用于遥感影像中的建筑物提取并取得了准确的结果。深度学习方法强烈依赖于海量、准确的标注数据,大容量、高质量的建筑物样本库是实现大范围异构图像建筑物智能提取的基础。
2、传统的样本库构建是通过人工标注来实现的,主要依靠专业人员手工绘制建筑物轮廓的方式,需要耗费大量时间和人力成本,难以满足大范围样本数据采集的需求。
3、众包采集的人工标注方式虽然可以提高效率,但由于样本标注者的认知差异导致标注质量参差不齐。
4、为提高样本采集效率,部分研究者直接使用openstreetmap(osm)这样的开源地图数据构建样本库。尽管使用类似osm这样现有的地图数据训练深度学习模型是一项具有吸引力的研究,但这些数据的质量和区域覆盖完整性有待商榷。开源地图数据中建筑物标注与遥感影像中的建筑物并不总是匹配,这是由于地图与遥感影像更新频率不一致以及众源标注不准确,导致存在以下两个问题:①时间不一致性:现有地图数据与遥感影像在更新时间上可能不同步,地图数据并未及时更新遥感影像中建筑物的变化情况(因自然灾害损毁或新建),导致地图数据中存在多余建筑物标注或遥感影像中建筑物缺少标注;②空间非对齐性:现有地图数据大多以众源方式由志愿者标注而来,在标注过程中,由志愿者自身因素导致的地图数据中建筑物标注与遥感影像中建筑物位置不对齐。
5、随着深度学习方法在图像分类、目标检测和图像分割等应用中效果良好,研究人员尝试利用基于深度学习的建筑物语义分割方法进行建筑物样本库的自动构建。基于此思路的研究十分匮乏,且至少存在以下两点不足:一是,该方法仍然需要大量标注正确的样本进行训练,并未实质上解决样本库智能构建的问题;二是,该方法泛化能力差,应用范围有限,对于训练地区的同源数据具有较好的效果,而对于来自不同卫星数据源和不同地理区域的遥感影像生成的样本质量参差不齐。
6、总结以上现有方法存在的不足,一是依靠专业人员手工绘制建筑物轮廓的方式,效率低、成本高。在实际应用中,不利于高效实现大范围样本库快速构建。尽管可以采取众包标注的方式提高效率,但耗费的人力成本过高,且标注质量难以保证。二是利用现有地图数据直接进行建库会出现难以避免的标注质量和样本缺失问题。三是采用基于深度学习的建筑物语义分割方法依然需要大量的标注样本,且泛化能力不足,无法进行大范围异构图像的应用。通过上述分析可知,遥感影像建筑物样本库的智能构建亟待研究。
技术实现思路
1、本发明的目的在于解决现有技术中存在的问题,提出一种基于自监督学习的遥感影像建筑物样本库构建方法,相较于其他样本库构建方法,在保证样本标注质量的同时,能够大大节省人工标注所花费的时间和资源,为遥感影像建筑物样本库的快速构建提供了一种新思路。
2、为了实现上述目的,本发明采用以下的技术方案:
3、一种基于自监督学习的遥感影像建筑物样本库构建方法,包含以下内容:
4、基于已有地图数据和影像数据自动生成初始样本库;
5、构建自监督学习支持的建筑物标注对齐和校正模型;通过对初始样本库中需要对齐和校正的建筑物标注进行自监督学习,使得建筑物标注对齐和校正模型能够拟合从噪声标签到有效标签的映射;
6、利用训练、验证和测试后的建筑物标注对齐和校正模型自动对齐和校正建筑物标注,获得基础样本库,并通过格式转换方法扩展建筑物标签的类型,将基础样本库升级为多类型样本库。
7、根据本发明基于自监督学习的遥感影像建筑物样本库构建方法,进一步地,自动生成初始样本库的过程如下:
8、从已有的开源数据中提取出所选区域的地图数据和影像数据;
9、对地图数据和影像数据进行地理配准,获得所选区域1:1的图像配准结果;
10、将配准后的空间数据集裁切为一一对应的512×512像素大小的样本,作为初始样本库的案例。
11、根据本发明基于自监督学习的遥感影像建筑物样本库构建方法,进一步地,所述建筑物标注对齐和校正模型包括建筑物实例匹配模块、建筑物实例变换模块和建筑物实例优化模块;所述建筑物实例匹配模块包括特征提取模块、掩膜生成模块和分类图估计模块,实现遥感影像和地图数据之间的建筑物实例匹配。
12、根据本发明基于自监督学习的遥感影像建筑物样本库构建方法,进一步地,所述特征提取模块和掩膜生成模块采用多尺度全卷积编码器-解码器架构,其中编码器用于特征提取,包含四条路径,每条路径由2个连续的3×3卷积层组成,后面是一个扩张率为2的扩张残差单元,在馈送到扩张残差单元之前,上述卷积层的输出与另外2个连续的3×3卷积层的输出特征图相加;此外,使用扩张率分别为1、6、12和18的空间金字塔扩张卷积层,来聚合多个阶段的输出;解码器用于掩膜生成,经由跳跃连接与每个尺度下的关联层相连接,用来接收由分类图提供的多尺度上下文信息;对应于编码器的四条路径,解码器也包含四条路径,在每条路径中,对图像进行上采样,并且在传输到下一尺度之前进行卷积操作;解码器的输出被馈送到2个连续的3×3卷积层,然后被传递到3个独立的具有sigmoid激活函数的1×1卷积层,用于生成分类标注,得到相似标注、冗余标注和缺失标注。
13、根据本发明基于自监督学习的遥感影像建筑物样本库构建方法,进一步地,所述分类图估计模块使用关联层以特征提取模块生成的特征图作为输入,来估计遥感影像与地图数据之间建筑物实例的关联关系,并生成分类图;首先,在关联层中计算两幅图像之间所有建筑物实例的相关性,得到相似性分数;其次,对每个建筑物实例的相似性分数进行归一化,生成分类图。
14、根据本发明基于自监督学习的遥感影像建筑物样本库构建方法,进一步地,所述建筑物实例变换模块用于得到两幅图像的几何变换参数;利用空间变换网络对相似标注进行建筑物实例变换,获得对齐的建筑物标注结果;其中空间变换网络包括定位器、网格生成器和采样器,所述定位器以相似标注特征图作为输入,经过卷积、全卷积若干层的计算,回归得到空间变换参数,所述网格生成器用于两幅图像之间的坐标映射,获得像素点坐标的对应关系,所述采样器用于采集像素,实现坐标求解的可微性,保证在反向传播过程中的梯度回传。
15、根据本发明基于自监督学习的遥感影像建筑物样本库构建方法,进一步地,建筑物实例优化模块用于对冗余标注和缺失标注进行建筑物实例优化,包括:①删除冗余标注;②对分割得到的缺失标注进行规则化,并使用几何优化方法对缺失标注进行后处理。
16、根据本发明基于自监督学习的遥感影像建筑物样本库构建方法,进一步地,对分割得到的缺失标注进行规则化过程为:实例分离;轮廓定位;轮廓化简;主方向确定、方向校正和邻边校正。
17、根据本发明基于自监督学习的遥感影像建筑物样本库构建方法,进一步地,生成基础样本库包括:利用初始样本库进行训练得到的建筑物标注对齐和校正模型,该模型识别影像与地图数据中样本与标签之间建筑物实例的对应关系,并执行对齐、删除和添加操作,获得校正后的建筑物标注样本标签,建立建筑物分割基础样本库;生成多类型样本库包括:在像素级标签的基础上,对建筑物标注样本标签进行数据转换,获得实例级和矢量级多种格式的样本标签,并对样本库进行“向量级-实例级-矢量级”的多层次规范化组织,构建多类型建筑物提取样本库。
18、一种基于自监督学习的遥感影像建筑物样本库构建系统,该系统用于实现上述的方法,该系统包括初始样本库生成模块、模型构建模块和建筑物样本库智能构建模块,其中:
19、初始样本库生成模块,用于基于已有地图数据和影像数据自动生成初始样本库;
20、模型构建模块,用于构建自监督学习支持的建筑物标注对齐和校正模型;通过对初始样本库中需要对齐和校正的建筑物标注进行自监督学习,使得建筑物标注对齐和校正模型能够拟合从噪声标签到有效标签的映射;
21、建筑物样本库智能构建模块,用于利用训练、验证和测试后的建筑物标注对齐和校正模型自动对齐和校正建筑物标注,获得基础样本库,并通过格式转换方法扩展建筑物标签的类型,将基础样本库升级为多类型样本库。
22、与现有技术相比,本发明具有以下优点:
23、本发明的基于自监督学习的遥感影像建筑物样本库构建方法,用来实现遥感影像建筑物样本库的自动化构建。本发明使用遥感和制图领域已有的卫星或航空影像数据和地图中的建筑物标注数据,依据深度学习方法自动对齐和校正两种不同来源的数据,识别影像中存在所有建筑物实例,同时检测地图数据中存在的多余建筑物标注和遥感影像中缺失的建筑物标注,构建与遥感影像数据相对应的建筑物分割样本库。相较于其他样本库构建方法,在保证样本标注质量的同时,能够大大节省人工标注所花费的时间和资源。
24、本发明采用数据-模型双驱动的自监督学习策略,从噪声数据中学习影像数据与地图数据中建筑物实例的对应关系,并执行对齐、删除和添加操作,有效解决了地图数据与遥感影像中建筑物标注存在的时间不一致性和空间非对齐性这两个问题,完成了建筑物标注的自动对齐和校正,提升了遥感影像建筑物与地图数据中建筑物标注的匹配准确度,同时这种自动标注替代现有的人工标注,节约了人力成本和时间成本。