一种基于深度学习的建筑轮廓矫正方法及装置与流程

文档序号:33022383发布日期:2023-01-20 18:52阅读:53来源:国知局
一种基于深度学习的建筑轮廓矫正方法及装置与流程

1.本技术涉及电力系统技术领域,具体涉及一种基于深度学习的建筑轮廓矫正方法以及基于深度学习的建筑轮廓矫正装置。


背景技术:

2.倾斜摄影技术应用于三维重建任务中,完成对于影像数据的采集工作,其为还原场景内容,表现场景特征提供了很好的数据支持。然而获得影像数据对于细小物体,被遮盖和覆盖的物体,无法展示正确的成像效果,导致建筑重构过程中提取到的建筑轮廓是扭曲的。现阶段已有一些解决线框扭曲的办法,但是它们仍存在以下的问题:(1)基于局部边缘特征的传统线检测算法不提供关于连接点以及线和连接点如何相互连接的信息,限制了它在场景解析和理解中的应用;(2)基于检测直线的两个端点和对直线像素做分割的直线检测wireframe方法,对于处理复杂线路连接的复杂场景仍然不足。
3.因此,希望有一种技术方案来克服或至少减轻现有技术的至少一个上述缺陷。


技术实现要素:

4.本发明的目的在于提供一种基于深度学习的建筑轮廓矫正方法来克服或至少减轻现有技术的至少一个上述缺陷。
5.本发明的一个方面,提供一种基于深度学习的建筑轮廓矫正方法,所述基于深度学习的建筑轮廓矫正方法包括:获取待矫正建筑图像;获取经过训练的建筑轮廓矫正模型;提取所述待矫正建筑图像的轮廓特征图;根据所述待矫正建筑图像的轮廓特征图以及经过训练的线连接模型获取矫正后的建筑图像。
6.可选地,所述提取所述待矫正建筑图像的轮廓特征图包括:获取堆叠沙漏网络;将所述待矫正建筑图像输入至所述堆叠沙漏网络,从而使所述待矫正建筑图像通过两个2跨步的卷积层以空间分辨率进行两次下采样,将学习到的特征图由多个类似沙漏模块进行逐步细化,并对每个模块的输出施加中间监督,进行计算得到图片的轮廓特征图。
7.可选地,所述根据所述待矫正建筑图像的轮廓特征图以及经过训练的线连接模型,从而获取矫正后的建筑图像包括:根据所述轮廓特征图获取预测连接点;将各个预测连接点输入至训练的线连接模型,从而获取预测的各个连接线;根据各个预测的连接线组成预测轮廓图;根据预测轮廓图以及所述轮廓特征图获取矫正后的建筑图像。
8.可选地,所述根据所述轮廓特征图获取预测连接点包括:通过调整轮廓特征图片大小并归一化处理,从而获取经过归一化的轮廓特征图;将经过归一化的轮廓特征图化为128*128个区域;为每个区域进行如下操作:判断区域中是否存在连接点,若是,则通过回归预测的方式计算该区域中的连接点的回归值。
9.可选地,所述根据预测轮廓图以及所述轮廓特征图获取矫正后的建筑图像包括:将所述预测轮廓图以及所述轮廓特征图进行线性插值匹配,通过线的验证网络验证线是否为正确连接线框,若是,则保留正确连接线框;判断各个正确连接线框是否重叠,若是,则去除重叠的正确连接线框,从而获取最终连接线框,各个所述最终连接线框组成所述矫正后的建筑图像。
10.可选地,所述通过线的验证网络验证线是否为正确连接线框包括:计算每个线框的回归值是否满足阈值,若是,则将满足阈值的线框作为正确连接线框。
11.可选地,所述根据所述轮廓特征图获取预测连接点包括:获取预设的预测交叉点位置排名列表;为每个连接点进行如下操作:根据预测交叉点位置排名列表以及各个连接点的回归值判断该连接点与其最近的真实点之间是否低于2.0,且是最小的距离值,若是,则认为该交叉点是预测连接点。
12.可选地,所述通过线的验证网络验证线是否为正确连接线框包括:将预测连接点通过loipooling特征回归计算每个点的特征值,再和所述轮廓特征图进行线性插值和双线性插值的计算,得出对应特征向量,再通过最大池化层减少特征向量的大小得到特征向量图,得到的特征向量图传递给两个全连接层来获得分类结果,得到线的损失logit,通过logit和这条线的标签之间的sigmoid二元交叉熵损失,判断属于正负样本中的哪个样本最接近,与正样本接近则为正确的线匹配工作,将扭曲的线矫正为正确的线从而获取正确连接线框。
13.可选地,所述根据预测轮廓图以及所述轮廓特征图获取矫正后的建筑图像进一步包括:通过建筑轮廓的成对数据集对所述线的验证网络进行训练;其中,所述建筑轮廓的成对数据集采用如下方式获取:生成基本图形;对基本图形进行多次随机变换从而形成不同的样本图像,其中部分样本图像组成正样本集,另一部分样本图像组成负样本集,所述正样本集的数量多于所述负样本集。
14.本技术还提供了一种基于深度学习的建筑轮廓矫正装置,所述基于深度学习的建筑轮廓矫正装置包括:图像获取模块,所述图像获取模块用于获取待矫正建筑图像;建筑轮廓矫正模型获取模块,所述建筑轮廓矫正模型获取模块用于获取经过训练的建筑轮廓矫正模型;特征提取模块,所述特征提取模块用于提取所述待矫正建筑图像的轮廓特征图;
矫正模块,所述矫正模块用于根据所述待矫正建筑图像的轮廓特征图以及经过训练的线连接模型获取矫正后的建筑图像。
15.有益效果:本技术的基于深度学习的建筑轮廓矫正方法可以有效地将复杂场景中扭曲的线框矫正为横平竖直的线框,最后将得到的线框结果作为建筑地面轮廓,应用到建筑重构工作中去。
附图说明
16.图1为本技术一实施例的基于深度学习的建筑轮廓矫正方法的流程示意图;图2是一种电子设备,用于实现图1所示的基于深度学习的建筑轮廓矫正方法;图3为本技术一实施例的基于深度学习的建筑轮廓矫正方法中的建筑轮廓的成对数据的示意图;图4为本技术一实施例的基于深度学习的建筑轮廓矫正方法中的建筑轮廓的成对数据的示意图;图5为本技术一实施例的基于深度学习的建筑轮廓矫正方法中的建筑轮廓的成对数据的示意图;图6为本技术一实施例的基于深度学习的建筑轮廓矫正方法中的建筑轮廓的成对数据的示意图。
具体实施方式
17.为使本技术实施的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行更加详细的描述。在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本技术一部分实施例,而不是全部的实施例。下面通过参考附图描述的实施例是示例性的,旨在用于解释本技术,而不能理解为对本技术的限制。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。下面结合附图对本技术的实施例进行详细说明。
18.需要说明的是,在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
19.图1为本技术一实施例的基于深度学习的建筑轮廓矫正方法的流程示意图。
20.如图1所示的基于深度学习的建筑轮廓矫正方法包括:步骤1:获取待矫正建筑图像;步骤2:获取经过训练的建筑轮廓矫正模型;步骤3:提取所述待矫正建筑图像的轮廓特征图;步骤4:根据所述待矫正建筑图像的轮廓特征图以及经过训练的线连接模型获取矫正后的建筑图像。
21.本技术的基于深度学习的建筑轮廓矫正方法可以有效地将复杂场景中扭曲的线框矫正为横平竖直的线框,最后将得到的线框结果作为建筑地面轮廓,应用到建筑重构工作中去。
22.在本实施例中,所述提取所述待矫正建筑图像的轮廓特征图包括:获取堆叠沙漏网络;将所述待矫正建筑图像输入至所述堆叠沙漏网络,从而使所述待矫正建筑图像通过两个2跨步的卷积层以空间分辨率进行两次下采样,将学习到的特征图由多个类似沙漏模块进行逐步细化,并对每个模块的输出施加中间监督,进行计算得到图片的轮廓特征图。
23.在本实施例中,所述根据所述待矫正建筑图像的轮廓特征图以及经过训练的线连接模型,从而获取矫正后的建筑图像包括:根据所述轮廓特征图获取预测连接点;将各个预测连接点输入至训练的线连接模型,从而获取预测的各个连接线;根据各个预测的连接线组成预测轮廓图;根据预测轮廓图以及所述轮廓特征图获取矫正后的建筑图像。
24.在本实施例中,所述根据所述轮廓特征图获取预测连接点包括:通过调整轮廓特征图片大小并归一化处理,从而获取经过归一化的轮廓特征图;将经过归一化的轮廓特征图化为128*128个区域;为每个区域进行如下操作:判断区域中是否存在连接点,若是,则通过回归预测的方式计算该区域中的连接点的回归值。
25.在本实施例中,所述根据预测轮廓图以及所述轮廓特征图获取矫正后的建筑图像包括:将所述预测轮廓图以及所述轮廓特征图进行线性插值匹配,通过线的验证网络验证线是否为正确连接线框,若是,则保留正确连接线框;判断各个正确连接线框是否重叠,若是,则去除重叠的正确连接线框,从而获取最终连接线框,各个所述最终连接线框组成所述矫正后的建筑图像。
26.在本实施例中,所述通过线的验证网络验证线是否为正确连接线框包括:计算每个线框的回归值是否满足阈值,若是,则将满足阈值的线框作为正确连接线框。
27.在本实施例中,计算每个线框的回归值是否满足阈值包括:将网络卷积得到的特征值经过多层感知机(mlp)回归分析计算出的回归值和阈值比大小,若大于,则判断为满足阈值。
28.在本实施例中,网络卷积得到的特征值为经过堆叠沙漏网络之后的轮廓特征图。
29.在本实施例中,所述根据所述轮廓特征图获取预测连接点包括:获取预设的预测交叉点位置排名列表;为每个连接点进行如下操作:根据预测交叉点位置排名列表以及各个连接点的回归值判断该连接点与其最近的真实点之间是否低于2.0,且是最小的距离值,若是,则认为该交叉点是连接点。
30.在本实施例中,所述通过线的验证网络验证线是否为正确连接线框包括:将预测的连接点通过loipooling特征回归计算每个点的特征值,再和堆叠沙漏网络输出得到的特征图进行线性插值和双线性插值的计算,得出对应特征向量,再通过最大池化层减少特征向量的大小得到特征向量图,得到的特征向量图传递给两个全连接层来获
得分类结果,得到线的损失logit,通过logit和这条线的标签之间的sigmoid二元交叉熵损失,判断属于正负样本中的哪个样本最接近,与正样本接近则为正确的线匹配工作,将扭曲的线矫正为正确的线从而获取正确连接线框。
31.在本实施例中,所述根据预测轮廓图以及所述轮廓特征图获取矫正后的建筑图像进一步包括:通过建筑轮廓的成对数据集对所述线的验证网络进行训练;其中,所述建筑轮廓的成对数据集采用如下方式获取:生成基本图形;对基本图形进行多次随机变换从而形成不同的样本图像,其中部分样本图像组成正样本集,另一部分样本图像组成负样本集,所述正样本集的数量多于所述负样本集。
32.参见图3,举例来说,生成基本图形:通过生成四个点得到一个矩形。
33.参见图4至图5,对基本图形进行多次随机变换从而形成不同的样本图像包括:在四条边随机加模拟窗台的突起;将矩形的直线通过b样条拟合成弯曲的线。
34.采用这种方式,即可得到一个样本图像,可以理解的是,每随机一次即可得到一个样本图像,在本实施例中,通过上述方式获取的样本图像为正样本图像。
35.在本实施例中,b样条曲线是指:给定n+1个控制点{p0、p1、......、pn},每个控制点都有对应的一个基函数ni,p(u),其中u为自变量,i为第i个结点,p为曲线的次数(次数=阶数-1),则可以用下式来定义b样条曲线:。
36.参见图4至图6,对基本图形进行多次随机变换从而形成不同的样本图像包括:参见图4,在四条边随机加模拟窗台的突起;参见图5,将矩形的直线通过b样条拟合成弯曲的线;参见图6,再平滑直角拐点。
37.采用这种方式,即可得到一个样本图像,可以理解的是,每随机一次即可得到一个样本图像,在本实施例中,通过上述方式获取的样本图像为负样本图像。其中输入的成对数据分别为数据内容是图4中每个点的坐标(.npy)、两个点索引连成的的线(.npy)和图6操作后得到的图片(.png)。
38.在本实施例中,通过建筑轮廓的成对数据集对所述线的验证网络进行训练采用如下方法:为了训练线的验证网络可以学习预测到正确连接线的能力,即预测线的匹配能力,需要制作正负样本集,同为了满足正负样本均衡我们采取了两个手段:a.静态样本:根据最开始输入成对训练数据中,我们得到了每个点的坐标和两个点索引连成的线(ground truth线),训练集中的线作为正样本,训练集中的点进行两两连线,对于不属于训练集中的线进行计算线框在整个图片的平均像素密度,线框越长分数越高,将其中分数最高的2000个线框作为负样本。
39.b.动态样本:我们还需要对于预测得到的连接点与确定好的点进行特征匹配,如果他们之间的距离小于一定的阈值进行连线,得到的连线属于训练集中的线,就认为这些线框是正样本。如果他们连接的线得不属于训练集中线,且得到的评价像素密度也较高的话,将这些线框作为是负样本,将连接点不在与已知的点进行匹配,都作为两两配对的连接点进行线框连接,如果连的线框属于训练集中的线就作为正样本;如果不属于就作为负样本。
40.本技术的基于深度学习的建筑轮廓矫正方法通过自己制作建筑轮廓的成对数据集作为整个训练网络的输入,训练得到建筑轮廓的特征参数,根据得到的特征图去进行打分获得连接点,再将连接点进行连接成为连接线,筛选出连接线的结果要为横平竖直的建筑外轮廓线,且能够正确表达建筑外轮廓几何特征。因为打分的机制问题得到的点的连接线中可能出现重叠的线框,需进行后处理去掉重叠部分,保留分数较高的建筑外轮廓线框,此时已将扭曲的建筑轮廓矫正为平直的建筑轮廓线,最终将得到的轮廓作为建筑地面轮廓完成建筑重构工作。
41.本技术还提供了一种基于深度学习的建筑轮廓矫正装置,所述基于深度学习的建筑轮廓矫正装置包括图像获取模块、建筑轮廓矫正模型获取模块、特征提取模块以及矫正模块,其中,图像获取模块用于获取待矫正建筑图像;建筑轮廓矫正模型获取模块用于获取经过训练的建筑轮廓矫正模型;特征提取模块用于提取待矫正建筑图像的轮廓特征图;矫正模块用于根据待矫正建筑图像的轮廓特征图以及经过训练的线连接模型获取矫正后的建筑图像。
42.上述对方法的描述同样也适用于对装置的描述。
43.在本实施例中,堆叠沙漏网络的功能是为连续的模块提取语义上有意义的特征,ofl-cnn.we选择堆叠沙漏网络作为我们的骨干,以提高其效率和有效性。输入图像的大小调整为正方形。堆叠的沙漏网络首先通过两个2层卷积层以空间分辨率对输入图像进行两次下采样。之后,通过多个类似u-net的模块(沙漏模块)逐步完善学习的特征图,并对每个模块的输出进行中间监督。网络的总损耗是这些模块的损耗之和。
44.本技术还提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并能够在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于深度学习的建筑轮廓矫正方法。
45.本技术还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够实现如上所述的基于深度学习的建筑轮廓矫正方法。
46.图2是能够实现根据本技术一个实施例提供的基于深度学习的建筑轮廓矫正方法的电子设备的示例性结构图。
47.如图2所示,电子设备包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505以及输出设备506。其中,输入接口502、中央处理器503、存储器504以及输出接口505通过总线507相互连接,输入设备501和输出设备506分别通过输入接口502和输出接口505与总线507连接,进而与电子设备的其他组件连接。具体地,输入设备501接收来
自外部的输入信息,并通过输入接口502将输入信息传送到中央处理器503;中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器504中,然后通过输出接口505将输出信息传送到输出设备506;输出设备506将输出信息输出到电子设备的外部供用户使用。
48.也就是说,图2所示的电子设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及一个或多个处理器,该一个或多个处理器在执行计算机可执行指令时可以实现结合图1描述的基于深度学习的建筑轮廓矫正方法。
49.在一个实施例中,图2所示的电子设备可以被实现为包括:存储器504,被配置为存储可执行程序代码;一个或多个处理器503,被配置为运行存储器504中存储的可执行程序代码,以执行上述实施例中的基于深度学习的建筑轮廓矫正方法。
50.在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
51.内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
52.计算机可读介质包括永久性和非永久性、可移动和非可移动,媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数据多功能光盘(dvd)或其他光学存储、磁盒式磁带、磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
53.本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
54.此外,显然“包括”一词不排除其他单元或步骤。装置权利要求中陈述的多个单元、模块或装置也可以由一个单元或总装置通过软件或硬件来实现。第一、第二等词语用来标识名称,而不标识任何特定的顺序。
55.附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,模块、程序段、或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地标识的方框实际上可以基本并行地执行,他们有时也可以按相反的顺序执行,这依据所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或总流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
56.在本实施例中所称处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器 (digital signal processor,dsp)、专用集成电路 (application specific integrated circuit,asic)、现成可编程门阵列 (field-programmable gate array,fpga) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
57.存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现装置/终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card, smc),安全数字(secure digital, sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
58.在本实施例中,装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。
59.需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。本技术虽然以较佳实施例公开如上,但其实并不是用来限定本技术,任何本领域技术人员在不脱离本技术的精神和范围内,都可以做出可能的变动和修改,因此,本技术的保护范围应当以本技术权利要求所界定的范围为准。
60.虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1