一种基于深度学习的CT三维目标检测方法与流程

文档序号:33526160发布日期:2023-03-22 07:16阅读:64来源:国知局
一种基于深度学习的CT三维目标检测方法与流程
一种基于深度学习的ct三维目标检测方法
技术领域
1.本发明涉及安检图像技术领域,尤其涉及一种基于深度学习的ct三维目标检测方法。


背景技术:

2.ct(x线计算机断层摄影,computed tomography)安检设备在安防系统中的作用至关重要,尤其是在地铁站、火车站、机场等人流密集的交通节点中,安检设备是确保旅客人身财产安全乃至国家、社会稳定的重要安全保障工具。
3.ct设备经常用于例如违禁品等的目标物的识别中。在利用安检ct设备进行目标物识别时,传统技术主要是:利用ct重建技术得到包含物质属性信息的三维断层图像,将三维图像分割成若干个嫌疑物,对嫌疑物进行物质属性的统计和归类。然而,如上所述的传统技术,虽然能够在爆炸物、毒品等物质属性上具有较强可分性的违禁品识别上具有良好的性能,但对于具有较强的三维形状特征且物质组成和物理属性比较复杂的目标物的识别,表现出明显的局限性。目前,在三维目标检测方面,即对于数据是以三维形式表现,如点云数据、体素数据、mesh数据等进行的检测,卷积神经网络(cnn)取得了重大进展。研究重点有两类,一是将点云数据转换为体数据表示,并将cnn改进为3d cnn来用于目标检测网络,如3d-fcn利用3d全卷积网络直接预测类标签和边界框的位置;二是将三维体素网络利用三维卷积层将输入的三维体数据编码为多通道二维特征图,并将特征提供给后续检测网络,如vote3deep利用三维体数据的稀疏性来加速三维卷积。然而,这些基于三维网络的算法在用于检测高分辨率三维图像时计算成本和时间成本较高,不能满足实际场景应用需求。另一方面,现有技术在应对物理材质特征组成复杂、物品交叠产生的三维形状特征不清晰时,对物品的识别率有着明显的局限性。
4.综上,现有技术存在检测高分辨率三维图像时计算成本和时间成本较高,且当物理材质特征组成复杂、物品交叠产生的三维形状特征不清晰时,对物品的识别率低等问题。


技术实现要素:

5.鉴于上述的分析,本发明实施例旨在提供一种基于深度学习的ct三维目标检测方法,用以解决现有技术存在检测高分辨率三维图像时计算成本和时间成本较高,且当物理材质特征组成复杂、物品交叠产生的三维形状特征不清晰时,对物品的识别率低的问题。
6.本发明的目的主要是通过以下技术方案实现的:
7.本发明实施例提供了一种基于深度学习的ct三维目标检测方法,包括如下步骤:
8.获取待检测目标的二维切片数据;
9.通过预分割网络对所述二维切片数据进行预分割得到多个单独的待检测子目标;
10.将每个所述待检测子目标进行多个方向的投影得到多个待检测子目标的二维投影图像;
11.利用预训练的目标检测模型,对每个所述待检测子目标的二维投影图像进行目标
检测识别,获得对应的检测结果;
12.将所述检测结果按照投影时的方向反映射回ct重建图像中,得到各个物品的三维包围框信息,实现对待检测目标的三维目标检测。
13.基于上述方法的进一步改进,获取待检测目标的二维切片数据,包括:
14.获取待检测目标的三维体数据;
15.基于待检测目标的三维体数据,得到待检测目标的二维切片数据;其中,所述待检测目标包括多个物品,且各个物品的物理材质特征彼此不完全相同。
16.基于上述方法的进一步改进,基于待检测目标的三维体数据,得到待检测目标的二维切片数据,包括:
17.将待检测目标的三维体数据沿着三维笛卡尔坐标系中的x、y和z方向分别切割成多个固定厚度的待检测目标的三维切片体数据;
18.将所述待检测目标的三维切片体数据分别沿厚度方向进行投影,得到多个待检测目标的二维切片数据。
19.基于上述方法的进一步改进,通过预分割网络对所述二维切片数据进行预分割得到多个单独的待检测子目标,包括:
20.对二维切片数据进行采样,得到采样后的二维切片数据;
21.提取采样后的二维切片数据的ct数据特征,进行特征融合获得特征图;
22.针对特征图中的每一个中心点,使用卷积来提取特征图的特征,生成高维向量;其中,所述高维向量对应于二维切片数据中的某一个区域的位置;
23.根据提取的位置和高维向量,使用全连接层来判断该区域是背景还是前景,并估算待检测子目标中心点的位置,得到检测头区域;
24.计算所述检测头区域距离待检测子目标中心点的偏移,再对检测头进行回归偏移;其中,回归偏移指位置及尺寸修正,来确定候选目标区域;
25.对所述候选框根据置信度排序,对尺寸越界、目标区域小于预设尺寸的候选框进行剔除,对剩下的目标区域进行nms处理,得到多个单独的待检测子目标。
26.基于上述方法的进一步改进,所述二维切片数据的ct数据特征包括高/低能重建图像,电子密度图和原子序数图。
27.基于上述方法的进一步改进,所述待检测子目标与所述物品一一对应。
28.基于上述方法的进一步改进,所述预训练的目标检测模型,按照如下步骤进行构建和训练:
29.将多个训练子目标的二维投影图像作为训练数据集,对不同类别的训练样本设置对应标签,创建射线图像样本库;
30.搭建深度学习平台;
31.将神经网络模型作为预训练网络,并进行神经网络模型的调整;其中,神经网络模型为基于神经网络的射线图像分类网络,包括全连接层、池化层;
32.将训练数据集输入到调整完成后的神经网络模型中训练得到各个训练子目标的不同类别物品图像的特征模型,完成神经网络模型的训练,得到目标检测模型。
33.基于上述方法的进一步改进,所述训练子目标与所述待检测子目标的物品类型相同,用于训练得到预训练的目标检测模型。
34.基于上述方法的进一步改进,所述对神经网络模型的调整包括以下步骤:
35.将神经网络模型的全连接层转化为卷积层;
36.将卷积层进行反卷积操作实现神经网络的反向传播,用于对残差链式求导完成当前卷积层的参数更新;
37.将不同池化层的结果进行上采样,并基于不同池化层的结果,对图像的特征进行优化还原,最终完成各类图像的特征还原,获得对应类别物品图像的特征模型。
38.基于上述方法的进一步改进,所述各个训练子目标的不同类别物品图像的特征模型,包括二维包围框坐标、目标物类别、置信度。
39.与现有技术相比,本发明至少可实现如下有益效果之一:
40.1、本发明实施例通过将待检测目标的三维体数据转化为二维切片数据,并对其进行预分割后再进行二维投影图像的目标检测识别,对物品识别率的提升明显。
41.2、本发明实施例通过检测二维投影图像,代替了对高分辨率三维图像的检测,计算成本和时间成本降低。
42.本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
43.附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
44.图1为本发明的基于深度学习的ct三维目标检测方法流程图;
45.图2为本发明的三维体数据到预分割的流程图;
46.图3为本发明的经预分割得到多个单独的待检测子目标示意图;
47.图4(a)为本发明的三个待检测子目标在xy方向上的二维投影图像;
48.图4(b)为本发明的三个待检测子目标在xz方向上的二维投影图像;
49.图4(c)为本发明的三个待检测子目标在yz方向上的二维投影图像;
50.图5(a)为本发明的三个待检测子目标在xy方向上的二维投影图像的检测结果;
51.图5(b)为本发明的三个待检测子目标在xy方向上的二维投影图像的检测结果;
52.图5(c)为本发明的三个待检测子目标在xy方向上的二维投影图像的检测结果;
53.图6为本发明的三个待检测子目标的三维目标检测结果。
具体实施方式
54.下面结合附图来具体描述本发明的优选实施例,其中,附图构成本技术一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
55.实施例1
56.本发明的一个具体实施例,公开了一种基于深度学习的ct三维目标检测方法,包括离线的预先训练步骤和在线的处理步骤;其中,离线的预先训练步骤包括以下步骤s1~s2,在线的处理步骤包括以下步骤s3~s5:
57.s1.基于训练样本的三维体数据,得到训练样本的二维切片数据;其中,训练样本包括多个训练物品,且各个物品的物理材质特征彼此不完全相同;
58.通过预分割网络对训练样本的二维切片数据进行预分割得到多个单独的训练子样本;其中,训练子样本与训练物品一一对应。
59.s2.将每个训练子样本进行多个方向的投影得到多个训练子样本的二维投影图像;
60.构建目标检测模型,利用多个训练子样本的二维投影图像对其进行训练,得到预训练的目标检测模型。
61.s3.基于待检测目标的三维体数据,得到待检测目标的二维切片数据;其中,所述待检测目标包括多个物品,且各个物品的物理材质特征彼此不完全相同;
62.通过预分割网络对待检测目标的二维切片数据进行预分割得到多个单独的待检测子目标;其中,待检测子目标与所述物品一一对应。
63.s4.将每个待检测子目标进行多个方向的投影得到多个待检测子目标的二维投影图像;
64.利用预训练的目标检测模型,对每个待检测子目标的二维投影图像进行目标检测识别,获得对应的检测结果。
65.s5.将检测结果按照投影时的方向反映射回ct重建图像中,得到各个物品的三维包围框信息,实现对待检测目标的三维目标检测。
66.与现有技术相比,本实施例通过将待检测目标的三维体数据转化为二维切片数据,并对其进行预分割后再进行二维投影图像的目标检测识别,对物品识别率的提升明显,且计算成本和时间成本很小。
67.实施例2
68.在实施例1的基础上进行优化,步骤s1可进一步细化为如下步骤:
69.s11.获取训练样本的三维体数据,经处理得到训练样本的二维切片数据。
70.其中的训练样本包括多个交叠的训练物品,且各个训练物品的物理材质特征不完全相同;交叠指的是多个训练物品在某些角度的投影中会产生交叉覆盖。
71.其中的处理指的是将训练样本的三维体数据沿着三维笛卡尔坐标系中的x、y和z方向分别切割成多个固定厚度的切片体数据,即训练样本的三维切片体数据;然后将各训练样本的三维切片体数据分别沿厚度方向进行投影,得到多个训练样本的二维切片数据,其中,训练样本的二维切片图像的每一像素点的像素值为三维切片体数据对应位置在厚度方向上各体素的像素值最大值。
72.s12.通过预分割网络对训练样本的二维切片数据进行预分割得到多个单独的训练子样本;其中,训练子样本与训练物品一一对应。
73.其中,如图2所示,预分割网络根据训练样本的二维切片数据中所包含的高/低能重建图像,电子密度图,原子序数图等ct数据特征,采用深度学习神经网络方法如3drpn算法实现训练样本的二维切片数据的预分割。
74.具体来说,首先在原始场景中对训练样本的二维切片数据进行采样,提取训练样本的二维切片数据中的高/低能重建图像,电子密度图,原子序数图等ct数据特征,进行特征融合获得训练样本特征图。针对训练样本特征图中的每一个中心点,使用卷积来提取训
练样本特征图的特征,生成一个高维向量,每个高维向量对应于训练样本的二维切片数据中的一个区域,表征了位置信息。然后根据训练样本的位置信息和特征信息,使用全连接层来判断这些区域是背景还是前景,并估算目标中心点的位置,得到检测头区域。计算这些检测头区域距离目标中心点的偏移,再对检测头进行回归偏移,来确定最终的候选框;其中的回归偏移包括对检测头的位置及尺寸进行修正。
75.对上述候选框根据置信度排序,对尺寸越界、目标区域小于预设尺寸的候选框进行剔除,剩下的目标区域进行nms(非极大值抑制,non maximum suppression)处理得到多个单独的训练子样本;其中,尺寸越界指的是的坐标超出了其所在图像边界的候选框,预设尺寸指的是设定的anchor尺寸,anchor尺寸是在训练的时候设置,取值范围一般在16-256。
76.优选地,步骤s2可进一步细化为如下步骤:
77.s21.将每个训练子样本进行多个方向的投影得到多个训练子样本的二维投影图像。
78.多个方向指三维笛卡尔坐标系中的xy、xz、yz三个方向。
79.s22.构建目标检测模型,利用多个训练子样本的二维投影图像对其进行训练,得到预训练的目标检测模型。
80.目标检测模型可以选择faster-rcnn算法、cascade-rcnn算法、yolov5算法等进行构建,该模型的构建均能够按照以下步骤实现:
81.将多个训练子目标的二维投影图像作为训练数据集,对不同类别的训练样本设置对应标签,创建射线图像样本库;
82.搭建深度学习平台,示例性的,搭建基于pytorch框架的mmdetecion深度学习平台;
83.将神经网络模型,比如resnet101、resnet50或vgg,作为预训练网络,并进行神经网络模型的调整;其中,神经网络模型为基于神经网络的射线图像分类网络,包括全连接层、池化层;
84.将训练数据集输入到调整完成后的神经网络模型中训练得到各个训练子目标的不同类别物品图像的特征模型,包括二维包围框坐标、目标物类别、置信度,完成神经网络模型的训练,得到目标检测模型;
85.其中,对神经网络模型的调整包括以下步骤:
86.将神经网络模型的全连接层转化为卷积层;
87.将卷积层进行反卷积操作实现神经网络的反向传播,用于对残差链式求导完成当前卷积层的参数更新;
88.将不同池化层的结果进行上采样,并基于不同池化层的结果,对图像的特征进行优化还原,最终完成各类图像的特征还原,获得对应类别物品图像的特征模型。
89.优选地,步骤s3可进一步细化为如下步骤:
90.s31.获取待检测目标的三维体数据,经处理得到待检测目标的二维切片数据。
91.其中的待检测目标包括多个交叠的物品,且各个物品的物理材质特征不完全相同;交叠指的是多个物品在某些角度的投影中会产生交叉覆盖。
92.其中的处理指的是将待检测目标的三维体数据沿着三维笛卡尔坐标系中的x、y和z方向分别切割成多个固定厚度的切片体数据,即待检测目标的三维切片体数据;然后将各
三维切片体数据分别沿厚度方向进行投影,得到多个二维切片数据,其中,二维切片图像的每一像素点的像素值为三维切片体数据对应位置在厚度方向上各体素的像素值最大值。
93.示例性的,如图2所示,将待检测目标的三维体数据沿着三维笛卡尔坐标系中的z方向切割成多个固定厚度的待检测目标的三维切片体数据;然后将各三维切片体数据分别沿厚度方向,即向x-y平面进行投影,得到多个二维切片数据。
94.具体来说,获取安检设备中生成的3d行李数据作为原始三维体数据;可以理解的是,相同型号的安检设备ct采集的3d数据尺寸一致。实施时,通过执行以下操作得到多个二维切片图像:依据三维笛卡尔坐标系,沿着x、y和z方向分别将所述原始三维体数据切割成固定厚度的切片体数据,并依次进行编号;所述编号包括该切片体数据所属的切割方向和切割顺序编号;将各切片体数据分别沿厚度方向进行投影,得到多个二维切片图像,其中,所述二维切片图像的每一像素点的像素值为切片体数据对应位置在厚度方向上各体素的像素值最大值。根据切片体数据的切割顺序编号可以得到每个二维切片图像的提取位置,也就是保留了深度信息,使得在后续生成切割体数据时能够准确得到完整的体数据。
95.s32.通过预分割网络对二维切片数据进行预分割得到多个单独的待检测子目标,所述待检测子目标与待检测目标中的物品一一对应。
96.其中,如图2所示,预分割网络根据二维切片数据中所包含的高/低能重建图像,电子密度图,原子序数图等ct数据特征,采用深度学习神经网络方法如3drpn算法实现三维物体目标的二维切片数据的预分割。
97.具体来说,首先在原始场景中对二维切片数据进行采样,切片数据包括高/低能重建图像,电子密度图,原子序数图等ct数据特征,提取上述ct数据特征,进行特征融合获得特征图。针对特征图中的每一个中心点,使用卷积来提取特征图的特征,生成一个高维向量。该高维向量对应于原始图像中的某一个区域。然后根据提取的位置和特征,使用全连接层来判断这些区域是背景还是前景,并估算目标中心点的位置,得到检测头区域。计算这些检测头区域距离目标中心点的偏移,再对检测头进行回归偏移,包括对检测头的位置及尺寸进行修正,来确定最终的候选框。根据置信度排序对尺寸越界、较小的目标区域剔除,剩下的目标区域进行nms(非极大值抑制,non maximum suppression)处理得到如图3所示的结果,即多个单独的待检测子目标。
98.值得注意的是,为了便于对本方案进行理解和观察,图3是各个物体之间相互不交叠的情况下预分割的结果,而本方案在工程实践中能够有效处理各个物体之间相互交叠的情况,对其进行预分割,得到多个单独的待检测子目标。
99.优选地,步骤s4可进一步细化为如下步骤:
100.s41.将每个待检测子目标进行多个方向的投影得到多个待检测子目标的二维投影图像。
101.示例性的,如图4所示,对图3中的三个待检测子目标分别进行xy、xz、yz三个方向的投影映射,得到4(a)xy方向、4(b)xz方向、4(c)yz三个方向上三个待检测子目标的投影数据,即二维投影图像。
102.s42.利用预训练的目标检测模型,对每个待检测子目标的二维投影图像进行目标检测识别,获得对应的检测结果。
103.进一步地,利用完成训练的神经网络模型,对每个待检测子目标的二维投影图像
进行图像检测识别,得到包括待检测子目标的二维包围框坐标、目标物类别、置信度的检测结果。
104.示例性的,利用目标检测识别算法,对三个方向三个待检测子目标的共计9组二维投影图像进行目标检测识别,得到如图5(a)、5(b)、5(c)所示的9组检测结果,检测结果包括但不限于二维包围框坐标、目标物类别、置信度等;其中,具体的检测结果为:
105.(a)beverage(confidence=0.996;x1,y1,z1=[95,167];x2,y2,z2=[288,339])
[0106]
nuts(confidence=0.932;x1,y1,z1=[182,197];x2,y2,z2=[362,310])
[0107]
beverage(confidence=0.998;x1,y1,z1=[260,230];x2,y2,z2=[457,315])
[0108]
(b)beverage(confidence=0.967;x1,y1,z1=[95,181];x2,y2,z2=[288,210])
[0109]
nuts(confidence=0.802;x1,y1,z1=[182,87];x2,y2,z2=[362,128])
[0110]
beverage(confidence=0.943;x1,y1,z1=[260,18];x2,y2,z2=[457,53])
[0111]
(c)beverage(confidence=0.992;x1,y1,z1=[95,167];x2,y2,z2=[288,339])
[0112]
nuts(confidence=0.954;x1,y1=[182,197];x2,y2=[362,310])
[0113]
beverage(confidence=0.972;x1,y1=[260,230];x2,y2=[457,315])。
[0114]
优选地,步骤s5可进一步细化:
[0115]
将所述检测结果按照投影时的方向反映射回ct重建图像中,得到各个物品的三维包围框信息,实现对待检测目标的三维目标检测。
[0116]
示例性的,对步骤s42中生成的三个方向三个待检测子目标的二维检测结果,根据步骤s31、s32和s41中三维体数据生成二位投影图像的约束,反向映射回三维体数据,即ct重建图像中,得到三维体数据形式的物品检测结果,即三维目标检测结果,如图6所示,三维目标检测结果包括待检测目标的中每个待检测子目标的三维包围框坐标、目标物类别、置信度等。
[0117]
图6中得到最终的三维检测结果从左往右依次为:
[0118]
beverage(confidence=0.985;x1,y1,z1=[95,167,181];
[0119]
x2,y2,z2=[288,339,210])
[0120]
nuts(confidence=0.896;x1,y1,z1=[182,197,87];
[0121]
x2,y2,z2=[362,310,128])
[0122]
beverage(confidence=0.971;x1,y1,z1=[260,230,18];
[0123]
x2,y2,z2=[457,315,53])
[0124]
其中的beverage、nuts表示目标物类别;confidence表示物品属于该类别的概率,即置信度;x1,y1,z1与x2,y2,z2表示该检测物品在三维空间中两个对角的坐标,即三维包围框坐标。
[0125]
与现有技术相比,本实施例通过预分割网络对二维切片数据进行粗略分割得到多个单独的待检测子目标;将各个待检测子目标进行多个方向的投影得到各个待检测子目标的二维投影图像;对所述二维投影图像进行目标检测识别;将二维投影图像的检测结果通过投影时的方向反映射回ct重建图像中,得到三维包围框信息,实现三维目标检测。
[0126]
其中对二维切片数据通过预分割网络处理是关键,二维切片数据信息包括高低能重建图像,电子密度图,原子序数图,预分割网络算法包括但不限于rpn算法、bms算法、pqtf算法等。
[0127]
其中二维投影图像由于预分割网络的处理,得到的目标物图像没有物体重叠的穿透影响,不同材料的颜色表征性强,图像表达能力好,为神经网络提供了更丰富更多元的特征输入,使得目标检测神经网络在提取复杂特征和数据重建的过程中更加完善,同时能够满足安检的实时性要求。目标检测识别算法包括但不限于faster-rcnn算法、cascade-rcnn算法、yolov5算法等。
[0128]
其中三维包围框信息包括但不限于三维包围框坐标、目标物类别、置信度。不仅能够有效地识别出ct数据的物质组成和物理属性,又能够根据材质和形状纹理信息给出丰富的三维识别信息,从而能够提高对ct三维目标物的识别效果。
[0129]
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
[0130]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1