技术领域
本发明涉及医学图像数据中的解剖对象检测,并且更特别地,涉及使用深度神经网络在医学图像数据中的解剖对象检测。
背景技术:
快速且鲁棒的解剖对象检测是医学图像分析中的基本任务,其支撑来自诊断、患者层化、治疗规划、介入、和后续跟进的整个临床成像工作流程。解剖对象的自动检测是许多医学图像分析任务(例如分割、运动追踪、以及疾病诊断和量化)的先决条件。先前引入边缘空间学习(MSL)来解决医学图像(例如计算机断层(CT)、磁共振(MR)、超声、和荧光图像)中的解剖结构检测和追踪的问题。MSL是高效的判别式(discriminative)学习框架,其通常使用从训练图像提取的手工图像特征来以有监督方式训练用于解剖对象检测的判别式分类器。MSL非常适用于检测各种二维(2D)和三维(3D)医学成像模态中的解剖结构。然而,使用MSL的解剖对象检测并非始终是鲁棒的,特别是对于一些具有挑战性的检测问题,其中解剖对象在医学图像中在解剖结构、形状或外观上呈现大的变化。
技术实现要素:
本公开提供了使用边缘空间深度神经网络进行解剖对象检测的方法和系统。本发明的各实施例将目标解剖对象的参数空间分成具有递增维度的一系列边缘搜索空间。基于带注释的训练数据,针对每个边缘搜索空间训练相应深度神经网络。代替使用手工图像特征,每个深度神经网络直接输入来自训练数据的图像块并且学习高等级域特有图像特征。针对特定边缘搜索空间的经训练深度神经网络可以是判别式的,这是因为它针对搜索空间内给定的假设(hypothesis)来计算搜索空间内该假设正确的概率,或者可提供回归函数(回归器),回归函数针对搜索空间内的每个假设来计算从该假设到搜索空间内对象的预测姿势参数的差值向量。一旦一系列深度神经网络被训练,经训练的深度神经网络就能够被应用于输入医学图像,以检测输入医学图像中的目标解剖对象。
附图说明
图1图示了根据本发明实施例的、针对医学图像中的解剖对象检测来训练一系列深度神经网络的方法;
图2图示了示例性自动编码器神经网络;
图3图示了训练针对特定参数空间的深度多层神经网络回归器;
图4图示了根据本发明实施例的、在具有递增维度的一系列边缘搜索空间内训练一系列深度神经网络;
图5图示了根据本发明实施例的、使用一系列经训练的深度神经网络检测医学图像中的解剖对象的方法;
图6图示了根据本发明实施例的、使用边缘空间深度学习在2D MR图像中检测左心室尖的方法;
图7图示了针对LV尖位置检测的、具有随机旋转的示例性丰富化正训练样本;
图8图示了堆叠式去噪自动编码器(DAE)的第一隐藏层的示例性学习权重;
图9图示了根据本发明实施例的、使用边缘空间深度回归(MSDR)在MR心脏长轴图像中进行左心室(LV)界标检测的方法;
图10图示了各种MR心脏长轴图像中的示例性LV界标;
图11图示了使用图9的方法检测MR图像中LV界标的示例性结果;
图12图示了针对LV尖和二尖瓣环点检测的测试集上检测误差的概率;
图13图示了根据本发明实施例的、通过逼近边缘空间深度神经网络结构来进行解剖对象检测的方法;
图14图示了使用经训练边缘空间深度神经网络结构在全身计算机断层(CT)扫描中的界标检测的示例性结果;以及
图15是能够实施本发明的计算机的高等级框图。
具体实施例
本发明涉及使用边缘空间深度神经网络进行解剖对象检测的方法和系统。本发明的各实施例在本文中描述以给出对于用于解剖对象检测的基于机器学习的方法的直观理解。数字图像通常由一个或多个对象(或形状)的数字表示来组成。对象的数字表示在本文中通常在识别和操纵对象方面来描述。这种操纵是在计算机系统的存储器或其他电路/硬件中实现的直观操纵。因而,应当理解的是,本发明的各实施例可以在计算机系统内使用计算机系统内存储的数据来执行。
边缘空间学习(MSL)是一种高效的判别式学习框架,其能够用于医学图像中的解剖对象检测和追踪,医学图像例如但不限于计算机断层(CT)、磁共振成像(MRI)、超声、和X射线荧光检查。MSL利用具有专家注释的大图像数据库以受监督方式在来自正(对象)和负(非对象)训练样本的边缘特征分布上训练判别式分类器。通过逐渐增加搜索空间的维度并且仅聚焦在正分布区域上来顺序地训练分类器。MSL高效地处理相对于参数空间的维度来说以指数方式增加的假设的数目的问题。给定一幅新的图像,利用经训练的分类器顺序地搜索输入参数空间以发现正确的解剖对象位置。MSL通常使用手工图像特征(例如针对对象位置估计的Haar小波特征,以及针对位置-定向估计和位置-定向-尺度估计的可操纵特征)来实施。尽管这些特征是高效的,但它们的分类能力是弱的。MSL依赖于提升技术,例如使用概率提升树(PBT),以将大量的弱特征整合到强分类器中。虽然MSL非常适用于在各种2D或3D医学成像模态中检测许多解剖结构,但是,当解剖对象的外观相对于参数空间来说是复杂的时,或者当背景和感兴趣解剖对象之间存在很大程度的模糊时,利用标准图像特征在判别式MSL框架中捕获这些分布仍然存在问题。
本发明的各实施例利用直接在图像数据上训练的深度神经网络,而不是从图像数据提取的手工特征,来学习复杂图像模式并基于复杂图像模式检测解剖对象。深度神经网络是基于机器学习的神经网络,其在输入数据和输出数据之间具有学习特征或者变量的多个隐藏层。深度神经网络通常将被实施为具有三个或更多个隐藏层。深度神经网络通常用于直接多类分类情境并且通常不应用于解剖对象检测任务,原因在于,由于需要扫描大的图像参数空间(特别是针对大的2D+时间或3D体积图像),深度神经网络到解剖对象检测任务的延伸在计算上可能是相当复杂的。本发明的各实施例提供了用于利用深度神经网络进行医学图像中的解剖对象检测的计算上高效的方法。
图1图示了根据本发明实施例的、训练用于医学图像中解剖对象检测的一系列深度神经网络的方法。图1的方法利用训练图像数据库在递增维度的一系列边缘搜索空间内训练一系列深度神经网络,从而确定针对医学图像中解剖对象的全姿势参数空间。在可能的实施方式中,图1的方法能够将每个深度神经网络训练为判别式的,其中它针对搜索空间内的给定假设计算搜索空间内该假设是正确的概率。在另一可能的实施方式中,图1的方法能够将每个深度神经网络训练为回归函数(回归器),回归函数针对搜索空间内的每个假设计算从该假设到搜索空间内目标解剖对象的预测姿势参数的差值向量。还可能的是,一个或多个深度神经网络可能是判别式的并且一个或多个深度神经网络可以是回归器。
参照图1,在步骤102,接收训练图像。特别地,装载来自数据库的多幅训练图像。训练图像可以是使用任意医学成像模态获取的2D或3D医学图像,医学成像模态例如但不限于CT、MRI、超声、X射线荧光检查、DynaCT等。训练图像的至少一个子集注释有目标解剖对象的姿势(例如,位置、定向、和尺度)。训练图像也还可包括不带注释的图像。
在步骤104,目标解剖对象的参数空间被分为一系列边缘搜索空间。训练图像中注释的目标对象被参数化并且目标解剖对象的参数空间被分为具有递增维度的一系列边缘搜索空间。例如,针对目标解剖对象的一组参数可以是限定图像中对象姿势的刚性位置(平移)、定向(旋转)和尺度,并且目标解剖对象的参数空间能够被分成位置、位置+定向和位置+定向+尺度的边缘搜索空间。根据带注释的训练图像来确定每个参数空间的范围。针对2D图像中目标对象的参数空间具有五个自由度(两个针对位置、一个针对定向、以及两个针对各向异性尺度),而针对3D图像中目标对象的参数空间具有九个自由度(三个针对位置、三个针对定向、以及三个针对各向异性尺度)。针对2D图像,全参数空间能够表示为(x,y,θ,sx,sy),其中(x,y)表示目标解剖对象的中心位置,θ表示解剖对象的定向或旋转,并且(sx,sy)表示解剖对象在x和y方向的尺度,并且参数空间能够被分为下列边缘搜索空间:(x,y)、(x,y,θ)和(x,y,θ,sx,sy)。针对3D图像,全参数空间能够表示为(x,y,z,θx,θy,θz,sx,sy,sz),其中(x,y,z)表示目标解剖对象的中心位置,(θx,θy,θz)表示解剖对象的定向,并且(sx,sy,sz)表示解剖对象的尺度,并且该参数空间能够被分为下列边缘搜索空间:(x,y,z)、(x,y,z,θx,θy,θz)和(x,y,z,θx,θy,θz,sx,sy,sz)。代替训练深度神经网络以直接检测全参数空间内的目标对象,图1的方法通过训练每个边缘搜索空间中的相应深度神经网络来顺序地训练一系列深度神经网络,以检测目标解剖对象的参数。
在步骤106,针对当前边缘搜索空间生成训练样本。训练样本是图像块,图像块用作当前搜索空间中的假设用于针对该搜索空间训练深度神经网络。对于第一搜索空间(例如,位置),通过从训练图像中选择图像块来生成训练样本。对于训练判别式深度神经网络,第一搜索空间的完全真实(ground truth)图像块被选择作为正训练样本,而随机非完全真实图像块被选择作为负训练样本。例如,在第一边缘搜索空间是目标解剖对象的位置的情形中,以每幅带注释的训练图像中目标解剖对象的完全真实中心位置为中心的图像块被选择作为正训练样本,而定位成距离目标解剖对象的完全真实中心位置超过预定距离(例如,5mm)的一个或多个随机图像块被从每幅带注释的训练图像中随机地选择作为负训练样本。为了将深度神经网络训练为回归器,针对第一搜索空间的训练样本(假设)是选自训练图像中第一搜索空间的范围的图像块。对于后续的边缘搜索空间,通过如下步骤生成针对当前搜索空间的训练样本:使用针对先前搜索空间的经训练深度神经网络评估来自先前搜索空间的训练样本以确定先前搜索空间内的多个候选,并随后利用从训练图像中的当前搜索空间范围采样的当前搜索空间的其他参数来扩充由经训练的深度神经网络在先前的搜索空间内选择的候选。
在步骤108,针对当前边缘搜索空间来训练深度神经网络。在可能的实施例中,针对当前搜索空间的深度神经网络可以是判别式深度神经网络,其将图像的各图像块作为假设并且针对每个图像块计算针对当前搜索空间的图像块参数是针对当前搜索空间内目标解剖对象的参数的概率。在另一可能的实施方式中,第一深度神经网络可训练回归函数,回归函数输入图像的图像块作为假设并针对每个输入图像块计算当前搜索空间内的图像块的参数和当前搜索空间内目标解剖对象的参数之间的差值向量,从而产生当前搜索空间内目标解剖对象的预测参数。
在步骤110,确定针对所有边缘搜索空间的训练是否完成。如果针对所有边缘搜索空间的训练并未完成,则该方法行进至步骤112。如果针对所有边缘搜索空间的训练已完成,则该方法行进至步骤114。在步骤112,该方法行进至下一边缘搜索空间并随后返回到步骤106且重复步骤106、108和110。特别地,当该方法返回步骤106时,使用针对先前搜索空间训练的深度神经网络来评估先前搜索空间内的假设,以确定先前搜索空间内的候选,并且通过利用针对下一搜索空间的附加参数扩充先前搜索空间内的候选来生成针对下一搜索空间的训练样本(假设)。然后训练针对下一搜索空间的深度神经网络,并且重复这些步骤直到针对每个边缘搜索空间训练了相应的深度神经网络。最终的深度神经网络将检测全参数空间内的解剖对象。例如,可以重复步骤108和110以训练第一深度神经网络,从而检测目标解剖对象的位置,训练第二深度神经网络以检测目标解剖对象的位置和定向,以及训练第三深度神经网络以检测解剖对象的位置、定向和尺度。在步骤114,一旦针对所有边缘空间的训练已完成,这一系列经训练的深度神经网络能够用于检测新图像中的解剖对象。在训练阶段中能够离线地执行步骤102-112,并且随后这一系列经训练的深度神经网络能够存储在计算机系统的存储器或存储装置中,并且当接收到新的图像时,能够使用存储的一系列经训练的深度神经网络执行步骤114。当接收到新的图像时,通过将新图像的各图像块输入到第一经训练的深度神经网络中并随后通过这一系列经训练的深度神经网络顺序地处理这些图像块,能够执行解剖对象检测。
在第一实施例中,图1的方法能够用于训练一系列判别式深度神经网络,针对其边缘搜索空间内的给定假设,每个判别式深度神经网络计算搜索空间内该假设正确的概率。用于在递增维度的一系列边缘空间中训练一系列连续的判别式深度神经网络的这种框架能够被称为边缘空间深度学习(MSDL)。在MSDL中,深度学习用于直接从医学图像数据自动学习高等级域特有图像特征。前馈神经网络是具有称为后向传播的高效训练算法的神经网络结构。虽然足够强力以逼近复杂的目标函数,大的前馈神经网络倾向于过拟合训练数据。难以利用良好泛化能力训练具有多于两个隐藏层的网络。在可能的实施例中,无监督的预训练之后进行有监督细调能够用于克服过拟合问题。该技术能够用于训练具有三个或多个隐藏层的网络。预训练能够被视为无监督的学习过程,以从输入图像数据中发现强力的图像特征。诸如自动编码器(AE)或受限玻尔兹曼机(RBM)的各种深度学习技术能够用于预训练隐藏层。图2图示了示例性AE神经网络。如图2中所示,AE 200是具有一个隐藏层204的前馈神经网络。AE200具有输入层L1 202、隐藏层L2和输出层L3 206。如果AE 200是全连接网络,则输入层202中的每个节点能够对应于图像块的相应体素或像素。忽略偏项(在图2中标示为+1的节点),输入和输出层202和206分别具有相同数量的节点。AE的目标是使输入和输出向量之间的差值最小化。如果隐藏层204具有与输入层202相同或比其更大的尺寸,则AE可学习恒等变换(identify transformation)。为了避免这一平凡解,AE能够被建立成具有相比输入层202更少节点的隐藏层204。隐藏层204的节点能够作为偏项和输入层202的节点的加权和的函数来计算,其中相应权重分配给输入层202的节点和隐藏层204的节点之间的每个连接。在AE 200的训练中学习输入层202和隐藏层204之间的权重以及偏项,例如使用后向传播算法。
去噪自动编码器(DAE)可用于学习输入图像数据的更有意义的表达。在DAE中,随机选择一定百分比(例如,50%)的输入节点进行扰动(例如,将值设置为等于0),并且在给定受污染的观测结果的情况下,需要DAE来重构初始输入向量。DAE中的隐藏层可具有多于输入层的节点,以实现过完备(over complete)表示。根据有益的实施例,为了针对特定边缘搜索空间训练判别式深度神经网络(图1的步骤108),在训练AE(或DAE)后,丢弃输出层并使用已经训练的隐藏层的激活响应作为新AE(或DAE)的输入来堆叠另一AE(或DAE)。该过程能够被重复以逐层训练和扩展网络。在可能的实施方式中,在预训练多个隐藏层后,隐藏层的输出能够被视为高等级图像特征并用于训练判别式分类器,以用于检测当前参数空间内的解剖对象。可替代地,针对目标输出的附加层能够被添加至网络,并且可以使用后向传播来细化整个网络。
如上所述,图1的方法使用深度神经网络来训练一系列边缘搜索空间内的姿势分类器,以用于医学图像数据中的解剖对象检测(图1的步骤108)。根据有益的实施方式,堆叠式去噪自动编码器(DAE)能够用于训练一个或多个判别式分类器。然而,本发明并不限于这种特定类型的深度神经网络,并且诸如卷积神经网络(CNN)、堆叠式RBM、或稀疏AE之类的其他类型的深度神经网络也能够用于训练判别式分类器。
在第二实施例中,图1的方法能够使用深度神经网络来训练一系列回归器,回归器中的每一个针对搜索空间内的每个假设来计算从该假设到搜索空间内对象的预测姿势参数的差值向量。这种用于在一系列递增维度的边缘空间内训练一系列连续的深度神经网络回归器的框架能够称为边缘空间深度回归(MSDR)。在MSDR中,从每个边缘搜索空间内的当前假设参数至正确对象参数学习映射函数。映射函数具有对应于当前假设参数的图像块作为输入,以及目标参数偏移作为输出。每个当前假设将通过回归函数产生新的假设,当学习成功时回归函数收敛为正确的对象参数。在新图像中的训练和对象检测这两者期间,回归的假设经过逐渐递增的边缘空间。MSDR相对于传统的判别式学习的可能优势在于MSDR极大地利用了背景信息,MSDR学习比二元分类器更为平滑的输出函数,这改进了鲁棒性,并且通过仅在投射子空间(边缘搜索空间)内进行学习,MSDR是高效的。此外,使用深度神经网络训练的回归函数能够迭代地应用以收敛至正确的参数区域并消除异常值。
在MSDR中,针对特定的搜索空间,通过使用直接从图像块提取相关特征的深度学习人工神经网络结构,解决了从图像数据学习回归函数的复杂问题。根据有益的实施方式,通过经由堆叠深度神经网络结构来学习一个或多个隐藏层,复杂图像模式能够以分层特征编码,如上所述。为了解决针对特定搜索空间的回归问题,在输出层,能够在由已学习的隐藏层提取的神经网络特征上训练离散化多类分类器或线性/非线性回归器。因而,这种深度神经网络回归函数能够在不依赖手工图像特征的情况下来分层编码复杂模式,并且能够利用未标示的数据来预训练下层神经网络(例如,使用堆叠式自动编码器结构或深度信任网络)。这种经训练的深度神经网络回归器还能够解决多类问题。例如,能够通过在输入图像中对已学习参数空间的分层回归搜索以及在最终参数空间内采用最高假设来实现对象检测。从由参考图像中的对象给定的参数集开始,类似地完成对象追踪。
为了训练深度神经网络回归器(图1的步骤108),给定训练图像的数据库,其具有在训练图像的全部或子集中注释的目标对象,将对象位置(姿势)参数化并建立边缘空间层次,如上文在步骤104中所述。如上文在步骤106中所述,在当前搜索空间中生成假设。针对第一搜索空间,直接从当前范围生成假设,并且针对其他搜索空间,从当前假设集合生成该假设,当前假设集合扩充有从当前对应范围采样的附加参数。给定针对当前搜索空间的假设集合,训练深度多层神经网络,其具有作为输入的由对应假设参数参数化的子图像(图像块),以及作为输出的针对当前搜索空间的目标解剖对象的目标或完全真实参数和当前参数之间的差值。图3图示了针对特定参数空间来训练深度多层神经网络回归器。如图3中所示,P是当前参数空间(边缘空间),P(2)是参数空间中假设的参数,根据该参数,从图像空间I中的第i图像生成图像块Ii(P(2))。使用参数化的图像块作为输入给多层深度神经网络300,并通过当前参数空间P内假设参数P(2)和完全真实参数P(1)之间的参数差dp(2)以及可选择地通过置信度量,给出有监督的输出。能够基于与完全真实量(在该情形中,P(1)是有注释的参数集)的差值直接训练深度神经网络300,或者能够基于训练图像中对于完全真实量的偏移来训练深度神经网络300。深度神经网络300具有输入层302、多个隐藏层304和306,以及输出层308。输入层302直接输入与针对当前参数空间的假设的参数对应的图像块。能够训练隐藏层304和306,从而通过在无监督的预训练阶段中堆叠多个深度神经网络结构来从输入图像块中分层地提取特征。输出层308计算针对每个输入图像块的假设参数和针对当前参数空间的目标解剖对象的参数之间的偏移向量。所估计的图像块与针对解剖对象位置的完全真实图像块的距离的倒数用于训练置信分数。
针对深度神经网络结构和训练,能够使用各种类型的神经网络,例如卷积神经网络(CNN)、堆叠式受限玻尔兹曼机(RBM)、或堆叠式自动编码器(AE)。在RBM或AE的情形中,在使用带注释的训练图像的子集进行有监督训练之前,我们能够使用所有可用训练图像(包括不带注释的训练图像)以无监督方式预训练网络,以确定表征来自大数据库的数据类别的代表性特征。在有益的实施例中,在两个阶段中使用堆叠式去噪自动编码器(DAE)训练深度神经网络。第一阶段是无监督的,其中训练多层深度神经网络的每一层以重构输入。在该阶段,类似于输入的虚拟层被添加至输出并且在该虚拟层中使到输入的误差最小化,从而针对每个隐藏层的节点学习权重。第二阶段是有监督的,并且相对于从预训练网络权重开始的输出训练数据,使整个网络误差最小化。DAE的一个特性是:在训练期间它随机下降一定百分比(高达50%)的输入,这显著增加了所产生的分类器或回归器的鲁棒性。能够使用线性函数直接回归输出参数空间,或者输出参数空间能够相对于参数空间被离散化并作为多类分类问题被解决。第二种构想的优势在于它能够直接编码输出概率并且能够例如针对不同的解剖对象生成多个假设。
随后,针对当前参数空间的当前假设的集合通过经训练的深度神经网络传播,并且在可能的实施例中,能够使用相同的深度神经网络或者通过新训练的深度神经网络来迭代地细化新的假设集合。这一迭代过程能够排除远离解(非重叠)的样本并生成更接近真实位置的样本以提高精度。图3示出了这一迭代过程的结果。如图3中所示,在第一次迭代中,针对当前假设参数P(2)的图像块Ii(P(2))被输入至深度神经网络300,并且由深度神经网络300输出的偏移向量dp(2)将假设参数P(2)映射至目标参数P(1)。在第二次迭代中,参数P(1)随后被返回输入至深度神经网络300中,从而细化估计的目标参数,并且深度神经网络330输出偏移向量,偏移向量将参数P(1)映射至细化的目标参数P(0)。一旦针对特定边缘搜索空间的假设行进穿过经训练的深度神经网络,新的假设集合就被扩充有来自后续边缘空间的新的参数,并且针对后续边缘空间重复该过程。这产生了针对每个边缘空间的相应经训练的深度神经网络回归器。
图4图示了根据本发明实施例的、在具有递增维度的一系列边缘搜索空间中训练一系列深度神经网络。特别地,图4的方法提供了:当医学图像中的解剖对象的参数空间被分为位置、位置-定向、和位置-定向-尺度的边缘搜索空间时,用于训练一系列深度神经网络以用于医学图像中的解剖对象检测的详细方法。参照图4,在步骤402,接收训练图像。图4的步骤402能够类似于图1的步骤102实施。训练图像可以是2D或3D图像,这取决于成像模态和待检测的解剖对象。图4的描述假定图像为3D图像并且将图像的元素称为体素。应当理解的是,图4的方法也能够类似地应用于2D图像,并且在整个对图4的描述中,术语“像素”能够替代“体素”。
在步骤404,训练第一深度神经网络,以基于训练图像检测位置候选。在可能的实施方式中,第一深度神经网络可以是判别式深度神经网络,其输入图像的体素作为假设并且针对每一个体素计算以该体素为中心的图像块是感兴趣对象的概率。在该情形中,训练图像中的解剖对象的完全真实位置能够用作正训练样本,并且距训练图像中的完全真实位置超过预定距离的随机选择的位置能够被用作负训练样本。在另一可能的实施方式中,第一深度神经网络可训练回归函数,回归函数输入图像的体素作为假设并针对每个输入计算差值向量,从而产生针对每个输入体素计算得到的预测位置。在该情形中,可以从每幅训练图像随机选择多个位置假设,其中与训练图像中目标解剖对象的位置的完全真实偏移对于每个位置假设而言是已知的。如上所述,能够在两个阶段中训练第一深度神经网络(判别式或回归器),所述两个阶段包括用于从输入图像块学习复杂特征的隐藏层的无监督预训练(例如,使用堆叠式DAE)以及基于由隐藏层提取的特征和带注释的训练样本进行输出层的有监督训练。
在步骤406,训练样本穿过经训练的第一深度神经网络,并且保留多个最佳位置候选。对于判别式深度神经网络,具有由经训练的第一深度神经网络计算的最高概率的多个位置假设能够被保留作为针对每幅训练图像的位置候选。对于深度神经网络回归器,可以针对每个差值向量计算置信分数,或者由经训练的第一深度神经网络计算每个预测位置,并且具有最高置信分数的多个预测位置被保留作为位置候选。
在步骤408,位置候选扩充为具有定向参数,以生成位置-定向搜索空间内的假设。例如,通过把以位置候选为中心的每个图像块旋转至多个可能的旋度,可以生成针对每个位置候选的多个位置-定向假设。通过带注释的训练数据中完全真实对象的定向范围能够确定这些旋度的范围。
在步骤410,训练第二深度神经网络,从而基于位置-定向假设来检测位置-定向候选。在可能的实施方式中,第二深度神经网络可以是判别式深度神经网络,其输入图像的对应于位置-定向搜索空间内的假设的图像块,并针对每个图像块计算该图像块是感兴趣对象的概率。在另一可能的实施方式中,第二深度神经网络可训练回归函数,回归函数输入图像的对应于位置-定向搜索空间内的假设的图像块,并针对每个输入计算位置-定向参数空间内的差值向量,从而产生预测位置和定向以及图像中的对应图像块。能够在两个阶段中训练第二深度神经网络(判别式或回归器),所述两个阶段包括:隐藏层的无监督预训练(例如,使用堆叠式DAE),用于从对应于位置-定向假设的输入图像块学习复杂特征;以及基于由隐藏层提取的特征和位置-定向假设的输出层的有监督训练。因而,仅基于从使用第一经训练的深度神经网络检测到的位置候选生成的位置-定向假设来训练第二深度神经网络。
在步骤412,位置-定向假设经过经训练的第二深度神经网络,并且保留多个最佳位置-定向候选。对于判别式深度神经网络,具有由经训练的第二深度神经网络计算的最高概率的多个位置-定向假设能够被保留作为针对每幅训练图像的位置-定向候选。对于深度神经网络回归器,对应于具有最高置信分数的预测位置和定向的多个图像块被保留作为位置-定向候选。
在步骤414,位置-定向候选被扩充为具有尺度参数,以生成位置-定向-尺度搜索空间内的假设。例如,通过将对应于位置-定向候选的每个图像块缩放至多个可能的尺度,能够针对每个位置-定向候选生成多个位置-定向-尺度假设。这些尺度的范围由带注释的训练数据中完全真实的对象的尺度范围来确定。
在步骤416,训练第三深度神经网络,从而基于位置-定向-尺度假设来检测感兴趣对象的全参数集(位置-定向-尺度)。在可能的实施方式中,第三深度神经网络可以是判别式深度神经网络,其输入图像的对应于位置-定向-尺度搜索空间内的假设的图像块,并且针对每个图像块计算该图像块是感兴趣对象的概率。在另一可能的实施方式中,第三深度神经网络可训练回归函数,回归函数输入图像的对应于位置-定向-尺度搜索空间内的假设的图像块,并针对每个输入计算位置-定向-尺度参数空间内的差值向量,从而产生预测的位置、定向和尺度以及图像中的对应图像块。能够在两个阶段中训练第三深度神经网络(判别式或回归器),该两个阶段包括:隐藏层的无监督预训练(例如,使用堆叠式DAE),用于从对应于位置-定向-尺度假设的输入图像块学习复杂特征;以及输出层的有监督训练,基于由隐藏层提取的特征和位置-定向-尺度假设。因而,仅基于从使用第二经训练的深度神经网络检测到的位置-定向候选生成的位置-定向-尺度假设来训练第三深度神经网络。
图5图示了根据本发明实施例的、使用一系列经训练的深度神经网络来检测医学图像中解剖对象的方法。图5的方法能够使用利用图4的方法所训练的一系列深度神经网络来执行。参照图5,在步骤502,接收患者的医学图像。医学图像可以是2D或3D的,并且能够使用任意类型的医学成像模态(例如但不限于CT、MRI、超声、X射线荧光检查、DynaCT等)来获取。医学图像能够直接从图像获取设备(例如CT扫描器、MRI扫描器等)接收,或者能够通过装载来自计算机系统的存储器或存储装置的先前获取的患者的医学图像来接收。图5的描述假定医学图像是3D图像,并且将医学图像的元素称为体素。应当理解的是,图5的方法也能够类似地应用于2D图像,并且在整个对图5的描述中,术语“像素”能够替代“体素”。
在步骤504,使用第一经训练的深度神经网络在医学图像中检测位置候选。第一深度神经网络直接对医学图像的体素进行操作,而不是对从医学图像提取的手工特征进行操作。第一深度神经网络输入以该医学图像的体素为中心的图像块,并基于输入图像块计算医学图像中的多个位置候选。第一深度神经网络能够评估医学图像中的每个体素或者医学图像中体素的子集,从而计算位置候选。在可能的实施方式中,第一经训练的深度神经网络可以是判别式深度神经网络,其输入以医学图像的体素为中心的图像块,并针对每个体素计算该体素是目标解剖对象的中心位置的概率。在这种情形中,具有由第一经训练的深度神经网络计算的最高概率的多个位置候选被保留。在另一可能的实施方式中,第一深度神经网络可训练回归函数,回归函数输入以该医学图像的体素为中心的图像块,并针对每个体素计算差值向量,以产生针对每个输入体素计算的解剖对象的预测中心位置。在这种情形中,第一经训练的深度神经网络还能够针对每个预测位置计算置信分数,并且保留具有最高置信分数的多个预测位置。
在步骤506,由第一经训练的深度神经网络检测到的位置候选被扩充为具有定向参数,以生成位置-定向假设。例如,通过将以位置候选为中心的每个图像块旋转至从针对目标解剖对象的定向的预定范围采样的多个可能的定向,能够针对每个所检测到的位置候选生成多个位置-定向假设。能够通过带注释的训练数据集中完全真实对象的定向范围来确定定向的预定范围。应当指出的是,在这种情形中,其中步骤508中用于检测位置-定向候选的第二经训练的深度神经网络是经训练的深度神经网络回归器,在一些实施方式中,利用定向参数对位置候选的扩充可以不执行。尽管附加的位置-定向假设可以导致位置-定向估计的精度增加,但是因为经训练的深度神经网络回归器将预测目标解剖对象的位置和定向以及针对对应于位置候选的每个输入图像块的对应目标图像块,经训练的深度神经网络回归器能够直接对对应于位置候选的图像块运行,并且不必将位置候选扩充为具有多个定向参数。
在步骤508,使用第二经训练的深度神经网络从位置-定向假设来检测位置-定向候选。第二深度神经网络直接对医学图像的对应于位置-定向假设的图像块进行操作。第二深度神经网络输入对应于位置-定向假设的图像块并基于输入图像块来计算医学图像中的多个位置-定向候选。在可能的实施方式中,第二经训练的深度神经网络可以是判别式深度神经网络,其输入对应于位置-定向假设的图像块并针对每个位置-定向假设计算对应图像块是目标解剖对象的概率。在这种情形中,保留具有由第二经训练的深度神经网络计算出的最高概率的多个位置-定向候选。在另一可能的实施方式中,第二深度神经网络可训练回归函数,回归函数输入对应于位置-定向候选的图像块并针对每个图像块计算差值向量,从而产生解剖对象的预测位置和定向以及针对每个输入的位置-定向假设计算的对应预测图像块。在这种情形中,第二经训练的深度神经网络还能够针对每个预测图像块计算置信分数,并且具有最高置信分数的多个预测图像块被保留作为位置-定向候选。
在步骤510,由第二经训练的深度神经网络检测到的位置-定向候选被扩充为具有尺度参数,以生成位置-定向-尺度假设。例如,通过将对应于位置-定向候选的每个图像块缩放至从针对目标解剖对象的尺度的预定范围采样的多个可能的尺度,能够针对每个检测到的位置-定向候选来生成多个位置-定向-尺度假设。尺度的预定范围能够由一组带注释的训练数据中完全真实对象的尺度的范围来确定。应当指出的是,在用于在步骤508中检测目标解剖对象的全参数集的第三经训练的深度神经网络是经训练的深度神经网络回归器的情形中,利用尺度参数对位置-定向候选的扩充在一些实施方式中可以被执行。尽管附加的位置-定向-尺度假设可以导致全参数集估计的精度增加,但是因为经训练的深度神经网络回归器将预测目标解剖对象的位置、定向和尺度以及针对对应于位置-定向候选的每个输入图像块的对应目标图像块,经训练的深度神经网络回归器能够直接对对应于位置-定向候选的图像块运行,并且不必将位置-定向候选扩充为具有多个尺度参数。
在步骤512,使用第三经训练的深度神经网络从位置-定向-尺度假设检测目标解剖对象的全参数集(位置、定向、和尺度)。第三深度神经网络直接对对应于位置-定向-尺度假设的医学图像的图像块进行操作。第三深度神经网络输入对应于位置-定向-尺度假设的图像块,并基于输入图像块计算全参数集,全参数集限定医学图像中解剖对象的姿势。在可能的实施方式中,第三经训练的深度神经网络可以是判别式深度神经网络,其输入对应于位置-定向-尺度假设的图像块,并针对每个位置-定向-尺度假设来计算对应图像块是目标解剖对象的概率。在这种情形中,对应于具有由第三经训练的深度神经网络计算的最高概率的位置-定向-尺度假设的图像块能够被输出作为针对解剖对象的检测结果。还可能的是,对应于具有最高概率的位置-定向-尺度的多个图像块能够被聚类以生成针对解剖对象的最终检测结果。在另一可能的实施方式中,第三深度神经网络可训练回归函数,回归函数输入对应于位置-定向-尺度假设的图像块并针对每个图像块计算差值向量,从而产生解剖对象的预测位置、定向、和尺度以及针对每个输入位置-定向-尺度假设计算的对应预测图像块。在这种情形中,第三经训练的深度神经网络还能够针对每个预测图像块计算置信分数,并且具有最高置信分数的图像块随后能够被输出作为针对解剖对象的检测结果。还可能的是,具有最高置信分数的多个预测图像块能够被聚类以生成针对解剖对象的最终检测结果。
所检测到的解剖对象能够显示在计算机的显示设备上,例如,通过显示医学图像以及使用具有检测到的位置、定向、和尺度的边界框指示医学图像上目标解剖对象的姿势。根据有益的实施例,图5的方法能够扩展到目标解剖对象的分割。例如,目标解剖对象的均值模型(例如,3D网孔)能够根据一组带注释的训练数据来计算,并且一旦在医学图像中检测到目标解剖对象的全参数(位置、定向、和尺度),就可以使用目标解剖对象的检测到的位置、定向和尺度把均值模型严格配准至医学图像,从而产生医学图像中目标解剖对象的分割模型。在这种情形中,在将均值模型配准至医学图像后,能够执行局部边界细化。在局部边界细化中,通过使用经训练的边界检测器沿垂直于模型表面的线在两个定向上评估各个点来细化目标解剖对象的分割模型的每个边界点。细化模型能够随后使用活动(active)形状模型被投影至目标解剖对象的经学习的形状空间。使用经训练的边界检测器细化模型以及将细化模型投影至经学习的形状空间的步骤能够被迭代直至收敛,或者进行预定数量的迭代。在可能的实施方式中,经训练的边界检测器可以是深度神经网络,其直接应用于图像数据。可替代地,经训练的边界检测器能够使用从图像数据提取的手工特征,例如可操纵特征。
图4和5的方法描述了针对一个实施例的训练一系列深度神经网络以及使用经训练的这一系列深度神经网络的解剖对象检测,在该实施例中针对解剖对象的姿势的参数空间被分为位置、位置-定向、和位置-定向-尺度的边缘搜索空间。然而,本发明并不限于这些特定的边缘形状空间。例如,这些方法能够类型地使用位置、位置-尺度、和位置-尺度-定向的边缘形状空间来执行。应当理解的是,本发明的各实施例能够应用于具有递增维度的任意系列的边缘搜索空间。
图1和4的方法针对每个边缘形状空间来训练深度神经网络。在一个可能的实施方式中,每个经训练的深度神经网络是判别式深度神经网络。在另一可能的实施方式中,每个经训练的深度神经网络是深度神经网络回归器。其他混合实施方式也是可能的,其中判别式深度神经网络和深度神经网络回归器针对边缘搜索空间中不同的边缘搜索空间被使用,或者其中深度神经网络(判别式或回归器)针对边缘搜索空间中的一个或多个被使用,并且另一类型的分类器针对边缘搜索空间中的一个或多个被训练。
图6图示了根据本发明实施例的、使用边缘空间深度学习在2D MR图像中检测左心室尖的方法。图6的方法提供了应用深度神经网络来检测2D MR图像中左心室(LV)尖的示例。根据各种可能的实施方式,图6的方法能够使用针对每个边缘搜索空间的判别式深度神经网络、使用判别式深度神经网络和深度神经网络回归器两者、或者使用具有其他类型分类器的判别式深度神经网络来实施。尽管图6的方法被描述为在2D MR图像中检测LV尖,但应当理解的是,该方法的各种变型能够类似地被应用于其他解剖对象和其他2D或3D成像模态。参照图6,在步骤602,接收2D MR图像。2D MR图像可以是患者心脏区域的MR图像。2D MR图像可以直接从MR扫描器接收或者可以通过装载先前获取的患者的2D MR图像来接收。
在步骤604,使用经训练的判别式深度神经网络在2D MR图像中检测LV尖位置候选。基于其中LV尖被注释的训练图像来对经训练的判别式深度神经网络进行训练。对于每幅训练图像,以带注释的LV尖为中心的图像块(例如,32×32像素)被视为正训练样本,并且距离带注释的LV尖超过预定距离(例如,5mm)定位的相同尺寸的另一图像块则被随机选择作为负训练样本。如上所述,能够使用无监督的预训练阶段来训练判别式深度神经网络,在无监督的预训练阶段中训练隐藏层(例如,使用堆叠式DAE),以便从输入图像块学习复杂特征,然后是基于由隐藏层提取的特征和带注释的训练样本有监督地训练输出层,从而针对每个输入图像块来计算概率并基于该概率将输入图像块分类为正或负。
在由本发明人执行的示例性测试中,使用来自184名患者的7961幅2D MR图像的训练集。75%的训练图像被随机选择以用于训练(来自139名患者的5970幅图像)以及25%用于测试(来自46名患者的1991幅图像)。在该实验中,来自同一患者的图像出现在训练集或者测试集中,但是并不是二者都有(患者方面交叉验证)。对于每幅训练图像,以带注释的LV尖为中心的32×32像素的图像块被选择作为正训练样本,并且距离带注释的LV尖超过5mm定位的相同尺寸的另一图像块被随机选择作为负训练样本。利用均衡的正/负训练样本,基于使用概率提升树(PBT)从训练图像提取的Haar小波特征训练的传统MSL位置分类器达到针对LV尖位置检测的30%的测试误差。可以基于非常大数量的负样本训练MSL位置分类器。当基于从训练集中随机选择的1千万负训练样本训练MSL位置分类器时,MSL位置分类器的测试误差减小到23%。基于初始输入块(使用原始图像强度作为具有32×32=1024特征的特征)训练的支持向量机(SVM)达到13%的测试误差。CNN达到16.9%的误差。具有基于训练样本训练的尺寸为1024-1024-300-100-2的层的堆叠式DAE(SDAE)达到7.3%的测试误差,这显著地优于其他分类方案。
在2D MR图像中检测LV尖位置的主要挑战在于:LV定向存在大的变化,这导致LV尖的外观基于MR图像的定向具有大的变化。根据有益的实施方式,通过将以完全真实LV尖位置为中心的每个图像块旋转至多个可能的旋度,可以生成针对LV尖检测的附加正训练样本。例如,针对每幅训练图像,除了以带注释的LV尖位置为中心的初始图像块以外,以带注释的LV尖位置为中心的九幅随机旋转的图像块能够用作正训练样本。图7图示了用于LV尖位置检测的具有随机旋转的示例性丰富化正训练样本。如图7中所示,每一列示出了从一幅训练图像取得的10个正训练样本。每一列中的顶部图像块是以针对训练图像的LV尖位置为中心的初始图像块,并且每一列中的其他图像块是随机旋转的图像块。负训练样本并不旋转。然而,由于从每幅训练图像选择了更多的正训练样本,十个负训练样本能够从每幅训练图像被随机采样,从而使正和负训练样本的数量均衡。通过训练SDAE以用于在由本发明人执行的这次实验中使用丰富化的训练样本来检测LV尖位置,测试误差从7.3%减小到3.1%。如上所述,深度神经网络的经训练的隐藏层直接从输入图像块学习高等级图像特征。图8图示了堆叠式去噪自动编码器(DAE)的第一隐藏层的示例性学习权重。图8中示出的学习权重能够被视为用于提取高等级图像特征的滤波器。图8中示出的一些滤波器(学习权重)类似于Gabor特征,而一些滤波器(在图8中以边框突出显示)是具有不同定向的LV尖的特定检测器。
一旦训练了判别式深度神经网络位置检测器,经训练的判别式深度神经网络就用于测试2D医学图像中的每个像素,并且具有最大分类分数(最高概率)的多个(例如,200个)候选被保存为位置候选。在可能的实施方式中,由于LV尖是解剖界标,该方法能够在这一步骤终止并输出由经训练的判别式深度神经网络检测到的位置作为LV尖位置。在这种情形中,能够对检测到的位置候选执行聚类分析并且最大聚类的中心能够用作针对LV尖的最终检测结果。然而,位置-定向和位置-定向尺度检测能够被用作引导分类器,以移除位置检测中的误判。在由本发明人执行的测试中,如果检测到的LV尖远离完全真实位置超过10mm,检测就被认为失败。仅使用利用SDAE训练的位置检测器进行LV尖检测,失败率达到16.3%。为了比较,使用利用手工图像特征(针对位置的Haar小波以及针对位置-定向和位置-定向-尺度的可操纵特征)和PBT训练的整个MSL管路,失败率达21.1%。因而,利用SDAE训练的位置检测器胜过使用手工图像特征的整个MSL管路。在可能的混合方法中,能够使用SDAE来检测针对LV尖的位置候选,并且这些位置候选能够被馈送至使用手工图像特征(可操纵特征)和PBT训练的MSL位置-定向和位置-定向-尺度分类器。使用这种混合方法,达到11.7%的检测失败,这约为初始MSL失败率的一半。
返回图6,在步骤606,基于检测到的位置候选来检测针对LV尖的位置-定向候选。在第一可能的实施例中,能够使用上述的混合方法,其中经训练的深度神经网络替代MSL管路中的位置检测器,并且检测到的位置候选被馈送至使用可操纵特征和PBT训练的MSL位置-定向分类器。在其他可能的实施例中,深度神经网络学习还能够被应用于执行位置-定向估计。
在第二可能的实施例中,类似于如上所述的图5的方法,以每个位置候选为中心的旋转图像块可以被裁剪并被输入至第二经训练的判别式深度神经网络分类器中,第二经训练的判别式深度神经网络分类器被训练为二元分类器,以区分对应于正确假设的图像块和对应于错误假设的图像块。保存具有最优分类分数的多个位置-定向候选。这非常适合于2D图像,因为对于2D旋转仅存在一个自由度。此外,2D图像能够被预旋转至多个可能的定向,并且能够通过从对应的预旋转图像裁剪图像块来生成旋转的图像块。然而,这对于3D来说可能是不现实的,因为对于3D旋转存在三个自由度,并且旋转3D体积是耗时的。
在第三可能的实施例中,可操纵特征能够被用作图像特征,以结合从位置候选生成的位置和定向假设。在任意位置、定向和尺度下,可操纵特征是高效的。在该实施例中,代替使用PBT来训练分类器,深度神经网络能够用于训练用于检测位置-定向候选的判别式分类器,而不基于可操纵特征训练该分类器,并且不是基于输入图像块直接训练分类器。经训练的判别式分类器随后用于基于从检测到的位置候选生成的位置-定向假设的可操纵特征来检测位置-定向候选。
在第四可能的实施例中,位置-定向问题被表达为回归问题,并且经训练的深度神经网络回归器用于基于由经训练的判别式深度神经网络检测的位置候选来检测位置-定向候选。给定对应于位置候选的输入图像块,经训练的深度神经网络回归器能够直接计算目标对象(例如,LV尖)的位置和定向的估计值。此外,经训练的深度神经网络回归器能够被扩充以针对每个估计的目标图像块来输出置信分数。为了训练这一置信分数,使用估计的图像块到完全真实尖端位置的距离的倒数。对于每个保留的位置候选,以该位置候选为中心的对应图像块被输入至经训练的深度神经网络回归器,并且基于输入图像块来预测目标图像块。在该实施例中,不需要旋转对应于位置候选的图像块。经训练的深度神经网络回归器不仅提供了目标对象位置和定向的估计值,还提供了量化估计值可靠程度的置信分数。随后使用置信分数排列估计的位置-定向图像块,并且保留具有最大置信分数的多个位置-定向候选。
在步骤608,基于位置-定向候选来检测针对LV尖的全参数集(位置、定向、和尺度)。这一步骤能够类似于位置-定向估计步骤使用针对该步骤描述的实施例之一来执行。例如,在第一可能的实施例中,检测到的位置-定向候选被馈送至使用可操纵特征和PBT训练的MSL位置-定向-尺度分类器。在第二可能的实施例中,对应于位置-定向候选的每个图像块能够缩放至多个尺度,并且由经训练的判别式深度神经网络评估缩放后的图像块以检测具有最高分类分数的图像块。在第三可能的实施例中,使用可操纵特征训练的判别式深度神经网络能够用于评估处于不同尺度的位置-定向候选。在第四可能的实施例中,经训练的深度神经网络回归器能够用于针对每个位置-定向候选来估计目标位置-定向-尺度图像块,并且具有最高置信分数的目标图像块能够被选择作为最终检测结果。
图9图示了根据本发明实施例的、使用边缘空间深度回归(MSDR)进行MR心脏长轴图像中左心室(LV)界标检测的方法。图9的方法是一系列经训练的深度神经网络回归器用于检测具有递增维度的一系列边缘空间中的多个LV界标的示例。特别地,图9的方法检测MR心脏长轴图像中LV尖的位置以及两个二尖瓣环点。图10图示了各个MR心脏长轴图像中的示例性LV界标。特别地,图10在三幅MR长轴图像中示出了以LV中心位置为中心的LV边界框1002、LV尖1004、以及二尖瓣环点1006和1008。该检测问题的一个困难是MR图像的大外观和参数变化性特性。能够考虑所有类型的长轴视图(例如,4腔视图,2腔视图,和3腔视图),这增加了该问题的难度。
参照图9,在步骤902,接收MR图像。MR图像可以是任意长轴视图(例如,4腔视图,2腔视图,或3腔视图)的2D MR长轴图像。MR图像可以从MR扫描器直接接收,或者通过装载来自计算机系统的存储器或存储装置的先前存储的MR图像来接收。在步骤904,使用第一经训练的深度神经网络回归器检测MR图像中的LV中心位置。在步骤906,使用第二经训练的深度神经网络回归器,基于检测到的LV位置来检测LV定向。在步骤908,使用第三经训练的深度神经网络回归器,基于所检测到的LV位置和定向来检测LV尖和二尖瓣环点的位置。代替在位置、位置-定向、和位置-定向尺度的边缘搜索空间中检测医学图像中的单个解剖对象,图9的方法在如下系列的边缘搜索空间中执行界标检测:LV位置、LV位置和定向、以及包括LV尖和二尖瓣环点的位置的全参数集。也就是说,图9的方法发现LV的位置和定向(在步骤904和906中),并随后使用这一信息来预测LV尖和二尖瓣环点的位置(在步骤908中)。
基于从对应于训练样本位置假设的图像块(例如,32×32像素)到以每幅训练图像中完全真实LV中心位置为中心的图像块的2D偏移来训练步骤904中用于LV位置检测的第一经训练的深度神经网络回归器。使用由旋转至多个不同定向的第一经训练的分类器输出的预测的图像块来训练第二经训练的深度神经网络回归器,从而预测以具有正确LV定向的LV中心位置为中心的图像块。基于对应于三个LV界标(LV尖和二尖瓣环点)中每一个的位置的2D偏移来训练第三经训练的深度神经网络回归器。第三经训练的深度神经网络回归器输入对应于检测到的LV中心位置和LV定向的图像块,并输出:将输入图像块映射至LV尖位置的第一偏移向量、将输入图像块映射至二尖瓣环点之一的位置的第二偏移向量、以及将输入图像块映射至另一个二尖瓣环点的第三偏移向量。在示例性实施方式中,可以针对每个边缘搜索空间训练针对每个参数值的具有离散化多类输出的3级(three level)DAE。经训练的DAE能够限制偏移向量的长度(例如,平移达到24个像素偏移),并且能够反复扫描图像以确定针对每个边缘搜索空间的最终参数集。
图11图示了使用图9的方法检测MR图像中LV界标的示例结果。如图11中所示,图像1100示出了第一检测阶段(图9的步骤904),其中使用第一经训练的深度神经网络回归器来检测LV位置。如图像1100中所示,MR图像中以各个像素为中心的图像块1102和1104被输入至第一经训练的深度神经网络回归器,并且第一经训练的深度神经网络回归器针对每个图像块1102和1104计算从每个图像块1102和1104的中心位置到LV中心位置的相应偏移1106和1108。图像1110示出了参数空间内由第一经训练的深度神经网络回归器检测到的检测到的LV中心位置1112,并且图像1115示出了MR图像中检测到的LV中心位置1112。如本文所述,第一检测阶段(步骤904)检测单个LV中心位置。例如,由第一经训练的深度神经网络回归器检测到的具有最高置信分数的LV中心位置能够被传播至第二检测阶段(步骤906)。在替代实施方式中,多个LV中心位置候选能够被传播至第二检测阶段。在第二检测阶段(步骤906)中,基于由第二经训练的深度神经网络回归器检测到的LV中心位置来检测LV定向。图像1120示出了MR图像,其被旋转为与由第二经训练的深度神经网络回归器检测到的LV旋度对齐。如本文所述,第一检测阶段(步骤904)预测对应于特定LV中心位置和LV定向的图像块。在替代实施方式中,多个LV位置-定向候选能够被传播至第三检测阶段。在第三检测阶段(步骤909)中,基于由第三经训练的深度神经网络回归器检测到的LV中心位置和LV定向来检测LV尖和二尖瓣环点的位置。图像1130示出了参数空间内由第三经训练的深度神经网络回归器检测到的检测到的LV尖位置1132,并且图像1135示出了MR图像中检测到的LV尖位置1132。图像1140示出了由第三经训练的深度神经网络回归器检测到的参数空间内的第一二尖瓣环点1142的检测到的位置,并且图像1145示出了MR图像中第一二尖瓣环点1142的检测到的位置。图像1150示出了参数空间内由第三经训练的深度神经网络回归器检测到的第二二尖瓣环点1152的检测到的位置,并且图像1155示出了MR图像中第二二尖瓣环点1152的检测到的位置。
本发明人使用来自184名患者的7961幅图像的数据库测试了图9的方法,7961幅图像随机分成5970幅图像用于训练(75%的数据,来自138名患者)以及1991幅图像用于测试(25%的数据,来自46名患者)。训练和测试集在患者层面不相交。对于第一和第二边缘搜索空间,原始图像的一半与32×32像素的图像块一起使用。针对每个边缘搜索空间,使用具有针对每个参数值的离散化多类输出的3级DAE(平移达到24个像素偏移)。每幅测试图像被反复扫描以确定最终参数集。图12图示了用于检测LV尖和二尖瓣环点的测试集上检测误差的概率。如图12中所示,80%的测试数据具有小于8mm的误差。表1示出了图9的方法在没有引导的情况下用于检测测试集中LV中心、LV尖、右二尖瓣环点、和左二尖瓣环点的性能。
表1
为了比较,使用传统MSL框架的LV尖检测达到20.39mm的平均误差,4.38mm的中值误差,在80%处11.04mm,以及21.1%的异常值(距完全真实位置大于10mm的误差)。使用MSDR的LV界标检测的性能通过引导结果穿过新训练的多层神经网络来对假设集进行滤波而得到进一步提高。使用标准个人计算机(PC),使用图9的MSDR框架进行测试的检测时间小于2s。
当深度神经网络结构被用于在特定参数空间内进行对象检测的基础分类器时,如上文所描述的实施例中那样,当在高维空间内搜索(例如在容积内的3D位置上搜索)时,由于在针对这种深度神经网络学习的高维度和复杂权重矩阵的情况下扫描,可缩放性可能会受限。这可能要求卷积层以及全连接滤波器,尽管卷积层的操作能够高效执行,例如通过使用快速傅里叶变换(FFT)将卷积通过傅里叶空间进行映射。根据本发明的实施例,用于逼近边缘空间深度神经网络结构的方法能够用于解决这种可缩放性挑战。
图13图示了根据本发明实施例的、通过逼近边缘空间深度神经网络结构进行解剖对象检测的方法。图13的方法能够被应用于使用判别式深度神经网络结构或深度神经网络回归函数结构的对象检测。参照图13,在步骤1302,训练边缘空间深度神经网络结构以用于解剖对象检测。例如,使用上述图1的方法或者图4的方法,可以通过针对具有递增维度的一系列边缘搜索空间训练一系列深度神经网络来训练边缘空间深度神经网络结构。如上所述,通过学习深度神经网络的多层的权重连接节点来训练每个深度神经网络。在步骤1304,计算边缘空间深度神经网络结构的逼近。通过计算每个经训练的深度神经网络的相应逼近来计算边缘空间深度神经网络结构的逼近。通过逼近经训练的深度神经网络的学习权重来计算每个经训练的深度神经网络的逼近。在步骤1306,使用边缘空间深度神经网络结构的逼近而不使用初始训练的边缘空间深度神经网络结构来执行医学图像中的对象检测。
根据各个可能的实施例,可以通过以下方式来执行经训练的深度神经网络权重的逼近(步骤1304):a)低秩张量分解;b)通过更高效特征的逼近;或者c)直接使用稀疏逼近权重矩阵在可拆分低空间(separable low space)中学习权重。使用逼近权重矩阵的目的在于保持已经训练的边缘空间深度神经网络结构的分类性能,同时显著地提高将边缘空间深度神经网络结构应用于输入假设的速度。例如,使用3D中的可拆分张量分解,能够将针对n3个体素与内核k3个体素卷积/利用内核k3个体素滤波的体积的计算复杂度从(k3·n3)阶减小到(k·n3)阶。在解剖对象检测的情境下,边缘空间深度神经网络结构中权重矩阵的逼近能够与基于已经学习的图像特征训练的级联分类器结构相组合。级联能够使用来自第一网络层的特征的贪心递增特征选择来训练并随后微调级联以接近100%真阳性率。
根据可能的实施例,给定已经训练的边缘空间深度神经网络结构,训练权重能够通过低秩张量因子分解方法来逼近(步骤1304)。能够指出的是,在高维度,在不保证全局最优逼近解的情况下,这一任务通常是NP-hard。因而,最低秩张量因子分解方法基于目标张量和它的低秩表示之间的距离函数的迭代优化。优化聚焦于在相等分布噪声下最小化二范数(最小乘方)误差或者低秩分解和目标张量之间的Kullback-Leibler散度。能够使用针对低秩张量因子分解的任意这种方法,以便逼近经训练的深度神经网络的学习权重。在有益的实施方式中,每个经训练的深度神经网络的学习张量权重能够通过固定重构的最小化误差或者秩而被替换为逼近分解。特定经训练的深度神经网络的逼近能够通过下列过程中的一个来迭代细化:(1)在每个满秩训练时期后,投影低秩空间中的每个张量并迭代地重复直到误差保持稳定;或者(2)在每个时期,直接更新低秩空间中的权重并迭代重复直到误差保持稳定。
图14图示了使用经训练的边缘空间深度神经网络结构的逼近在全身计算机断层(CT)扫描中进行界标检测的示例性结果。如图14中所示,使用经训练的边缘空间深度神经网络结构的逼近在全身CT体积中检测目标血管界标1402。在图14的示例中,使用来自206名患者的272个带注释的3D CT体积的数据库,其中204个体积用于训练,68个体积用于测试。在图像上扫描的输入框具有20×20×20mm的尺寸。利用具有下列结构的引导来训练具有卷积层的判别式边缘空间深度神经网络结构:1:具有5×5×5内核的6个卷积层;2:具有2×2×2内核的聚集层;3:具有5×5×5内核的6×12卷积层;4:具有2×2×2内核的聚集层;5:具有两个类的线性分类器层。秩2分解用于逼近边缘空间深度神经网络结构的权重。在该示例中,满秩边缘空间深度神经网络结构达到在2.0%测试数据上的分类器误差。满秩边缘空间深度神经网络结构达到均值为1.38mm、标准差为0.67mm、中值为1.25mm、以及在80%处的误差为1.90mm的训练误差。满秩边缘空间深度神经网络结构达到均值为1.49mm、标准差为1.07mm、中值为1.32mm、以及在80%处的误差为2.06mm的测试误差。边缘空间深度神经网络结构的降秩逼近达到在3.0%测试数据上的逼近分类器误差。边缘空间深度神经网络结构的降秩逼近达到均值为1.34mm、标准差为0.63mm、中值为1.28mm、以及在80%处的误差为1.73mm的训练误差。边缘空间深度神经网络结构的降秩逼近达到均值为1.62mm、标准差为1.36mm、中值为1.36mm、以及在80%处的误差为2.09mm的测试误差。因而,边缘空间深度神经网络结构逼近的性能非常类似于满秩边缘空间深度神经网络结构的性能。然而,降秩逼近的运行时间大大快于满秩边缘空间深度神经网络结构的运行时间。
用于训练一系列深度神经网络、使用经训练的深度神经网络进行解剖对象检测、以及使用经训练的深度神经网络结构的逼近进行解剖对象检测的上述方法能够使用公知的计算机处理器、存储器单元、存储设备、计算机软件、和其他组件在计算机上实施。这种计算机的高等级框图在图15中图示。计算机1502包括处理器1504,其通过执行限定整体操作的计算机程序指令来控制计算机1502的整体操作。计算机程序指令可以存储在存储设备1512(例如,磁盘)中并且当期望执行计算机程序指令时装载到存储器1510中。因而,图1、4、5、6、9和13的方法的步骤可以由存储在存储器1510和/或存储装置1512内的计算机程序指令来限定,并且由执行计算机程序指令的处理器1504来控制。诸如MR扫描设备、CT扫描设备、超声设备、X射线图像获取设备等的图像获取设备1520能够连接至计算机1502,以输入图像数据至计算机1502。可以将图像获取设备1520和计算机1502实施为一个设备。图像获取设备1520和计算机1502还可以通过网络无线通信。在可能的实施例中,计算机1502可定位成远离图像获取设备1520,并且计算机1502可执行作为基于服务器或者云的服务的一部分的方法步骤。计算机1502还包括一个或多个网络接口1506,用于通过网络与其他设备通信。计算机1502还包括其他输入/输出设备1508,其使得用户能够与计算机1502(例如,显示器、键盘、鼠标、扬声器、按键等)交互。这样的输入/输出设备1508可用于与计算机程序集一起用作注释工具从而对从图像获取设备1520接收的体积进行注释。本领域技术人员将意识到,实际计算机的实施还能够包含其他部件,并且图15是处于说明目的的这种计算机的一些部件的高等级表示。
前面的详细描述应当在每个方面理解为是说明性和示例性的,而非限制性的,并且本文公开的本发明的范围并不从详细描述来确定,而是从权利要求如由专利法允许的完整宽度来理解的那样确定。应当理解的是,本文所示和所述的各实施例仅仅是本发明原理的说明,并且本领域技术人员可以在不背离本发明的范围和精神的情况下实施各种修改。本领域技术人员能够在不背离本发明的范围和精神的情况下实施各种其他特征组合。