专利名称:用于自动确定可疑的物体边界的系统和方法
技术领域:
本发明总的涉及用于确定在组织中可疑的物体边界的系统和方法,更具体地,涉及自动确定可疑的物体边界的系统和方法。
计算机辅助检测(CAD)和计算机辅助诊断(CADx)是基于计算机的用于可疑的物体检测和诊断的方法。这些方法被认为比起传统的由放射学家进行的视觉检查执行得更好,因为计算机化的系统具有更精确地看见可疑物体的医疗诊断图像中详细特性的能力。另外,研究者正在不断改进用于CAD和CADx的算法。
虽然开发了许多算法以便使用CAD来检测可疑物体,但执行有效的自动的可疑物体分段提出了很大的挑战,因为可疑物体的边界是非常难检测的,所以这些算法通常给放射学家提供调整边界的能力以确定实际的边界。虽然这看来没有对放射学家造成太多的不方便,但它确实给CADx造成困难。
传统上,CADx是在CAD完成后执行的,它利用来自CAD的输出(尤其是可疑物体分段数据)作为输入,因此使用更正确地检测可疑物体边界的CAD系统,直接有利地影响CADx系统的成功率。CADx系统使用CAD输出数据来生成某些分类器。CADx系统对于CAD数据采用各种分类方案,诸如人工神经网络、Bayesian、判决树等等,以得出诊断。通过以客观方式正确地训练这些分类方案(即,机器学习系统),最终得到的诊断成功率得以提高。
当前的可疑物体检测算法在可疑物体分段方面具有共同的问题算法不可能对于任何给定的可疑物体提供精确的边界定义。原因是简单的;在可疑物体与周围的组织之间的边界不是被清晰地割断的。没有分辨可疑物体像素与边界像素的明确的阈值或算法。算法所能完成的工作是提供参数调整特性(带有一定的可能是最佳的一定的缺省参数值),以供放射学家确定可疑物体边界。所以,计算机从数字图像将可疑物体分段的能力就成为有限的,并且很大地依赖于各个放射学家本人的判断。
在计算建模领域中受到喜爱的算法组是被称为遗传算法(geneticalgorithm)的算法族。遗传算法使用受染色体启示的数据结构来对解进行编码和以保留关键信息的方式把重组合算子施加到这些结构。
图1a和1b显示由FastMarch算法进行分段的乳腺癌肿瘤。如图1a和1b所示,通过调整参数,肿瘤的检测到的形状可以有引人注目的改变。分段的这样的自由度带来以下问题1.它阻碍自动可疑物体分段和自动报告生成。
2.它使得CADx操作复杂化。CADx首先通过使用一组包含具有已知特性(恶性/良性)的可疑物体的例子,这里也称之为基础事实,来训练计算机。然而,如果这些训练例子的分段是由放射学家任意确定的,则基于这些训练例子的机器学习不能生成用于诊断新的可疑物体的最佳性能。
本发明的系统和方法通过建立用于训练数据的相关分段参数的最佳缺省值组而克服这样的问题,并且这些数值可以一致的方式应用到新的可疑物体,用于分段/诊断。
本发明的系统和方法提供了机器学习和遗传算法技术的组合以确定可疑的物体边界。使用机器学习(例如,人工神经网络、Bayesian方法、判决树等等)的概念是根据具有基础事实(一个小瘤通常是恶性还是良性)的大量例子进行学习,以便让计算机预测新的可疑物体的特性。这样的预测的输出将或者是良性/恶性或者是恶性的概率。
假设可疑物体诊断系统具有五个可调整的参数,理论上,对于整个训练数据组,将测试这些数值的每个可能的组合(穷尽方法),以便弄清这样的分段是否导致在机器预测能力与已知的基础事实之间的最接近的匹配。然而,由于实际上参数值的范围是非常大的,通常不可能在可容忍的时间限制内运行这样的算法。所以,本发明使用遗传算法,以合理的时间达到接近最佳的解。
本发明的实施例提供一种使用机器学习和遗传算法的自动确定可疑物体边界的系统和方法。该系统和方法包括至少一个可疑物体识别图像的训练组,这些图像最初用一组随机生成的参数值进行分段。然而,参数值也可以从被存储的一组优选值中进行选择。分段的可疑物体识别图像通过使用图像特性提取算法来进行处理,产生用于机器学习系统的输入数据。随后,机器学习算法通过使用至少一个测试组的可疑物体识别图像来测试。机器学习系统的性能通过比较在测试期间产生的输出与该测试组的已知的基础事实而被评估。性能水平是根据在输出与基础事实之间出现的差值量而被确定,并且被传送到遗传算法以用作为被评估的参数组的拟合程度的度量。
性能水平的可接受性由遗传算法(根据预置值)来确定和被使用来决定是继续还是暂停。如果性能水平是可接受的,则性能值被设置为缺省值,供自动分段使用,然而,如果性能水平是不可接受的,则遗传算法就调整参数值,并通过使用调整的参数值代替以前的参数值再次执行方法步骤。
系统包括处理器,该处理器被配置成用于执行如上所述的方法;以及输入装置(例如,键盘、鼠标等等),硬驱动器和或光学存储装置和显示屏。任选地,可以提供图形用户接口。
本发明的再一个实施例可以是软件应用,一组软件工具,或计算机可执行的指令,用于在个人计算机、工作站、服务器或其它计算装置上执行上述的方法。软件可被存储在诸如磁性媒体、光学媒体、存储卡、和ROM那样的计算机可读的媒体。
另外,软件可以跨越网络执行。在这样的情形下,软件被存储在被联网到一个或多个工作站的服务器中。工作站给操作员提供控制在服务器上执行的软件的能力。
参照以下的说明和附图将更好地理解本发明的这些和其它特性、方面与优点,其中图1a和1b是现有技术的通过使用两个不同组的参数值对乳腺癌可疑物体进行分段的图;图2是显示在执行本发明的实施例时的步骤的流程图;图3是按照本发明的可疑物体诊断系统的图;图4是按照本发明的集成的医疗成像和诊断系统的图;图5是显示按照本发明的用于训练诊断系统的恶性可疑物体的训练例子的图;以及图6是显示按照本发明的用于训练诊断系统的良性可疑物体的训练例子的图。
本发明的实施例执行如图2所示的步骤。过程从步骤201开始,其中选择了一组随机生成的参数值。在步骤202,这组随机生成的参数值被利用来执行一组训练例子的可疑物体的分段。如图5和6所示的训练例子是以前表征过的可疑物体,并具有相应的基础事实的记录,它在以后的步骤中用来对可疑物体边界确定系统的性能进行评价。基础事实可包括诸如可疑物体的恶性肿瘤、形状/轮廓那样的信息。在步骤203,分段的可疑物体由图像特性提取算法来处理。可应用的图像特性的某些例子包括边界周界长度、叠加的和拟合的圆或椭圆的面积、边界边缘的粗糙度、亮度梯度等等。在步骤204,从步骤203输出的生成的特性和特征数据连同基础事实的记录一起被输入到机器学习系统或分类器(例如神经网络)。在步骤205,来自分类器的输出在一组测试例子(被分段和像训练数据那样被提取特性的另一个组可疑物体)上被测试。随后在步骤206,把测试结果(预测的恶性或然率)与该测试例子组的基础事实进行比较。在步骤207,实际的基础事实的数据与测试结果相比较,并且其差值作为性能评价来对待(差值越低,性能越好)。在步骤208,根据预置值确定性能评价是否可接受。如果性能评价被认为是可接受的,则在步骤209,停止遗传算法,以及当前的参数值组连同与它一起最佳地工作的训练的分类器一起被用作为用于自动分段的缺省值。然而,如果性能评价是不可接受的,则在步骤210,遗传算法通过使用几种方法(例如,置换和交叉)的任何一种来调整参数,并从步骤202继续进行整个处理。
使用机器学习和至少一个遗传算法的自动可疑物体边界确定的总的本发明方法包括这样的步骤提供可疑物体识别图像的至少一个训练组,其中至少一个训练组是使用所选择的或随机生成的参数值的组来分段的;以及使用图像特性提取算法来处理分段的可疑物体的识别图像,以便为机器学习系统产生输入数据。该方法还包括这样的步骤通过使用至少一个测试组的可疑物体识别图像和估计机器学习系统的性能来测试机器学习系统。在测试步骤中产生的输出与测试组的已知的基础事实进行比较(即,交叉验证)。根据在输出与基础事实结果之间出现差值的次数和或大小来确定性能水平。该方法还包括根据预置值确定性能水平的可接受性的步骤。如果性能水平是可接受的,则终止遗传算法,以及参数值被设置为在自动分段中使用的缺省值,并且利用这些缺省值来工作的经训练的分类器就被设定。如果性能水平是不可接受的,则遗传算法调整参数值,并通过使用调整过的参数值代替以前的随机生成的参数值从提供的步骤再次开始执行这些方法步骤。
如图3所示,本发明的另外的实施例提供计算机系统300,它具有处理器302、显示屏幕304、和输入装置,诸如键盘306与鼠标308。另外,系统300至少包括媒体存储装置310,例如硬驱动器、CD-ROM、光盘储存器等等。系统还可具有联网的接口312,诸如10/100/1000Base-T或无线IEEE 802.11a/b/c。
计算机系统300被配置成执行计算机可读的指令,以用于执行如上所述的方法。指令可被存储在媒体存储装置310上或可由海量存储装置读出的可移动媒体上。另外,指令可以是可从网络--LAN或因特网--下载的--或可通过网络执行的。
本发明的再一个实施例提供如图4所示的完整的医疗诊断系统400。医疗诊断系统400包括一个或多个医疗成像系统402,例如超声成像、磁共振成像、X射线等等,以及如上所述的计算机系统300。这样的医疗诊断系统400提供用于可疑物体成像、分段和诊断的整体解决方案。
利用机器学习系统和至少一个遗传算法的自动可疑物体边界确定的总的本发明系统包括至少可疑物体识别图像的一个训练组。该至少一个训练组使用一组随机生成的参数值来分段。系统还包括至少一个图像特性提取算法,用于处理经分段的可疑物体的识别图像以产生用于机器学习系统的输入数据;以及可疑物体识别图像的至少一个测试组,以用于测试机器学习系统的输出。该至少一个遗传算法对来自该至少一个测试组的结果进行评估,以便确定机器学习系统的性能水平。如果性能水平是可接受的,则参数值被设置为在自动分段中使用的缺省值。如果性能水平是不可接受的,则遗传算法调整参数值。
本发明的所描述的实施例的用意是作为说明,而不是作为限制,并且不打算代表本发明的每个实施例。可以作出各种修改方案和变例,而不背离如在以下的权利要求中书面上和在法律上承认的等同物方面阐述的本发明的精神或范围。
权利要求
1.一种使用机器学习和至少一个遗传算法自动确定可疑物体边界的方法,所述方法包括以下步骤提供可疑物体识别图像的至少一个训练组,其中所述至少一个训练组通过使用一组初始参数值(201)而被分段(202);通过使用图像特性提取算法处理所述经分段的可疑物体识别图像(203),为机器学习系统产生输入数据;通过使用可疑物体识别图像的至少一个测试组测试所述机器学习系统(205);估计所述机器学习系统的性能(206),其中把在所述测试步骤中产生的输出与所述测试组的基础事实进行比较,所述性能的水平是根据在所述输出与所述基础事实之间出现差值而确定的;以及根据预置值确定所述性能水平的可接受性(207),所述确定由所述至少一个遗传算法来执行,如果性能水平是可接受的(209),则所述参数值被设置为在自动分段时使用的缺省值,如果所述性能水平是不可接受的(210),则所述遗传算法调整所述参数值,并通过使用所述经调整的参数值代替所述随机生成的参数值从所述提供的步骤开始执行所述方法步骤。
2.权利要求1的方法,其中初始参数值(201)是随机生成的。
3.权利要求1的方法,其中初始参数值(201)是由熟悉使用分段算法的操作人员生成的。
4.权利要求1的方法,其中初始参数值(201)是随机生成的和操作员生成的数值的组合。
5.权利要求1的方法,其中所述机器学习系统利用神经网络、自然Bayesian分类器、Bayesian网络、判决树、支持向量机、线性或非线性判别函数中的至少一项。
6.权利要求1的方法,其中所述特性提取算法被配置成用于提取(203)从包含边界周界长度、叠加的和拟合的圆或椭圆的面积、边界边缘的粗糙度、亮度梯度的组中选择的一个或多个特性。
7.权利要求1的方法,其中所述参数值(201)是为一个组中的任何一个或多个参数而提供的,该组包括感兴趣的区域(ROI)中的种子点位置、分段算法、图像预处理、衰减补偿、和边界停止准则。
8.一种利用机器学习系统(300)和至少一个遗传算法的自动确定可疑物体边界的系统,所述系统包括可疑物体识别图像的至少一个训练组,其中所述至少一个训练组通过使用一组初始参数值而被分段;至少一个图像特性提取算法,用于处理所述经分段的可疑物体识别图像以便为所述机器学习系统(300)产生输入数据;可疑物体识别图像的至少一个测试组,用于测试所述机器学习系统(300)的输出;以及用于估计来自所述至少一个测试组的结果的所述至少一个遗传算法,它用于确定所述机器学习系统(300)的性能水平,如果所述性能水平是可接受的,则所述参数值被设置为在自动分段时使用的缺省值,如果所述性能水平是不可接受的,则所述遗传算法调整所述参数值。
9.权利要求8的系统,其中初始参数值是随机生成的。
10.权利要求8的方法,其中初始参数值是由熟悉使用分段算法的操作人员生成的。
11.权利要求8的系统,其中初始地生成的参数值是随机生成的和由人生成的数值的组合。
12.权利要求8的系统,其中所述机器学习系统利用神经网络、Bayesian、和判决树的至少一项。
13.权利要求8的系统,其中所述系统被重新训练和重新测试,直至得到可接受的性能水平为止。
14.权利要求8的系统,其中所述特性提取算法被配置成用于提取从包含边界周界长度、叠加的和拟合的圆或椭圆的面积、边界边缘的粗糙度、亮度梯度等的组中选择的一个或多个特性。
15.权利要求8的系统,还包括医疗成像设备(402),用于对病人成像和给所述机器学习系统(300)提供所述成像的数据,以供以后分段和诊断。
16.权利要求15的系统,其中所述医疗成像设备(402)是从包含MRI、超声和X射线成像系统的组中选择的。
17.一种计算机可读的媒体,存储着用于执行自动确定可疑物体边界的多个计算机可执行的指令所述指令被配置成用于执行以下步骤生成一组初始参数值(201);提供可疑物体识别图像的至少一个训练组,其中所述至少一个训练组通过使用所述随机生成的参数值组而被分段(202);通过使用图像特性提取算法来处理所述经分段的可疑物体识别图像(203),以便为机器学习系统(300)产生输入数据;通过使用可疑物体识别图像的至少一个测试组来测试所述机器学习系统(205);估计所述机器学习系统(300)的性能,其中把在所述测试步骤中产生的输出与所述测试组的基础事实进行比较(206),所述性能的水平是根据在所述输出与所述基础事实之间出现差别的次数而确定的(207);以及根据预置值确定所述性能水平的可接受性(208),所述确定由所述至少一个遗传算法来执行,如果所述性能水平是可接受的,则所述参数值被设置为在自动分段时使用的缺省值(209),如果所述性能水平是不可接受的,则所述遗传算法调整所述参数值(210),并通过使用所述经调整的参数值代替所述随机生成的显示值,从所述提供的步骤开始执行所述方法步骤。
18.权利要求17的计算机可读的媒体,其中所述计算机可读的媒体是从包含磁性媒体、光学媒体、存储卡和ROM的组中选择的。
19.权利要求17的计算机可读的媒体,其中所述指令是可在网络上执行的。
20.一种使用机器学习和至少一个遗传算法的自动确定可疑物体边界的系统,所述系统包括用于提供可疑物体识别图像的至少一个训练组的装置,其中所述至少一个训练组通过使用一组初始参数值(201)而被分段(202);用于通过使用图像特性提取算法来处理所述经分段的可疑物体识别图像(203)以便为机器学习系统(300)提供输入数据的装置;用于通过使用可疑物体识别图像的至少一个测试组测试(205)所述机器学习系统(300)的装置;用于估计所述机器学习系统(300)的性能的装置,其中把在所述测试步骤中产生的输出与所述测试组的基础事实进行比较(206),所述性能的水平是根据在所述输出与所述基础事实之间出现差别的次数而确定的(207);以及用于根据预置值确定所述性能水平的可接受性(208)的装置,所述确定由所述至少一个遗传算法来执行,如果性能水平是可接受的,则所述参数值被设置为在自动分段时使用的缺省值(209),如果所述性能水平是不可接受的,则所述遗传算法调整所述参数值(210),并通过使用所述经调整的参数值代替所述随机生成的参数值从所述提供的步骤开始执行所述方法步骤。
21.权利要求20的系统,其中所述机器学习系统(300)利用神经网络、Bayesian、和判决树的至少一项。
22.权利要求20的系统,其中所述系统被重新训练(204)和被重新测试(205),直至得到可接受的性能水平为止。
23.权利要求20的系统,其中所述特性提取算法被配置成用于提取从包括边界周界长度、叠加的和拟合的圆或椭圆的面积、边界边缘的粗糙度、亮度梯度的组中选择的一个或多个特性。
24.权利要求20的系统,还包括用于对病人进行成像(402)和用于给所述机器学习系统(300)提供所述成像的数据以供以后分段和诊断的装置。
25.权利要求24的系统,其中所述成像装置(402)是从包括MRI、超声和X射线成像系统的组中选择的。
全文摘要
提供一种使用机器学习系统(300)和遗传算法的自动确定可疑的物体边界的系统和方法。机器学习系统(300)通过使用预先分类的例子组而被训练(204)和被测试(205)。遗传算法指定初始参数值(201),估计在测试期间的系统的性能(206),和指定性能评价(207),此后,如果额定值是可接受的,则把当前的机器学习系统的设置值指定为缺省参数(209),用于将来的可疑物体分段。然而,如果性能额定值是不可接受的,则遗传算法调整设置值(210),并通过使用新调整的设置值重新训练系统。
文档编号G06T5/00GK1989524SQ200580025104
公开日2007年6月27日 申请日期2005年7月21日 优先权日2004年7月26日
发明者L·赵, J·D·谢菲尔 申请人:皇家飞利浦电子股份有限公司