本发明涉及ai(artificialintelligence,人工智能)医疗领域,尤其涉及一种人工智能辅助诊断系统、诊断方法。
背景技术:
深度神经网络已经在医学影像的诊断,预测和评估等方面取得了卓越的表现。尽管如此,决策机制缺乏透明性和抽象特征的难以理解性,使其正遭受广泛质疑,并也会影响其在临床实践中的应用和推广,因为临床医学要求可解释性。为此,我们试图建立深度学习系统的输出结果和医师的可理解性概念如放射组学特征之间的联系。因此,我们提出了改进的深度学习抽象特征可解释化方案:利用深度神经网络输入特征向量对输出准确性权重影响的排序来反向推出输入特征向量权重的排序,从而得到对深度学习系统影响权重最大的几个放射组学特征。
例如肺癌的病期决定了患者的预后方案,而准确的临床分期是肺癌治疗方案制定的重要依据。但是,目前肺癌分型及分期的方法存在局限性,首先,肺癌分型的依据为活检或手术的组织学,具有创伤性和滞后性;其次,影像医师对肺癌进行分期具有主观性,如肺癌对周围组织的侵犯的判断依靠经验;最后,肺癌分期中淋巴结转移的ct评价主要靠淋巴结直径分析,但淋巴结大小并非是判读是否存在转移的唯一标准,其与淋巴结密度、强化特征、生物学性质等特征有关。故淋巴结转移的评价指标过于单一化。
采用基于深度神经网络技术的人工智能(ai,artificialintelligence)的方法可以建立影像组学、基因组学与肺癌分型分期中的相关性,有效弥补医师评估的主观性,滞后性、分析指标单一化等方面的不足。但是,深度神经网络是一套非线性的复杂关系模型,其优点是可以逼近任何函数,在近似值和精确度上均有较好的表现,但是这种复杂关系模型无法捕捉网络生成和输出的运作方式,即深度神经网络是一个“黑匣子”,其能提供准确的结果,但无从解释得到该结果的依据。
在临床上,这个“黑匣子”带来的困扰表现在:其一,临床实践要求可解释性。可解释性在癌症的诊断、分型和分期中尤其重要。以肺癌为例,因为肺结节计算机辅助诊断的研究有较长的历史,有大量放射组学的文献提取了大量特征来做肺癌的早期诊断,医生对于这些图像的特征也比较熟悉,如果要借助智能系统获得补充性诊断意见,这就首先要求人工智能系统能够生成医生能理解的影像特征。其二,在医学实践中,缺乏可解释性易造成信任危机,而不良的医患关系会影响深度学习的神经网络系统(人工智能系统)的推广和应用。
技术实现要素:
为了解决上述的“黑匣子”困扰,本发明力求建立深度神经网络中的抽象的特征参数和医生可解释性概念之间的联系,即映射关系,从而让医生能够理解并且解释深度神经网络做出的决策。
本发明的目的在于提供一种人工智能辅助诊断系统,用于辅助肿瘤分期/分型。包括存储一组指令的至少一个存储介质以及配置成与所述至少一个存储介质通信的至少一个处理器,当所述处理器执行所述一组指令时,所述人工智能辅助诊断系统被配置为:
获取肿瘤分期/分型的原始影像数据;
更改所述影像数据中的一个影像组学特征,得到更改后的影像数据;
将更改前后的影像数据分别输入同一可信的分类神经网络,以获取所述原始影像数据和所述更改后的影像数据的肿瘤分期/分型结果;
累计多次所述分期/分型结果的准确率,并计算所述原始影像数据和所述更改后的影像数据的准确率之差;
根据所述准确率之差建立影像组学特征和所述分类神经网络决策选择之间的映射关系。
上述的人工智能辅助诊断系统中,当所述处理器执行所述一组指令时,所述人工智能辅助诊断系统还被配置为:根据所述映射关系解释所述分类神经网络的决策结果。
本发明的另一目的在于提供一种人工智能辅助诊断方法,包括如下步骤:
p1、获取肿瘤分期/分型的原始影像数据,并输入一可信的分类神经网络,以获得所述原始影像数据的肿瘤分期/分型结果;
p2、更改所述原始影像数据的一个影像组学特征,并输入所述分类神经网络,以获得更改后的影像数据的肿瘤分期/分型结果;
p3、以所述原始影像数据为标准数据,分别计算步骤p1和p2所得的结果的准确率,所述准确率分别记为acc和acci;
p4、重复步骤p1-p3,其中,步骤p2中选取另一影像组学特征;
p5、计算acc和acci之差δacci,并排序,然后根据该排序赋予δacci不同的权重;
p6、按步骤p5的权重建立δacci与所述影像组学特征之间的映射关系,从而得出所述影像组学特征与所述分类神经网络决策选择之间的映射关系。
上述的人工智能辅助诊断方法中,按以下步骤建立映射:
首先,记录步骤p2中所述的影像组学特征与步骤p3中acci的映射关系;
其次,推知步骤p2中所述的影像组学特征与步骤p5中δacci的映射关系;
最后,根据排序后的δacci的权重推知步骤p2中所述的影像组学特征与所述分类神经网络决策选择之间的映射关系。
上述的人工智能辅助诊断方法中,步骤p1中包括图像预处理步骤:对目标器官进行标注,以排除无用信息。
上述的人工智能辅助诊断方法中,步骤p1、p2中包括同一目标器官多体位的影像数据。
上述的人工智能辅助诊断方法中,所述多体位的影像数据包括至少8个体位。
上述的人工智能辅助诊断方法中,所述影像特征至少包括:几何特征、灰度特征、纹理特征和频域特征。
上述的人工智能辅助诊断方法中,步骤p4至少执行100次。
上述的人工智能辅助诊断方法中,步骤p6中选取权重较重的3个或5个影像组学特征,用于解释所述神经网络的决策结果。
上述的人工智能辅助诊断方法中,所述分类神经网络包括卷积神经网络vgg16。
与现有技术相比,本发明的技术方案通过逐一改变影像组学特征,进而根据影像组学特征对分期/分型结果正确率的影响的差别,建立影像组学特征和神经网络决策选择之间的映射关系,从而解决背景技术中提及的“黑匣子”的缺陷。对分期/分型结果进行解释有助于医生判断病情,从而可对症下药,提出有针对性的治疗方案,以提高预后成活率。另外,依据影像数据对病患及病患家属解释结论的可信度较高,可有效提高病患及病患家属的治病信心,加快“人文医疗”建设的进度。
附图说明
图1是现有的分类网络对图像进行分类的示意图;
图2是本发明一实施例利用分类网络确定特征重要性的示意图;
图3是本发明一实施例对影像数据进行处理以及得到检测结果的一个示意图;
图4是本发明一实施例的分类过程示意图。
具体实施方式
为使本发明的目的、特征更明显易懂,下面结合附图对本发明的具体实施方式作进一步的说明。然而,本发明可以用不同的形式实现,不应只是局限在所述的实施例。且,在不冲突的情况下,本申请中的实施例及实施例中的特征允许相互组合或替换。结合以下的说明,本发明的优点和特征将更清楚。
需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
还需声明的是,本发明中对步骤编号的目的在于便于引用,而非限定先后顺序。对于个别需强调顺序的步骤,文中将以专门文字进行特别说明。
以目前的发展状态来说,以影像组学特征为基础,由医生对肿瘤的分期/分型进行评价和以深度学习技术为基础,由卷积神经网络对大样本进行深度学习,进而对肿瘤的分期/分型进行评价是两条并行的技术线路。然而由于前一技术线路的准确性取决于医生的个人能力和主观性,浪费了大样本数据的优势;而后一技术线路虽然对大样本有更好的适应性,样本量越大,诊断准确率越高,但是存在“黑匣子”的问题,其提取的特征不容易被影像医师接受,因而其评价结果不容易被信任。
事实上,研究结果显示,影像组学与基因组学之间存在高度相关性,探索两组学之间的相关性,有利于理解肿瘤的生物学行为,指导临床诊疗。以卷积神经网络为代表的新一代人工智能对多维数据有卓越的特征提取能力,可以在肿瘤分期/分型方面达到新的应用高度。结合影像组学和卷及神经网络的优势,可以进一步提高肿瘤的诊断效能并形成医生可理解的影响特征解析。
图1是一种利用卷积神经网络构成的分类网络对原始的pet/ct图像进行分类的示意图。图中,分类网络f是一个已经训练成熟的卷积神经网络,图中示出了每一层卷积的卷积核以及数据个数。待评价肿瘤分期/分型的原始图像x输入该分类网络f后,得到的输出直接就是分类结果f(x)。
为了结合影像组学和卷积神经网络的优势,本发明提出,可以在两者之间建立一个可靠的映射关系从而使抽象的卷积神经网络决策选择与具象的影像特征之间可相互参考,或者说,可以用影像特征来解释卷积神经网络决策选择。
图2是本发明一实施例利用分类网络确定特征重要性的示意图,也就是对影像特征进行排序的过程示意图。基于当前的技术潮流,本发明的实施例使用16层的卷积神经网络vgg(visualgeometrygroup,视觉神经组)16作为分类神经网络。
图中,原始样本集合x是多个已知肿瘤分期/分型的原始影像数据的集合。这一集合用于作为比对的标准样本。变换后的样本集合x1是将所述原始样本集合x中的所有影像数据的一个影像组学特征进行更改后的样本集合。分类网络f可以理解为与图1相同的卷积神经网络,用于分别对原始样本集合x和变换后的样本集合x1进行肿瘤分期/分型的评价。原始样本集合x和变换后的样本集合x1通过分类网络f分别得到评价结果的集合f(x)和f(x1)。以原始样本集合x为标准数据,分别统计集合f(x)和f(x1)的准确率acc和acc1,进而计算两种准确率的差δacc1。不断重复上述的过程,变换后的样本集合依次记为x2、x3、x4……xi(i为自然数),区别在于每一个变换后的样本集合xi所更改的影像组学特征均不同,得到的准确率记为acc2、acc3……acci。计算acc与acci之间的差值,并从大到小排序所述差值,越大的δacci对应的影像组学特征被认为对神经网络的性能影响越大,可以对其赋予更大的权重。越大权重的δacci对应的影像组学特征在神经网络的决策中占越重要的地位,即该影像组学特征与肿瘤分型/分期存在更大的联系。
进一步地,本发明还公开一种人工智能辅助诊断方法,其通过神经网络深度学习获取影像组学和神经网络特征参数之间的映射关系,从而可对分类结果进行解释。该方法包括如下步骤,仍可参考图2,并结合说明中的公式进行理解:
设原始样本集合为x={x1,x2,x3……xn}(n为样本数),由于原始样本的分期/分型是已知的,因此,与原始样本集合相呼应的分期/分型结果的集合为y={y1,y2,y3……yn}。
p1、获取多份已知肿瘤分期/分型的原始影像数据,并输入一分类神经网络,以获得所述原始影像数据的肿瘤分期/分型结果。为了保证研究结果的可靠性,大样本是基础,因此至少需要2000份原始影像数据。越大的样本基数能得到越高的准确率。
设所述原始样本集合x={x1,x2,x3……xn}通过分类网络f后得到的分期/分型结果的集合为
p2、更改所述原始影像数据的一个影像组学特征,并输入所述分类神经网络,以获得更改后的影像数据的肿瘤分期/分型结果。
设更改了第一个影像组学特征的变换后的样本集合为x1={x11,x21,x31……xn1},相应的,集合x1经过分类网络f后得到的分期/分型结果的集合为f(x1)={y11,y21,y31……yn1}。
p3、以所述原始影像数据为标准数据,分别计算步骤p1和p2所得的结果的准确率,所述准确率分别记为acc和acc1。
原始样本的评价准确率acc为:
acc=(y-f(x))/y
式中,acc可以用于表述分类网络f的可信度。
变换后的样本的评价准确率acc1为:
acc1=(y-f(x1))/y
式中,acc1表示了改变一种影像组学特征后的分期/分型的准确率。
p4、重复步骤p1-p3,其中,步骤p2选取另一影像组学特征。
本步骤需要多次重复(至少100次),以尽可能多的改变不同的影像组学特征。
与步骤p1-p3雷同,设更改了第二个影像组学特征的变换后的样本集合为x2={x12,x22,x32……xn2},……,更改了第i个影像组学特征的变换后的样本集合为xi={x1i,x2i,x3i……xni}。相应的,集合xi经过分类网络f后得到的分期/分型结果的集合为f(xi)={y1i,y2i,y3i……yni}。
变换后的样本的评价准确率acci为:
acci=(y-f(xi))/y
式中,acci表示了改变影像组学特征后的分期/分型的准确率。
p5、计算并排序acc和acci之差δacci,并排序,然后根据该排序赋予δacci不同的权重;
在实际操作中,为了获取比较全面的数据,可有选择的改变影像组学特征的数据,例如有的改变使分期/分型结果改变,有的改变使分期/分型结果保持,或将特征改为临界值。因此,acc和acci之间必定存在差值。所述差值为:
δacci=acc-acci
对所有的δacci进行排序,可以从大到小,也可以从小到大。
p6、按步骤p5的权重建立δacci与所述影像组学特征之间的映射关系,选取其中权重较重的3~5个影像组学特征用于解释所述神经网络的决策结果。其余权重较小的影像组学特征也指示了影像组学特征和神经网络决策之间的映射关系,但在实践中,可仅作为参考。
具体来说,就是最大的δacci对应的影像组学特征对神经网络的决策选择影响最大,即神经网络在学习的过程中对该特征表现出了非常高的敏感性,最小的δacci对应的影像组学特征对神经网络的决策判断影响较小,即神经网络在学习的过程中对该特征表现出较低的敏感性,从而解决卷积神经网络(分类网络)的评价结果不可解释的缺陷。
根据上述分析可知,详细的建立映射关系的步骤如下:
首先,记录步骤p2中所述的影像组学特征与步骤p3中acci的映射关系;
其次,推知步骤p2中所述的影像组学特征与步骤p5中δacci的映射关系;
最后,根据排序后的δacci的权重推知步骤p2中所述的影像组学特征与所述分类神经网络决策选择之间的映射关系。
以下以ct图像为例,对影像组学特征进行一些补充说明。从ct图像中提取的影像组学特征,主要由几何特征,灰度特征,纹理特征和频域特征四种类型构成。
几何特征为肿瘤的分析提供重要的结构信息,包括肿瘤的大小、形状特征和位置等信息。比如病灶的内切圆半径的大小、病灶的边缘形状、病灶分布在横膈上或者横膈下,一般包括7个典型特征。对于图像的大小特征可通过插值法改变病灶的大小,常见的图像插值算法包括最近邻插值(nearest-neighbor)、双线性插值(bilinear)、双立方插值(bicubic)、兰索斯(lanczos)插值、方向插值(edge-directedinterpolation)、基于样本(example-based)插值等算法。从而可以从不同角度评价肿瘤。对于图像位置特征,通过蒙特卡洛方法使得病灶中心随机生成在ct图像中,实现位置特征的改变。
灰度特征通过灰度直方图来表示,反映图像灰度分布的统计特性,属于全局特征,一般考虑14个直方图特征。灰度直方图的计算公式如下:
其中,rk是像素的灰度级,nk是具有灰度rk的像素的个数,mn是病灶中总的像素个数。
一般通过直方图匹配改变病灶的直方图的灰度分布。具体步骤如下:
将原始图像的灰度直方图进行均衡化,得到一个变换函数s=t(r),其中s是均衡化后的像素,r是原始像素。
对规定的直方图进行均衡化,得到一个变换函数v=g(z),其中v是均衡化后的像素,z是规定化的像素。
上面都是对同一图像的均衡化,其结果应该是相等的,即s=v,且z=g-1(v)=g-1[t(r)]。通过均衡化作为中间结果,将得到原始像素r和规定化后像素z之间的映射关系。
纹理特征通过二阶矩阵(比如,灰度共生矩阵(glcm)和灰度游程特征(glrlm))和高阶矩阵(比如,灰度区域尺寸矩阵(glszm)和领域灰度差分矩阵(ngtdm))提取,描述了像素点之间的空间分布关系,分别在全局和局部尺度上反映肿瘤的异质性,一般包括40个特征。一般可以通过纹理映射(texturemapping)改变病灶纹理。
频域特征通过在不同频率子带上对灰度和纹理特征进行小波变换提取,若以8个频率子带计,则频域特征包括432[(14+40)*8]个。若要改变频域特征,可以通过二维傅里叶变换实现。傅里叶变换可以将一幅图片分解为正弦和余弦两个分量,换而言之,他可以将一幅图像从其空间域(spatialdomain)转换为频域(frequencydomain)。这种变换的思想是任何函数可以很精确的接近无穷个sin()函数和cos()函数的和。假设一个图像为m×n的矩阵f(x,y),经过离散傅里叶变换得到f(u,v),那么一般的公式为:
根据上述公式对图像进行滤波,去除某频段信息,则可得到频域变换后的图像。
进一步的,在步骤p1中,还可以对图像进行预处理,例如对目标器官进行标注,以排除无关的图像范围(相当于减小了图片的信息量),提高计算效率。
进一步的,步骤p1、p2中包括同一目标器官多体位的影像数据。多体位一般包括3-8个体位。
图3所示为上述方法的一个综合实施例。图中,首先对肺部器官图像进行标注提取后得到数据扩增,然后对肺结节进行粗检测,以初步获取疑似肺部结节的数量和定位,之后逐个对每一个疑似结节以3种视角提取特征,并分别通过三个网络对该结节进行评价,以获得该疑似结节是/否结节的结论。
图4所示的是另一个比较具有综合性的实施例。本实施例输入的待分析影像数据包括ct和pet/ct两种图像。由于两种图像的采集手段不同,其能显示的影像特征也有所不同,相比只采用一种图像的实施例能获取更多信息,从而可从更多角度对肿瘤进行评判。所述的两种待分析影像数据通过一层深度卷积神经网络(dcnn,deepconvolutionalneuralnetworks)以提取特征参数,再通过一层全链接层以使两种图像的特征参数融合,最后利用softmax函数对融合后的特征参数(有限项)从概率论的角度进行归一化。根据该归一化的数据,通过查询已有的分期/分型表格可得出肿瘤评价结论。医生拿到结论后,可根据上述的人工智能辅助诊断系统或方法得出的映射关系对该结论进行易于被医生和病人理解的分析。
上述的人工智能辅助诊断系统或方法利用深度卷积神经网络对肿瘤进行分期/分型,同时通过改变影像组学特征“试出”各影像组学特征对深度卷积神经网络的判断结果的影响力,从而建立深度卷积神经网络的特征参数与影像组学特征之间的联系,从而达到了解释“黑匣子”工作过程的目的。该系统或方法结合了医生经验和计算机辅助诊断的优点,既保证结论的准确性,又使医生、病患易于接受,为解决目前人工智能诊断的“黑匣子”缺陷提供了很好的解决方案,应用前景广阔。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。