本发明涉及医学图像处理技术领域,尤其涉及一种医学图像预处理方法。
背景技术:
以下内容仅为发明人认识的关于本申请技术的背景介绍,并不必然构成现有技术。
计算机辅助诊断(computeraideddiagnosis,cad)是指通过影像学、医学图像处理技术以及其他可能的生理、生化手段,结合计算机的分析计算,辅助发现病灶,提高诊断的准确率的方法,又被称为医生的“第三只眼”,cad系统的广泛应用有助于提高医生诊断的敏感性和特异性。
为了准确、高效地利用这些信息,基于癌症医学图像的计算机辅助诊断研究成为业界热点,目前研究及应用最广泛的领域在于通过机器学习和深度学习对医学图像进行理解与识别,基于机器学习的计算机辅助诊断主要包括四方面的内容:(1)图像预处理;(2)感兴趣区(roi)的分割;(3)特征提取、选择与分类;(4)肿瘤区域的识别(分类或者分割)。其中,在图像预处理部分,病理医学图像的超高分辨率对预处理方式提出了巨大挑战。
现有的基于图像分割的分类识别技术一般用于小分辨率下的病理图像分析,尚无法有效地处理如此巨大数据量的超高分辨数字医学图像。另外,在医学图像识别任务中,一方面所使用的样本包括了术后的大切片样本和早期筛查所用的穿刺样本,另一方面,各数字切片中组织的形态,面积占比各不相同,使得样本提取的计算量和精准性也成为了一对难以平衡的矛盾。作为人工神经网络的前端和数据输入源,如何高效快速地对医学图像数据进行预处理,已经成为医学影像领域中有待深入研究的课题之一。
技术实现要素:
为了克服现有技术的不足,本发明所解决的技术问题是提供一种可以实现高效、精准的数据预处理的医学图像预处理方法。
为解决上述技术问题,本发明所采用的技术方案内容具体如下:
一种医学图像预处理方法,包括以下步骤:
标签信息语义图像化:预读取数字医学图像及其标签信息,应用判别算法将带格式的文本标签信息转换为多层次分类掩膜图像;
兴趣区域提取:读取数字医学图像,移除透明度通道获取图像,提取当前切片图像中的组织区域轮廓,将图像划分为组织区域和背景区域;
多掩膜样本分类提取:利用所生成的多层次分类掩膜,在所述组织区域中提取阳性样本和阴性样本,并将样本数据信息进行封装,形成可应用于神经网络模型训练和预测的结构化数据。
为实现高效快速地对医学图像数据进行预处理,发明人在本技术方案中采用了医学图像金字塔多分辨率层次之间的坐标映射策略,构建粗细两种粒度的识别掩膜,通过坐标建立联系,分别完成对组织区域进行快速定位和精确划分的目标。
相较于其他方式,本技术方案中对组织区域进行的快速定位和精确划分,能够实现高效快速地对医学图像数据进行预处理。
在一种或多种实施方式当中,所述标签信息语义图像化步骤中:
更具体地,所述透明度通道是alpha通道;
更具体地,所述文本标签的格式是xml格式;
需要说明的是,文本标签的格式可以采用多种,在一种实施方式当中,该格式为xml格式,其余实施方式可根据实际需要采用其他相应不同的格式。
更具体地,所述判别算法是封闭多边形坐标判别算法。
需要说明的是,在本实施方式中,所述判别算法采用封闭多边形坐标判别算法,相较于其他判别算法,由于具有基于相似三角形原理直接判别像素与最近邻多边形顶点之间的位置关系的特点,因此能够快速确定各像素是否被封闭多边形包围,从而快速将其转换为多层次分类掩膜图像,提高了该步骤下的运算效率,进而提高了数据预处理的效率。
在一种或多种更具体的实施方式当中,所述标签信息语义图像化步骤具体包括:
加载所述数字医学图像的分辨率信息,根据所述分辨率信息构建同等大小的零矩阵作为等价的空白掩膜;
加载所述数字医学图像所对应的xml格式的标签信息,所述xml格式的标签信息分别记录了若干个标注区域的封闭多边形的坐标信息;
应用封闭多边形坐标判别算法确定像素点是否处于任意一个封闭多边形内,并据此将xml格式的文本标签数据转换为掩膜图像,获得包括标记掩膜和剔除掩膜的多层次分类掩膜。
作为一种或多种更具体的实施方式,所述在所述封闭多边形坐标判别算法中,所述像素点与封闭多边形的位置关系由以下公式得出:
in_ploy=(e1y-py)(e1x-e0x)-(e1x-px)(e1y-e0y)
其中e0、e1表示所述封闭多边形某一条边的两个端点,x,y表示其横纵坐标;p表示需要判断的像素点。
需要说明的是,对于某一像素点,该公式只需利用与该像素点最近邻的封闭多边形的一条边的两个顶点的坐标,可直接确定其是否位于这个多边形内部。相较于其他方式,本公式能够更加快速地实现将其转换为多层次分类掩膜图像,更大程度上提高了该步骤下的运算效率,进而更大程度上提高了数据预处理的效率,以实现本方案的发明目的。
在一种或多种实施方式中,所述标签信息语义图像化步骤中还包括:统一所述数字医学图像以及对应的所述掩膜图像的标识,并通过预加载进行正确性检查。
在一种具体的应用实施例当中,对于每一张数字医学图像,基于文件名匹配的方法重新标定其多层次分类掩膜,例如下文提到的标记掩膜和剔除掩膜的路径,自动对所有源数字医学图像及其附带的掩膜图像进行预加载,标记出无法读取的数字医学图像文件,若存在,尝试重新生成掩膜图像,若失败则将切片文件及xml标记文件移除。通过此步骤进行正确性检查,从而可以达到对所有原始待处理数据正确性的快速自检效果,避免后续处理过程中因数据无法加载而中断。
在一种或多种实施方式当中,所述兴趣区域提取步骤中:
更具体地,读取所述数字医学图像的方法是应用openslide读取;
更具体地,所述图像是rgb图像;
需要说明的是,本技术方案中的图像可以是rgb图像,但也可以是其他格式的图像,视乎具体实施方式而定。
更具体地,获取图像后,还包括利用色域空间转移、腐蚀及膨胀,来提取组织区域轮廓。
需要说明的是,通过此技术特征,可以通过预设的颜色阈值快速界定医学图像中的组织区域,进一步地可在大尺度层面下直接定位出图像中的大片组织区域,从而提高兴趣区域提取步骤的效率,进而提高本技术方案对于数据预处理的效率。
在一种或多种更具体的实施方式当中,所述兴趣区域提取步骤具体包括:
应用openslide读取所述数字医学图像,移除alpha通道获取rgb图像,利用rgb到hsv色域的空间转移、腐蚀核和膨胀核的处理,标定所述数字医学图像中的组织外轮廓作为背景区域,同时以组织区域的外接限位框作为所述数字医学图像的兴趣识别区域roi。
在一种具体的应用实施例当中,使用openslide加载源数字医学图像s获得rgb图像,移除透明度通道,获得rgb图像,继而从rgb空间转化为hsv空间,获得数字医学图像的二值化图像m0,利用膨胀核填补大片组织区内的零散空洞,再利用腐蚀核消除噪点,分割出独立的组织区域元素,最终提取得到医学图像中组织区域的轮廓和组织掩膜图像m1,把背景和组织区域区分开来。同时,在m1上对分离的各白色区块生成其外接限位框。
在一种或多种实施方式当中,在所述多掩膜样本分类提取步骤中:将样本数据信息进行封装是通过利用tfrecords实现的。
需要说明的是,tfrecords将样本元数据、标签等信息直接封装成为一条记录,且可将大量的记录封装成单独一个文件,减少代码冗余,极大地减少系统的i/o负荷,从而达到节省负载资源,提高数据加载效率,进而间接使得数据处理效率的提升。
在一种或多种实施方式当中,所述多掩膜样本分类提取步骤中:所述样本数据信息包括样本的特征信息、来源信息、位置坐标、图像信息、标签数据中的一种或多种;
更具体地,所述特征信息包括样本文件名、样本存储路径中的一种或多种;所述来源信息包括样本来源数字医学图像的文件名;所述位置坐标包括原图level-0坐标系上的中心坐标;所述图像信息包括样本图像数据文件;所述标签数据包括样本标签。
需要说明的是,特征信息用以确定样本在数据集库中的具体路径位置;来源信息用以确定样本与来源医学图像的对应关系,以上两种信息均用于对后续存疑样本的溯源;位置坐标用以追溯存疑样本在对应医学图像中的具体位置;图像信息为样本图像,作为基本内容;标签数据确定了该样本的正负性。
在一种或多种更具体的实施方式当中,所述多掩膜样本分类提取步骤具体包括:
所述标记掩膜与所述剔除掩膜相减的结果作为病变区识别掩膜,利用滑窗扫描所述兴趣识别区域roi的限位框时,先根据组织区域识别掩膜去除所述剔除掩膜,然后根据病变区识别掩膜将组织区域划分为阳性和阴性,分别提取阳性样本和阴性样本。
作为一种或多种更具体的实施方式,在标定组织外轮廓的过程中,保留色域转变操作后所得的首个二值图作为小尺度下的组织区域识别掩膜,在利用滑窗扫描所述限位框时,同时通过坐标换算计算同一位置下小尺度下的组织区域识别掩膜的白色像素占比,通过预设阈值去除组织中可能存在的空洞背景区域,得到组织区域样本。
需要说明的是,由于原图尺寸巨大,基本方案中得到的识别掩膜(即是二值图)为大尺度下的精细度较低的二值图,而提取样本时,滑窗在原图上滑动,可能会遇到大尺度二值图下无法识别的细小空白区域。所以通过上述方案,可以得到的是更细小的尺度下的精确的组织区域样本。
与现有技术相比,本发明的有益效果在于:
1、本发明的医学图像预处理方法,采用了医学图像金字塔多分辨率层次之间的坐标映射策略,构建粗细两种粒度的识别掩膜,通过坐标建立联系,分别完成对组织区域进行快速定位和精确划分的目标,从而能够实现高效快速地对医学图像数据进行预处理,进而达到高效、精准地对医学图像进行数据预处理。
2、本发明的医学图像预处理方法,采用封闭多边形坐标判别算法将带格式的文本标签信息转换为多层次分类掩膜图像由于具有基于相似三角形原理直接判别像素与最近邻多边形顶点之间的位置关系的特点,因此能够快速确定各像素是否被封闭多边形包围,从而快速将其转换为多层次分类掩膜图像,提高了该步骤下的运算效率,进而提高了数据预处理的效率。
3、本发明的医学图像预处理方法,在标签信息语义图像化步骤中还包括:统一上述数字医学图像以及对应的所述掩膜图像的标识,并通过预加载进行正确性检查;通过此步骤进行正确性检查,从而可以达到对所有原始待处理数据正确性的快速自检效果,避免后续处理过程中因数据无法加载而中断所导致的处理停顿,提高数据处理运算流畅性和效率。
4、本发明的医学图像预处理方法,获取图像后,还包括利用色域空间转移、腐蚀及膨胀,来提取组织区域轮廓;通过本技术特征可以通过预设的颜色阈值快速界定医学图像中的组织区域,进一步地可在大尺度层面下直接定位出图像中的大片组织区域,从而提高兴趣区域提取步骤的效率,进而提高本技术方案对于数据预处理的效率。
5、本发明的医学图像预处理方法,在所述多掩膜样本分类提取步骤中将样本数据信息进行封装是通过利用tfrecords实现的;由于在医学图像处理过程中的封装步骤中会产生大量代码冗余,在此方案中利用tfrecords进行处理,可以极大地减少系统的i/o负荷,从而达到节省负载资源,提高数据加载效率,进而间接使得数据处理效率的提升。
6、本发明的医学图像预处理方法,在标定组织外轮廓的过程中,保留色域转变操作后所得的首个二值图作为小尺度下的组织区域识别掩膜,得到不同精细度的组织区域样本;通过本方案,可以得到的是更细小的尺度下的精确的组织区域样本,使得识别更为精确,提高了图像处理的精确度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明兴趣区域提取步骤中色域空间转移、腐蚀、膨胀以及外轮廓生成阶段示意图;
图2为本发明多掩膜样本分类提取步骤中病变区掩膜、剔除掩膜、病变区识别掩膜以及正常区识别掩膜生成阶段示意图;
图3为本发明样本分区提取示意图;
图4为本发明标签信息语义图像化步骤中封闭多边形坐标判别法计算过程示意图;
图5为本发明一种较优选实施方式的框架流程示意图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如下:
实施例1
本实施例提供本发明医学图像预处理方法,其包括以下步骤:
标签信息语义图像化:预读取数字医学图像及其标签信息,应用判别算法将带格式的文本标签信息转换为多层次分类掩膜图像;
兴趣区域提取:读取数字医学图像,移除透明度通道获取图像,提取当前切片图像中的组织区域轮廓,将图像划分为组织区域和背景区域,如图1所示;
多掩膜样本分类提取:利用所生成的多层次分类掩膜,在所述组织区域中提取阳性样本和阴性样本,如图2和图3所示;并将样本数据信息进行封装,形成可应用于神经网络模型训练和预测的结构化数据。
以上是本技术方案其中一种的基础实施方式。在本实施方式当中,发明人在本技术方案中采用了医学图像多分辨率层次之间的坐标映射策略,构建粗细两种粒度的识别掩膜,通过坐标建立联系,分别完成对组织区域进行快速定位和精确划分的目标,通过对组织区域进行的快速定位和精确划分,能够实现高效快速地对医学图像数据进行预处理。
实施例2
本实施例是在上述实施例1的基础之上的一种优选实施方式,本实施例2与上述实施例的区别在于:在本实施例中,所述标签信息语义图像化步骤中具有以下其中一种或多种优选的实施方式,这些实施方式可以单独也可以结合进行实施:
在一些实施方式当中,所述透明度通道是alpha通道。
在一些实施方式当中,所述文本标签的格式是xml格式。文本标签的格式可以采用多种,在一种实施方式当中,该格式为xml格式,其余实施方式可根据实际需要采用其他相应不同的格式。
在一些实施方式当中,所述判别算法是封闭多边形坐标判别算法。在本实施方式中,所述判别算法采用封闭多边形坐标判别算法,相较于其他判别算法,由于具有基于相似三角形原理直接判别像素与最近邻多边形顶点之间的位置关系的特点,因此能够快速确定各像素是否被封闭多边形包围,从而快速将其转换为多层次分类掩膜图像,提高了该步骤下的运算效率,进而提高了数据预处理的效率。
在一种或多种更具体的实施方式当中,所述标签信息语义图像化步骤具体包括:
加载所述数字医学图像的分辨率信息,根据所述分辨率信息构建同等大小的零矩阵作为等价的空白掩膜;
加载所述数字医学图像所对应的xml格式的标签信息,所述xml格式的标签信息分别记录了若干个标注区域的封闭多边形的坐标信息;
应用封闭多边形坐标判别算法确定像素点是否处于任意一个封闭多边形内,并据此将xml格式的文本标签数据转换为掩膜图像,获得包括标记掩膜和剔除掩膜的多层次分类掩膜。
作为一种或多种更具体的实施方式,所述在所述封闭多边形坐标判别算法中,如图4所示,所述像素点与封闭多边形的位置关系由以下公式得出:
in_ploy=(e1y-py)(e1x-e0x)-(e1x-px)(e1y-e0y)
其中e0、e1表示所述封闭多边形某一条边的两个端点,x,y表示其横纵坐标;p表示需要判断的像素点。
对于某一像素点,该公式只需利用与该像素点最近邻的封闭多边形的一条边的两个顶点的坐标,可直接确定其是否位于这个多边形内部。相较于其他方式,本公式能够更加快速地实现将其转换为多层次分类掩膜图像,更大程度上提高了该步骤下的运算效率,进而更大程度上提高了数据预处理的效率,以实现本方案的发明目的。
在一种具体的应用实施例当中,当p点在竖直方向上位于e0、e1之间时(e0y≤py≤e1y或e0y≥py≥e1y),按上式计算in_ploy的值。当in_ploy=0,表示像素点在边上;当in_ploy<0,表示像素点位于边的左边;当in_ploy>0,表示像素点位于边的右边。
对于零矩阵中的每一个元素,遍历所有封闭多边形及其所有边,根据下式确定矩阵元素所表示的像素点与各封闭多边形的位置关系:
其中,i表示某封闭多边形的第i条边,n表示封闭多边形的边数,in_ploy表示第i条边对像素点的判别贡献。
当in_ploy=0,则该像素点为封闭多边形的内点,像素值更新为(255,255,255)白色。
根据上述方法,将xml格式的文本标签数据转换为掩膜图像,获得标记掩膜和剔除掩膜(背景区)。
通过上述技术方式,可以快速准确地定位出xml标签数据中所确定的标注区域,将文本标签数据转换为区域识别掩膜图像。
在一种或多种实施方式中,所述标签信息语义图像化步骤中还包括:统一上述数字医学图像以及对应的所述掩膜图像的标识,并通过预加载进行正确性检查。
在一种具体的应用实施例当中,对于每一张数字医学图像,基于文件名匹配的方法重新标定其多层次分类掩膜,例如下文提到的标记掩膜和剔除掩膜的路径,自动对所有源数字医学图像及其附带的掩膜图像进行预加载,标记出无法读取的数字医学图像文件,若存在,尝试重新生成掩膜图像,若失败则将切片文件及xml标记文件移除。通过此步骤进行正确性检查,从而可以达到对所有原始待处理数据正确性的快速自检效果,避免后续处理过程中因数据无法加载而中断。
本实施例的其余实施方式与上述实施例相同,本实施例所列举的所有实施方式均可以单独或与上述实施例1进行结合实施,均构成不同的实施方案,在此不再累述。
实施例3
本实施例是在上述实施例1的基础之上的一种优选实施方式,本实施例3与上述实施例的区别在于:在本实施例中,所述兴趣区域提取步骤中具有以下其中一种或多种优选的实施方式,这些实施方式可以单独也可以结合进行实施:
在一些实施方式当中,读取所述数字医学图像的方法是应用openslide读取。
在一些实施方式当中,所述图像是rgb图像。本技术方案中的图像可以是rgb图像,但也可以是其他格式的图像,视乎具体实施方式而定。
在一些实施方式当中,获取图像后,还包括利用色域空间转移、腐蚀及膨胀,来提取组织区域轮廓。通过此技术特征,可以通过预设的颜色阈值快速界定医学图像中的组织区域,进一步地可在大尺度层面下直接定位出图像中的大片组织区域,从而提高兴趣区域提取步骤的效率,进而提高本技术方案对于数据预处理的效率。
在一些实施方式当中,所述兴趣区域提取步骤具体包括:
应用openslide读取所述数字医学图像,移除alpha通道获取rgb图像,利用rgb到hsv色域的空间转移、腐蚀核和膨胀核的处理,标定所述数字医学图像中的组织外轮廓作为背景区域,同时以组织区域的外接限位框作为所述数字医学图像的兴趣识别区域roi。
在一种具体的应用实施例当中,使用openslide加载源数字医学图像s获得rgb图像,移除透明度通道,获得rgb图像,继而从rgb空间转化为hsv空间,获得数字医学图像的二值化图像m0,利用膨胀核填补大片组织区内的零散空洞,再利用腐蚀核消除噪点,分割出独立的组织区域元素,最终提取得到医学图像中组织区域的轮廓和组织掩膜图像m1,把背景和组织区域区分开来。同时,在m1上对分离的各白色区块生成其外接限位框。
本实施例的其余实施方式与上述实施例相同,本实施例所列举的所有实施方式均可以单独或与上述实施例1或2进行结合实施,均构成不同的实施方案,在此不再累述。
实施例4
本实施例是在上述实施例1的基础之上的一种优选实施方式,本实施例4与上述实施例的区别在于:在本实施例中,所述多掩膜样本分类提取步骤中具有以下其中一种或多种优选的实施方式,这些实施方式可以单独也可以结合进行实施:
在一些实施方式当中,将样本数据信息进行封装是通过利用tfrecords实现的。tfrecords将样本元数据、标签等信息直接封装成为一条记录,且可将大量的记录封装成单独一个文件,减少代码冗余,极大地减少系统的i/o负荷,从而达到节省负载资源,提高数据加载效率,进而间接使得数据处理效率的提升。
在一些实施方式当中,所述多掩膜样本分类提取步骤中:所述样本数据信息包括样本的特征信息、来源信息、位置坐标、图像信息、标签数据中的一种或多种;
更具体地,所述特征信息包括样本文件名、样本存储路径中的一种或多种;所述来源信息包括样本来源数字医学图像的文件名;所述位置坐标包括原图level-0坐标系上的中心坐标;所述图像信息包括样本图像数据文件;所述标签数据包括样本标签。在此优选方案中,特征信息用以确定样本在数据集库中的具体路径位置;来源信息用以确定样本与来源医学图像的对应关系,以上两种信息均用于对后续存疑样本的溯源;位置坐标用以追溯存疑样本在对应医学图像中的具体位置;图像信息为样本图像,作为基本内容;标签数据确定了该样本的正负性。
在一些实施方式当中,所述多掩膜样本分类提取步骤具体包括:
所述标记掩膜与所述剔除掩膜相减的结果作为病变区识别掩膜,利用滑窗扫描所述兴趣识别区域roi的限位框时,先根据组织区域识别掩膜去除所述剔除掩膜,然后根据病变区识别掩膜将组织区域划分为阳性和阴性,分别提取阳性样本和阴性样本。
作为一种或多种更具体的实施方式,在标定组织外轮廓的过程中,保留色域转变操作后所得的首个二值图作为小尺度下的组织区域识别掩膜,在滑窗扫描所述限位框时,同时通过坐标换算计算同一位置下小尺度下的组织区域识别掩膜的白色像素占比,通过预设阈值去除组织中可能存在的空洞背景区域,得到不同精细度的组织区域样本。在此优选方案中,由于原图尺寸巨大,基本方案中得到的识别掩膜(即是二值图)为大尺度下的精细度较低的二值图,而提取样本时,滑窗在原图上滑动,可能会遇到大尺度二值图下无法识别的细小空白区域。所以通过上述方案,可以得到的是更细小的尺度下的精确的组织区域样本。
在一种或多种更具体的实施方式当中,利用两种xml标注文件分别生成病变区掩膜mobj与剔除掩膜mexc,把mobj-mexc的结果作为病变区识别掩膜mpos,把m0-(mobj-mexc)的结果作为正常区识别掩膜mneg。然后用256×256的滑窗,不重叠地扫描m1上的限位框,同时把坐标映射到病变区识别掩膜mpos和正常区识别掩膜mneg上。对于正样本,当mpos窗口内白色像素占比大于70%,且m0上同一位置同一大小区域内白色像素占比大于40%,提取滑窗内组织块作为正样本;对于负样本,当mneg窗口内白色像素占比大于25%,且mpos上同一位置同一大小区域内白色像素占比小于20%,提取滑窗内组织块为负样本。在此优选方案中,m1为粗粒度/大尺度下较为粗糙的组织区域识别掩膜,mpos与mneg为细粒度/小尺度下较为精细的识别掩膜,通过两者之前的坐标转换确定对应关系,其中首先利用前者能够达到对组织区域的快速定位;进一步地,映射到细粒度的掩膜位置上,在细粒度掩膜上计算白色像素占比,能够达到精确识别组织块的效果。
本实施例的其余实施方式与上述实施例相同,本实施例所列举的所有实施方式均可以单独或与上述实施例1或2或3进行结合实施,均构成不同的实施方案,如图5所示是其中的一种。在此不再累述。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。