本发明涉及医学影像处理,具体而言,涉及一种用于医学影像目标检测的分割数据集治理方法及系统。
背景技术:
1、医学影像检查是医师诊断疾病的必要一环。在目前的临床实践中,关键的病灶通常是通过医学图像人工目视检查获得的,主观且耗时。这不仅给卫生系统带来沉重负担,还可能导致患者的治疗延误。为此,一种自动、精确的医学图像病灶检测方法是非常必要和迫切需要的。其中,基于高质量大数据驱动是自动ai方法的核心。现阶段,为了帮助医师基于医学图像进行快速诊断,已有许多研究聚焦于基于深度学习的病灶分割。然而这需要大量的、高质量的、精准的病灶标注,这种劳动密集型的且耗时的标注任务即使是具有丰富经验的医生也无法在一定时间内完成大量的数据标注,这些问题给ai分割任务带来了挑战。另一方面,目标检测用于医学图像分析,被称为病灶检测,以帮助医师快速诊断病灶的类别和位置,也是诊断报告中的重要内容。与分割任务相比,用于目标检测的标注更容易,因此能够在一定时间内以较低人力成本快速开发出计算机辅助诊断系统。此外,病灶检测也可以用作病灶分割的前置任务、以促使通过多任务学习来提高分割性能。由此,病灶检测也极具研究和应用价值。
2、但是,目前基于医学图像病灶检测方法的开源数据极少,无法直接利用分割数据集。现有技术中,将病灶分割数据转换成病灶检测数据的方法一般是基于分割数据集掩码(mask)标注的目标边界,通过mask边界点构建包围mask区域的病灶检测矩形边界框(bounding box,bbox)作为病灶检测标注目标。然而现有的这种方式忽略了病灶的形态学信息,例如,任意的像素点信息都将产生bbox,这对mask的精确标注有一定的要求;此外,病灶检测的临床标注一般要求紧邻的多个分割区域通常视为一个目标。因此,直接利用mask转换为bbox标注格式对病灶检测任务而言会产生不具备临床意义的标注。因此,将分割数据集治理为符合病灶检测任务的数据集具有广泛研究应用需求。
技术实现思路
1、为了克服上述问题或者至少部分地解决上述问题,本发明提供一种用于医学影像目标检测的分割数据集治理方法及系统,可基于医学图像分割数据标注,将紧邻的分割区域合并为一个具有临床意义的病灶检测区域标注;能够排除在病灶检测任务中不具有临床诊断意义的数据。
2、为解决上述技术问题,本发明采用的技术方案为:
3、第一方面,本发明提供一种用于医学影像目标检测的分割数据集治理方法,包括以下步骤:
4、获取医学图像像素分割数据中的标注数据mask;
5、对标注数据mask进行预过滤,以得到对应的分割目标标注数据mask;
6、获取分割目标标注数据mask的边界坐标信息;
7、将分割目标标注数据mask和对应的边界坐标信息转换为用于病灶检测格式的边界框,以得到病灶检测标注数据;
8、对病灶检测标注数据进行清洗,将紧邻的边界框进行合并,以得到最终的病灶目标信息。
9、本发明基于医学图像像素分割数据进行标注数据获取,并对获取的数据进行初步过滤筛选,以得到包含有病灶的分割目标标注数据mask及其对应的原始医学图像,然后,获取筛选得到的mask图像的边界坐标信息,并将分割目标标注数据mask和对应的边界坐标信息联合转换为用于病灶检测格式的边界框,最后对病灶检测标注数据进行清洗,将紧邻的边界框进行合并,并删除一些不符合要求的边界边框,以得到最终的病灶目标信息。本发明解决了现有的医学图像病灶分割数据集以mask格式标注,这对于医学图像病灶检测任务的数据标注而言,缺乏明确的边界框信息的问题。本发明基于上述方法对医学图像病灶分割数据集进行有效治理,可基于医学图像分割数据标注,将紧邻的分割区域合并为一个具有临床诊断意义的病灶检测区域标注;能够排除在病灶检测任务中不具有临床诊断意义的数据。
10、基于第一方面,进一步地,上述获取医学图像像素分割数据中的标注数据mask的方法包括以下步骤:
11、基于医学图像像素分割数据的dicom文件,读取对应的标注矩阵信息;
12、将标注矩阵信息转换为取值范围为[0,n]的mask图像,其中,n∈r+,0为背景像素点,非0正整数为病灶类别。
13、基于第一方面,进一步地,上述对标注数据mask进行预过滤的方法包括以下步骤:
14、遍历获取的标注数据mask,记录并将像素点全为0的mask所对应的原始医学图像剔除,以得到最终包含有病灶的分割目标标注数据mask及对应的医学图像像素分割数据。
15、基于第一方面,进一步地,上述获取分割目标标注数据mask的边界坐标信息的方法包括以下步骤:
16、获取每个分割目标标注数据mask中所有病灶区域像素的八连通域信息,并将对应八连通域信息转换为边界坐标信息。
17、基于第一方面,进一步地,上述对病灶检测标注数据进行清洗,将紧邻的边界框进行合并的方法包括以下步骤:
18、采用mask2bbox算法将紧邻的边界框进行合并,以更新病灶目标信息,并删除面积小于预设像素的孤立边界框,以得到最终的病灶目标信息。
19、基于第一方面,进一步地,上述边界坐标信息包括左上角横坐标、左上角纵坐标、右下角横坐标及右下角纵坐标。
20、基于第一方面,进一步地,上述病灶检测格式包括文件路径、左上角横坐标、左上角纵坐标、右下角横坐标、右下角纵坐标及病灶类别。
21、第二方面,本发明提供一种用于医学影像目标检测的分割数据集治理系统,包括标注数据获取模块、数据预过滤模块、边界坐标获取模块、病灶格式转换模块以及数据清洗模块,其中:
22、标注数据获取模块,用于获取医学图像像素分割数据中的标注数据mask;
23、数据预过滤模块,用于对标注数据mask进行预过滤,以得到对应的分割目标标注数据mask;
24、边界坐标获取模块,用于获取分割目标标注数据mask的边界坐标信息;
25、病灶格式转换模块,用于将分割目标标注数据mask和对应的边界坐标信息转换为用于病灶检测格式的边界框,以得到病灶检测标注数据;
26、数据清洗模块,用于对病灶检测标注数据进行清洗,将紧邻的边界框进行合并,以得到最终的病灶目标信息。
27、本系统通过标注数据获取模块、数据预过滤模块、边界坐标获取模块、病灶格式转换模块以及数据清洗模块等多个模块的配合,基于医学图像像素分割数据进行标注数据获取,并对获取的数据进行初步过滤筛选,以得到包含有病灶的分割目标标注数据mask及其对应的原始医学图像,然后,获取筛选得到的mask图像的边界坐标信息,并将分割目标标注数据mask和对应的边界坐标信息联合转换为用于病灶检测格式的边界框,最后对病灶检测标注数据进行清洗,将紧邻的边界框进行合并,并删除一些不符合要求的边界边框,以得到最终的病灶目标信息。本发明解决了现有的医学图像病灶分割数据集以mask格式标注,这对于医学图像病灶检测任务的数据标注而言,缺乏明确的边界框信息的问题。本发明基于上述方法对医学图像病灶分割数据集进行有效治理,可基于医学图像分割数据标注,将紧邻的分割区域合并为一个具有临床诊断意义的病灶检测区域标注;能够排除在病灶检测任务中不具有临床诊断意义的数据。
28、第三方面,本技术提供一种电子设备,其包括存储器,用于存储一个或多个程序;处理器;当一个或多个程序被处理器执行时,实现如上述第一方面中任一项的方法。
29、第四方面,本技术提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。
30、本发明至少具有如下优点或有益效果:
31、本发明提供一种用于医学影像目标检测的分割数据集治理方法及系统,基于医学图像分割数据标注,将分割目标转换为病灶检测目标、并且将紧邻的分割区域合并为一个具有临床诊断意义的病灶检测区域标注;能够排除在病灶检测任务中不具有临床诊断意义的数据。