本发明具体涉及人工智能医疗领域,具体是一种基于人工智能的gist靶向药物类型选择预测方法及系统。
背景技术:
1、胃肠道间质瘤(gastrointestinal stromal tumor,gist)是较为罕见的胃肠道肿瘤,占所有胃肠道恶性肿瘤的0.1%-0.3%,在胃肠道来源于间叶组织的肿瘤中,gist最为常见,约占80%。近年来,gist的发病率在逐年上升,通常发生在中老年人群,男女发病率没有明显差别,男性稍多于女性。gist主要发生部位为胃(60%-70%)和小肠(20%-25%),其次为十二指肠(4%-5%)、结直肠(4%)、食管(1%)等部位。70%-80%的gist患者存在c-kit突变。最常见于第11号外显子,其次是9号外显子,发生在第13、14、17和18号外显子的突变很少见。在无c-kit基因突变的gist中约10%可以检测到pdgfra基因突变,最常见的突变形式是第18号外显子d842v点突变,占所有pdgfra突变类型的90%以上。
2、gist对传统放、化疗不敏感,但酪氨酸酶抑制剂(tki)伊马替尼可达到治疗的目的。根据中国胃肠道间质瘤诊断治疗共识(2022年版本),当肿瘤大于2cm时,首选手术治疗,但如若患者术前评估难以达到r0切除标准时(切缘无肿瘤细胞)、需联合脏器切除、可完整切除但手术风险较大者,应考虑伊马替尼新辅助治疗,若是对伊马替尼不敏感的pdgfra18号外显子突变时,推荐阿伐替尼进行新辅助化疗。随着对肿瘤分子机理的深入研究和靶向药物的开发和临床应用,分子靶向治疗取得重要进展。nccn 及esmo(欧洲肿瘤内科协会)gist诊疗指南同时推荐,当gist患者伴随c-kit及pdgfra突变时,伊马替尼可作为局部进展期、复发及转移性gist治疗的一线标准治疗方案,如若是pdgfra的18号外显子突变或非c-kit突变时,患者可能从伊马替尼难以获益。伊马替尼是c-kit和pdgfra的分子靶向抑制剂,使gist的治疗取得了突破性进展,可显著改善患者生存质量。所以明确gist患者的靶向药物选择与否及药物类型选择对临床治疗方案选择具有重要意义。
3、目前在检测c-kit及pdgfra基因突变的常用检测方法中,以直接测序和检测已知位点的扩增阻滞突变系统(amplification refractory mutation system,arms)为主,但是这两种检测技术各有局限性,如步骤复杂、价格昂贵,并且检测周期长、不易动态随访等,在实际操作中还常常因为样本量不足,造成无法获取真实检测结果的情况,因此在临床中该应用常常受到限制。因此,寻找出一类操作简便、结果稳定且经济易得的操作方式来直接预测gist患者靶向药物选择与否及用药类型,成为临床亟待破解的科研命题。
4、现如今以玻片为中心的传统病理检查存在病理医生缺乏、操作时间长等问题,且肿瘤内部存在异质性,病变有时不典型,病理医生对靶向药物选择与否及用药类型的判断具有一定的主观性。数字病理即病理切片数字化的出现,使得通过计算机对病理图像进行处理和分析成为可能,加快了传统病理检查向着数字化、自动化、可量化方向发展。然而,对于基于胃肠道间质瘤组织病理学图像预测患者靶向药物类型选择的辅助预测系统,迄今未见研究。
技术实现思路
1、本发明的目的在于提供一种基于人工智能的gist靶向药物类型选择预测方法及系统,以解决上述背景技术中提出的基于胃肠道间质瘤组织病理学图像预测患者靶向药物类型选择的辅助预测系统迄今未见研究的问题。
2、为实现上述目的,本发明提供如下技术方案:
3、一种基于人工智能的gist靶向药物类型选择预测方法,包括以下步骤:
4、获取目标对象的组织病理切片的数字病理图像,将目标对象的组织病理切片的数字病理图像输入gist靶向药物类型选择预测模型,得到与数字病理图像对应的靶向药物类型预测结果,其中,gist靶向药物类型选择预测模型的生成方法为:
5、获取用于模型训练的组织病理切片的数字病理图像,将该数字病理图像切割为若干分块图像,利用预生成的特征提取器提取所有分块图像的特征;
6、将特征输入神经网络模型中进行训练,得到gist靶向药物类型选择预测模型;
7、其中,将特征输入神经网络模型中进行训练,得到gist靶向药物类型选择预测模型,包括以下步骤:
8、基于transmil网络模型对输入的分块图像的特征进行聚合,以得到一个描述整张数字病理图像的第一全局特征;
9、通过transmil网络模型中多头自注意力模块计算每个分块图像的注意力分数,然后将每个分块图像的注意力分数通过softmax操作转为每个分块图像的权重,然后根据权重信息将所有的分块图像特征聚合为第二全局特征;再将第一全局特征和第二全局特征串联拼接,并通过transmil网络模型中的线性层映射得到最终的全切片级别的第三全局特征;
10、将第三全局特征输入分类器进行分类,并计算得到一个概率输出;
11、使用交叉熵和平方损失函数计算损失,通过反向传播优化整个网络,通过循环迭代训练得到最终的gist靶向药物类型选择预测模型,其中,交叉熵和平方损失函数为:
12、;
13、式中,是第个组织病理切片的预测结果中对于第个类别的概率,是第i张全切片的独热编码形式的标签。
14、作为本发明进一步的方案:所述特征提取器的生成方法,包括:
15、将所述分块图像关联伪标签,将带有伪标签的分块图像组成特征提取网络预训练数据集,其中,伪标签与分块图像的组织病理切片标签相同;
16、将特征提取网络预训练数据集输入特征提取网络进行训练,生成gist靶向药物类型选择预测方法的特征提取器。
17、作为本发明再进一步的方案:将数字病理图像切割为若干固定大小的分块图像的方法,包括以下步骤:
18、获取组织病理学图像数据集,所述组织病理学图像数据集包括组织病理切片的数字病理图像以及与组织病理切片病变类别相关联的靶向药物选择类别标签;
19、将数字病理图像通过窗口滑动的方式切割成无重复且固定大小的分块图像,并去除分块图像的背景。
20、作为本发明再进一步的方案:所述特征提取网络包括query分支和key分支,其中,query分支由一个编码器和一个投影器组成,编码器和投影器由参数定义;key分支与query分支具有相同的结构,key分支由一个编码器和一个投影器组成,编码器和投影器由参数定义,key分支的参数由query分支的参数基于指数移动平均(ema)机制更新,指数移动平均(ema)机制为:。
21、作为本发明再进一步的方案:将特征提取网络预训练数据集输入特征提取网络进行训练,生成gist靶向药物类型选择预测方法的特征提取器,利用特征提取器提取所有分块图像的特征的方法,包括以下步骤:
22、采用不同的数据增强方法对分块图像进行处理得到两个增强视图,为每个组织病理切片病变类别构建一个存储队列,在存储队列中存入与存储队列类别相同的增强视图,在存储队列中,来源于同一个分块图像的两个增强视图之间构成一个正样本对,来源于不同分块图像的两个增强视图之间构成一个负样本对;
23、利用特征提取网络对每一个增强视图进行处理,得到增强视图的特征向量;
24、对特征提取网络进行优化,增大正样本对之间的相似度并降低负样本对之间的相似度,特征提取网络优化完成后作为特征提取器提取所有分块图像的特征。
25、作为本发明再进一步的方案:采用两种不同的数据增强方法对图像块进行处理,得到两个不同的增强视图和,将增强视图和送入query分支和key分支,分别通过编码器处理得到编码特征和,再通过投影器得到增强视图的特征向量和增强视图的特征向量。
26、作为本发明再进一步的方案:通过损失函数对特征提取网络进行优化,所述损失函数为:
27、;
28、其中,是存储队列的容量,是作为负样本对比的切片类别集合,表示类别的存储队列中第个样本,i、j为正整数。
29、作为本发明再进一步的方案:特征提取器提取分块图像特征的方法,包括以下步骤:
30、特征提取网络优化完成后,将query分支的编码器的权重取出作为特征提取器的加载权重,并用于提取每个分块图像的特征,该特征可用于gist靶向药物类型选择预测模型的训练;
31、利用特征提取器提取每个分块图像的特征,提取方法如下:
32、将加载预训练权重的特征提取网络作为分块图像的特征提取器,对于切割好的分块图像,每个分块图像被提取为,表示一个特征向量,组织病理切片的数字病理图像经过特征提取后可表示为。
33、一种基于人工智能的gist靶向药物类型选择预测系统,包括:
34、图像采集模块,用于获取组织病理切片的数字病理图像,将数字病理图像切割为若干固定大小的分块图像,将分块图像划分为训练集和测试集,其中,训练集用于模型训练,测试集用于模型测试;
35、图像处理模块,用于从训练集中随机选取分块图像,将所选的分块图像关联伪标签,将带有伪标签的分块图像组成特征提取网络预训练数据集,其中,伪标签与分块图像的组织病理切片标签相同;还用于将特征提取网络预训练数据集输入特征提取网络进行训练,生成gist靶向药物类型选择预测方法的特征提取器,利用特征提取器提取所有分块图像的特征;以及,用于将特征输入神经网络模型中进行训练,得到gist靶向药物类型选择预测模型;
36、预测信息导出模块,用于将组织病理切片的数字病理图像输入gist靶向药物类型选择预测模型,得到与数字病理图像对应的靶向药物类型预测结果;
37、其中,将特征输入神经网络模型中进行训练,得到gist靶向药物类型选择预测模型,包括以下步骤:
38、基于transmil网络模型对输入的分块图像的特征进行聚合,以得到一个描述整张数字病理图像的第一全局特征;
39、通过transmil网络模型中多头自注意力模块计算每个分块图像的注意力分数,然后将每个分块图像的注意力分数通过softmax操作转为每个分块图像的权重,然后根据权重信息将所有的分块图像特征聚合为第二全局特征;再将第一全局特征和第二全局特征串联拼接,并通过transmil网络模型中的线性层映射得到最终的全切片级别的第三全局特征;
40、将第三全局特征输入分类器进行分类,并计算得到一个概率输出;
41、使用交叉熵和平方损失函数计算损失,通过反向传播优化整个网络,通过循环迭代训练得到最终的gist靶向药物类型选择预测模型,其中,交叉熵和平方损失函数为:
42、;
43、式中,是第个组织病理切片的预测结果中对于第个类别的概率,是第i张全切片的独热编码形式的标签。
44、与现有技术相比,本发明的有益效果是:本发明利用训练集数据结合神经网络模型生成gist靶向药物类型选择预测模型,相较于以往技术,本技术将特征提取器、gist靶向药物类型选择预测模型结合,本技术通过基于注意力的线性聚合所有的分块图像的信息得到第二全局特征,然后第一全局特征、第二全局特征进行信息融合再进行分类,解决了图像信息缺失的问题,可以更好的识别数字病理切片空间光谱,对肿瘤区域识别更加准确,更细致的识别数字病理切片中的不同组织成分、细胞形态、细胞内亚器官结构,本技术可以捕获几乎所有目标肿瘤区域,比现有全切片分析技术更加精确。
45、此外,本技术通过gist靶向药物类型选择预测模型直接得到目标对象数字病理图像对应的靶向药物使用类型预测结果;能够针对胃肠道间质瘤患者的数字病理图像开展大量带有伪标签图像数据的弱监督特征学习,辅助模型获取更具有泛化能力的病理图像特征,分类出的靶向药物选择粒度更细,不仅能够识别靶向药物是否需要使用,还能获取更加具体的靶向药物类型信息,并根据其不同结构,将其分为不同类型药物治疗组别,从而节省医疗资源。