本发明涉及肿瘤风险预测,尤其是涉及一种基于病理图像的多模态乳腺肿瘤风险预测方法及系统。
背景技术:
1、乳腺癌是最常见的女性恶性肿瘤之一,准确评估乳腺癌患者的生存风险对于制定个体化治疗策略至关重要,有望显著提高患者的生存率和生活质量。然而,传统的预后评估方法主要依赖组织病理检查和临床分期,难以全面捕捉肿瘤的异质性和内在的分子生物学行为,导致部分患者的风险被低估或高估。近年来,基因组学、蛋白质组学等层面的生物标志物为深入探索肿瘤发生发展机制提供了新视角。将这些前沿分子数据与传统的影像学相结合,构建多模态的数据融合模型,有望实现乳腺癌患者生存风险的精准预测。
2、当前对于乳腺癌患者生存预测,多采用基于统计的方法或者传统单模态模型的方法。具体主要如下。
3、(1)基于统计模型的多变量风险评分系统,根据医生经验或简单推断,通过对多种临床病理特征或其他临床指标赋予权重并线性组合构建风险评分公式,对患者进行风险分层。这种方法简单直观,更多依赖医生主观经验。
4、(2)基于机器学习的方法,利用诸如逻辑回归、支持向量机等算法对多个结构化预测因子进行整合,构建分类或回归模型预测患者风险。这些传统机器学习模型对数据的非线性和维度较为鲁棒,但缺乏对非结构化数据的高层语义特征自动提取能力。
5、(3)基于深度学习的方法,通过卷积神经网络等深层神经网络自动学习影像和分子数据的高层次表示,并与临床信息融合构建风险预测模型。这种方法具有强大的非线性映射能力,但对于多模态数据的融合仍面临诸多挑战,如模态差异、数据不平衡等。
6、且现有技术中,存在这以下若干缺点:
7、(1)现有基于统计模型或传统机器学习算法(如支持向量机、决策树等)构建的风险评分系统和预测模型,由于只能对数据的线性组合建模,无法充分捕捉肿瘤高度复杂的非线性生物学过程。同时这些传统模型难以自动学习影像数据的高层次特征表示,需要人工设计和提取低级特征,导致信息损失和模型性能受限。
8、(2)现有基于深度学习的模型,在融合异构数据的过程中仍存在一些不足。一方面,现有模型多采用影像单一模态进行分析预测;另一方面,鲜有使用多模态融合的模型多为直接简单融合,在融合时通常简单地将不同模态的特征串行堆叠,缺乏有效的交互机制,无法充分挖掘不同模态数据间的内在关联,难以发挥各模态的协同优势。
9、(3)癌症是一种系统性疾病,肿瘤细胞与周围微环境相互作用。然而,现有的多模态融合模型主要集中于整合患者病理数据,缺乏对肿瘤微观视角的考虑,这在一定程度上限制了模型的解释能力和鲁棒性。
10、综上所述,现有技术在充分融合多源异构数据、捕捉肿瘤内在的复杂生物学过程以及解释潜在分子机制等方面仍然面临诸多挑战,难以实现高精度的个体化生存风险预测。
技术实现思路
1、为了解决上述提到的问题,本发明提供一种基于病理图像的多模态乳腺肿瘤风险预测方法及系统。通过resnet-101提取图像数据特征,使模型具备捕捉病理组织切片全局信息的能力。基于双向交叉注意力融合策略,在病理图像特征和基因组数据之间建立内在关联,并组合为完整的网络,可以端到端的预测患者生存风险,为精准医疗和个体化治疗提供了有力支撑。
2、第一方面,本发明提供的一种基于病理图像的多模态乳腺肿瘤风险预测方法,采用如下的技术方案:
3、一种基于病理图像的多模态乳腺肿瘤风险预测方法,包括:
4、获取病理图像数据和基因序列数据;
5、对病理图像数据和基因序列数据进行数据预处理;
6、构建多模态乳腺肿瘤风险预测模型;
7、利用多模态乳腺肿瘤风险预测模型对预处理后的数据进行特征提取,并对提取的特征进行特征融合;
8、利用多模态乳腺肿瘤风险预测模型对融合后的特征进行肿瘤风险预测;
9、基于损失函数和adam优化算法对模型进行训练及优化,得到优化后的多模态乳腺肿瘤风险预测模型。
10、进一步地,所述对病理图像数据和基因序列数据进行数据预处理,包括对病理图像数据进行标准化处理和降噪处理;对基因序列数据进行参考基因组比对,识别基因表达和变异位点,后进行归一化处理。
11、进一步地,所述利用多模态乳腺肿瘤风险预测模型对预处理后的数据进行特征提取,包括利用多模态乳腺肿瘤风险预测模型的resnet-101网络对病理图像数据进行病理图像特征提取,利用多模态乳腺肿瘤风险预测模型的全连接神经网络对基因序列数据进行基因序列特征提取。
12、进一步地,所述对提取的特征进行特征融合,包括通过计算病理图像特征和基因序列特征之间的相似度,得到每个特征的权重,并通过对权重加权求和得到病理图像特征和基因序列特的特征表示,最后通过特征拼接得到统一的特征向量。
13、进一步地,所述利用多模态乳腺肿瘤风险预测模型对融合后的特征进行肿瘤风险预测,包括通过学习特征向量和肿瘤风险之间的映射关系,得到肿瘤风险系数,其中,利用全连接层连接relu函数后引入softmax层,输出风险系数。
14、进一步地,所述基于损失函数和adam优化算法对模型进行训练及优化,包括构建负对数似然损失函数,通过负对数似然损失函数判断模型预测的肿瘤风险系数的概率分布与实际观测数据之间的差异,计算公式如下:
15、
16、其中,l表示负对数似然损失函数,n是样本数量,yi是第i个样本的真实生存状态,pi是模型预测的第i个样本的生存概率。
17、进一步地,所述基于损失函数和adam优化算法对模型进行训练及优化,还包括利用adam优化算法加速模型的收敛速度,其中,adam通过迭代对参数进行更新,直至模型性能达到最优,其中,利用动量给梯度下降过程增加惯性,使模型在面对局部最小值时保持前进动力,加速收敛速度,避免局部最优。
18、第二方面,一种基于病理图像的多模态乳腺肿瘤风险预测系统,包括:
19、数据获取模块,被配置为,获取病理图像数据和基因序列数据;
20、预处理模块,被配置为,对病理图像数据和基因序列数据进行数据预处理;
21、模型构建模块,被配置为,构建多模态乳腺肿瘤风险预测模型;
22、特征提取模块,被配置为,利用多模态乳腺肿瘤风险预测模型对预处理后的数据进行特征提取,并对提取的特征进行特征融合;
23、风险预测模块,被配置为,利用多模态乳腺肿瘤风险预测模型对融合后的特征进行肿瘤风险预测;
24、训练优化模块,被配置为,基于损失函数和adam优化算法对模型进行训练及优化,得到优化后的多模态乳腺肿瘤风险预测模型。
25、第三方面,本发明提供一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于病理图像的多模态乳腺肿瘤风险预测方法。
26、第四方面,本发明提供一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种基于病理图像的多模态乳腺肿瘤风险预测方法。
27、综上所述,本发明具有如下的有益技术效果:
28、本发明能够高效整合病理图像与基因组数据,以实现对乳腺癌患者生存风险的精准预测。具体而言,包括以下几个方面:
29、1.多模态数据融合:提案提出的模型能够同时处理病理图像和基因序列数据,通过创新的双向交叉注意力机制,实现两种模态数据的深度融合,这在现有技术中尚属首次。
30、2.双路特征提取模块:模型引入双路特征提取模块,有效兼顾病理图像数据和基因序列数据。
31、3.双向交叉注意力融合模块:本提案引入的双向交叉注意力机制是现有技术中所缺乏的,它允许模型在病理图像特征和基因序列特征之间建立复杂的交互关系,这种机制能够更好地挖掘两种模态数据间的内在联系。
32、4.端到端预测:通过整合双路特征提取、双向交叉注意力融合和预测生成模块,模型能够直接从原始数据到生存风险预测结果,形成一个完整的端到端预测流程。
33、5.鲁棒性与泛化能力:通过数据增强、正则化策略和早停策略,模型在提高预测准确性的同时,也具备了良好的鲁棒性和泛化能力。