多视图医学图像与文本报告之间的互学习方法及系统

文档序号:41417387发布日期:2025-03-25 19:15阅读:40来源:国知局
多视图医学图像与文本报告之间的互学习方法及系统

本发明涉及人工智能,尤其涉及多视图医学图像与文本报告之间的互学习方法及系统。


背景技术:

1、随着深度学习技术的快速发展,人工智能在辅助医疗诊断和监测医疗状况方面发挥着至关重要的作用。人工智能辅助技术已证明其在常规临床任务中的有效性,包括疾病诊断和医学变量的量化。然而,为特定应用从头开始训练单个模型可能需要大量的计算,并需要大量的手动注释,这从根本上限制了医学应用的进步。因此,迫切需要开发能够处理多种临床应用的基础医学模型。

2、大规模带注释数据集的长期缺乏仍然是医学领域的一个重大挑战,一种广泛采用的减轻下游任务注释负担的解决方案涉及利用预训练模型。视觉语言基础模型在临床环境中的应用通过利用医学报告作为辅助信号,避免了对传统注释数据的依赖。这种方法使模型能够学习适用于各种任务和领域的鲁棒和可转移的特征表示。通过部署特定任务的头并利用模型的高质量特征表示,大大减少了对大量手动注释的需。

3、convirt是医学视觉语言预训练最早的方法之一,其率先使用放射学文本报告通过跨模态的双向对比学习来指导视觉表征学习。这种方法使模型能够泛化到以前看不见的样本,熟练地区分匹配和不匹配的图像文本对。然而,convirt只关注全局特征比较忽略了局部细粒度特征的关键作用。为了解决这一差距,gloria引入了一种细粒度加权机制,该机制计算单个单词和特定图像补丁之间的相似性,从而生成单词级响应。基于这一概念,mgca通过引入多粒度对齐进一步改进了gloria,以学习细粒度视觉和文本标记之间的对应关系。

4、基于重建的自监督学习为convirt、gloria和mgca等跨模态对齐方法提供了一种补充方法。它不是专注于视觉和文本特征之间的直接比较,而是通过重建输入数据的掩模部分来增强特征提取,捕获全局和局部语义。mae和m3ae等模型通过联合重建图像和文本、学习鲁棒表示来采用这种策略。然而,m3ae并没有充分利用这两种模式之间的关系。为了解决这个问题,mrm在报告重建过程中通过全局平均池(gap)集成视觉信息,优化语义特征表示。尽管如此,这些模型仍然难以完全整合视觉和文本信息,限制了它们的整体有效性。

5、虽然视觉语言模型的掩模重建策略的进步意味着进步,但现有的方法往往忽视了多视图医学图像的重要性,这些图像在临床实践中经常生成,并具有关键的视图间关系。这些关联在丰富视觉表征学习方面具有巨大的潜力。尽管最近的研究试图将多视图图像纳入联合训练中,但简单地将它们连接起来并将其输入模型已被证明不足以捕捉病变语义或个性化特征。这种简单的方法通常会导致信息冗余,强调需要更复杂的技术来有效地利用医学人工智能中的多视图数据。


技术实现思路

1、本发明提供多视图医学图像与文本报告之间的互学习方法及系统,解决的技术问题在于:基于多视图图像和相应文本报告之间存在复杂的跨模态关系,目前的视觉语言基础模型无法对多视角图数据进行有效应用。

2、为解决以上技术问题,本发明提供多视图医学图像与文本报告之间的互学习方法,包括步骤:

3、s1、构建互学习模型;

4、所述互学习模型用于实现图像重建任务、报告重建任务和多视图对齐任务,所述图像重建任务为从多个拍摄角度的多视图医学图像提取视觉特征得到一幅重建医学图像;报告重建任务为从该多视图医学图像对应的文本报告提取报告特征,并集成所述报告特征和所述视觉特征生成跨模态的重建文本报告;所述多视图对齐任务为在特征空间中对齐多视图医学图像和文本报告;

5、s2、对所述图像重建任务、所述报告重建任务和所述多视图对齐任务分别进行预训练;

6、s3、对预训练的所述图像重建任务、所述报告重建任务和所述多视图对齐任务进行联合训练。

7、进一步地,所述图像重建任务包括视觉编码阶段、图像重建阶段;所述视觉编码阶段是采用图像掩模对输入的各视图图像进行盖掩后,采用图像编码器提取各盖掩图像的特征并进行融合,得到融合图像;所述图像重建阶段是采用视觉解码器将视觉编码阶段得到的融合图像进行重建,得到重建图像。

8、进一步地,所述采用图像掩模对输入的各视图图像进行盖掩具体包括图像输入过程、图像掩模过程和图像编码过程,所述图像输入过程是对输入的多视图图像进行图像分割,得到对应的图像块,构成补丁序列;所述图像掩模过程是采用图像掩模在各视图图像的补丁序列中随机选择i个块进行盖掩得到盖掩图像;所述图像编码过程是将各视图图像对应的盖掩图像输入共享的图像编码器中进行特征提取,得到对应的盖掩图像特征。

9、进一步地,所述采用图像编码器提取各盖掩图像的特征并进行融合具体包括语义评估过程、权重计算过程和图像融合过程;所述语义评估过程是对采用各视图图像对应的掩模矩阵与图像编码过程中的可学习矩阵进行相乘,得到对应的语义评估得分矩阵;所述权重计算过程是根据语义评估得分矩阵计算各视图图像的盖掩图像中未被盖掩部分的权重;所述图像融合过程是将各视图图像对应的权重和盖掩图像特征中未被盖掩的图像特征进行相乘,然后将所有视图图像的相乘结果进行相加,得到融合图像。

10、进一步地,所述报告重建任务包括报告输入过程、报告掩模过程、报告编码过程、多模态融合过程、报告解码过程;所述报告输入过程是将原始文本报告通过分词器转换为原始单词块序列;所述报告掩模过程是采用报告掩模对原始单词块序列随机选择n个单词块进行盖掩,获得原始单词块盖掩序列和原始单词块未盖掩序列;所述报告编码过程是通过采用报告编码器对所述原始单词块未盖掩序列进行特征提取,得到文本嵌入;所述多模态融合过程是将所述文本嵌入与所述融合图像进行整合,得到新的文本嵌入。

11、进一步地,所述多模态融合过程设计了一个基于交换的图像文本融合模块;所述图像文本融合模块采用两个具有共享参数的编码器来分别计算融合图像和文本嵌入的注意力得分,然后在交换层用具有最低注意力分数的图像信息替换相应位置的文本信息,得到新的文本嵌入。

12、进一步地,所述多视图对齐任务包括多视图编码阶段、多文本编码阶段、多视图对齐阶段;所述多视图编码阶段是采用共享的图像编码器将各视图图像对应的盖掩图像编码到特征空间中,获得对应的各视图盖掩图像特征;

13、多文本编码阶段包括对原始文本报告进行增强,得到增强文本报告,然后对增强文本报告进行盖掩,得到增强盖掩文本报告;然后将原始盖掩文本报告、增强盖掩文本报告馈送到共享的报告编码器中,从而产生相应的原始盖掩文本报告特征和增强盖掩文本报告特征;

14、所述多视图对齐阶段用于将多个视图盖掩图像特征和多个盖掩文本报告特征进行一一配对然后通过训练的方式进行特征对齐。

15、进一步地,在对所述图像重建任务的预训练过程中,采用均方误差损失函数计算重建图像中重建的i个图像块和相应的真值块之间的损失在对所述报告重建任务的预训练过程中,采用条件概率函数计算图像编码器、报告解码器和图像文本融合模块之间的损失在对所述多视图对齐任务的预训练过程中,计算每对视图盖掩图像特征和盖掩文本报告特征之间的损失。

16、进一步地,对预训练的所述图像重建任务、所述报告重建任务和所述多视图对齐任务进行联合训练所采用的损失函数等于λra为平衡各类损失的权重系数,分别为所述图像重建任务、所述报告重建任务和所述多视图对齐任务的损失;等于带权重系数的多对视图图像和文本报告之间的对齐损失之和。

17、本发明还提供一种多视图医学图像与文本报告之间的互学习系统,其关键在于:该系统设有智能体,该智能体用于实现所述的多视图医学图像与文本报告之间的互学习方法。

18、本发明提供的多视图医学图像与文本报告之间的互学习方法及系统,通过构建互学习模型并将互学习模型的学习过程划分为图像重建任务、报告重建任务和多视图对齐任务,图像重建任务获取多视图医学图像的特征表示,报告重建任务获取文本报告的特征表示并将其与图像特征表示进行跨模态融合得到重建文本报告,多模态重建任务的集成使模型能够学习更丰富、更详细的特征表示,提高了其对丢失或损坏数据的鲁棒性。此外,跨模态文本重建中基于交换的多模态融合方法旨在充分整合视觉特征,丰富领域特定知识的语义表示,这种方法增强了模型探索病变信息的能力,通过预训练和联合训练,优化模型性能,以便在应用该互学习模型后获得更准确和全面的诊断结果。实验结果证明了本发明的有效性和优异性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1