本发明涉及计算机视觉,具体是涉及一种医学影像报告生成方法、装置、电子设备及存储介质。
背景技术:
1、在医学领域,自动生成医学影像报告的技术方案是在大模型的基础上,结合医学影像的图像特征和病理特征,生成报告文本,但是,现有的大模型对疾病感知能力不足,导致在生成医学影像报告文本缺少对症状进行描述,容易出现漏诊和误诊的情况。
技术实现思路
1、本发明提供一种医学影像报告生成方法、装置、电子设备及存储介质,能够生成高质量的医学影像报告。
2、第一方面,本发明提供一种医学影像报告生成方法,所述方法包括:
3、获取输入图像,并对所述输入图像进行特征提取,以得到视觉特征;
4、获取多个模板文本,并对每个所述模板文本进行特征提取,以得到多个文本特征;
5、基于所述视觉特征和所述多个文本特征,确定线索文本特征,其中,所述线索文本特征为所述多个文本特征中与所述视觉特征的关联程度最高的文本特征;
6、将所述视觉特征和所述线索文本特征作为用于训练预设大语言模型的输入特征,并对所述预设大语言模型进行微调;
7、获取待识别的医学图像,并通过微调后的预设大语言模型,对所述待识别的医学图像进行识别后生成医学影像报告。
8、可选地,所述基于所述视觉特征和所述多个文本特征,确定线索文本特征,其中,所述线索文本特征为所述多个文本特征中与所述视觉特征的关联程度最高的文本特征,包括:
9、获取疾病线索专家令牌以及视觉疾病专家令牌,其中,所述视觉疾病专家令牌与所述视觉特征之间具有映射关系,所述疾病线索专家令牌与所述文本特征具有映射关系;
10、对所述疾病线索专家令牌与所述视觉疾病专家令牌进行归一化处理,以确定权重值;
11、基于所述权重值,对每个所述文本特征进行加权处理;
12、基于权重值与索引值之间的预设函数关系,确定对应预设索引值的加权处理后的文本特征并作为所述线索文本特征。
13、可选地,对所述输入图像进行特征提取的步骤具体为通过视觉编码器对所述输入图像进行特征提取;
14、对每个所述模板文本进行特征提取的步骤具体为通过文本编码器对每个所述模板文本进行特征提取;
15、所述医学影像报告生成方法还包括:
16、获取图像与文本匹配的数据组,其中,所述数据组包括相互匹配的样本图像和样本文本;
17、将所述样本图像进行前置处理后输入至所述视觉编码器,以生成预训练视觉特征,并将所述样本文本进行前置处理后输入至所述文本编码器,以生成预训练文本特征;
18、基于所述预训练视觉特征和所述预训练文本特征,确定预训练损失函数;
19、基于所述预训练损失函数,对所述视觉编码器的参数和所述文本编码器的参数分别进行调节,以对所述视觉编码器和所述文本编码器分别进行预训练。
20、可选地,当所述图像与文本匹配的数据组包括多个样本图像时,将所述样本图像进行编码处理后输入至所述视觉编码器以生成预训练视觉特征的步骤包括:
21、对每个所述样本图像进行数值转换处理,以得到多个数值序列;
22、对每个所述数值序列进行位置编码处理,以得到多个编码后的数值序列;
23、将每个所述编码后的数值序列,输入至所述视觉编码器,并输出多个视觉特征值;
24、对每个所述视觉特征值进行池化处理,并根据多个池化处理后的视觉特征值,生成所述预训练视觉特征。
25、可选地,所述将所述视觉特征和所述线索文本特征作为用于训练预设大语言模型的输入特征,并对所述预设大语言模型进行微调,包括:
26、生成公共特征;
27、构建公共特征与视觉特征之间的映射关系,以及公共特征与线索文本特征之间的映射关系;
28、基于所述公共特征与视觉特征之间的映射关系,确定融合视觉特征,并基于所述公共特征与线索文本特征之间的映射关系,确定融合线索特征;
29、将所述融合视觉特征和所述融合线索文本特征作为用于训练所述预设大语言模型的输入特征,并对所述预设大语言模型进行微调。
30、可选地,所述构建公共特征与视觉特征之间的映射关系以及公共特征与线索文本特征之间的映射关系,包括:
31、利用注意力机制,生成对应所述视觉特征的视觉标记值、对应所述线索文本特征的疾病线索标记值以及对应所述公共特征的学习标记值;
32、构建包括所述视觉标记值、所述疾病线索标记值以及所述学习标记值的函数关系,其中,所述函数关系包括所述公共特征与视觉特征之间的映射关系以及所述公共特征与线索文本特征之间的映射关系。
33、可选地,所述将所述视觉特征和所述线索文本特征作为用于训练预设大语言模型的输入特征,并对所述预设大语言模型进行微调,还包括:
34、基于所述视觉标记值和所述疾病线索标记值,构建总损失函数;
35、基于所述总损失函数,对所述预设大语言模型进行微调。
36、第二方面,本发明提供一种医学影像报告生成装置,所述装置包括:
37、第一获取模块,用于获取输入图像,并对所述输入图像进行特征提取,以得到视觉特征;
38、第二获取模块,用于获取多个模板文本,并对每个所述模板文本进行特征提取,以得到多个文本特征;
39、检索模块,用于基于所述视觉特征和所述多个文本特征,确定线索文本特征,其中,所述线索文本特征为所述多个文本特征中与所述视觉特征的关联程度最高的文本特征;
40、调节模块,用于将所述视觉特征和所述线索文本特征作为用于训练预设大语言模型的输入特征,并对所述预设大语言模型进行微调;
41、生成模块,用于获取待识别的医学图像,并通过微调后的预设大语言模型,对所述待识别的医学图像进行识别后生成医学影像报告。
42、第三方面,本发明提供一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上任一项所述的医学影像报告生成方法。
43、第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的医学影像报告生成方法。
44、本发明至少具有以下有益效果:
45、本发明通过从多个模板文本提取文本特征,有利于丰富医学影响报告中描述疾病的句子。通过从多个文本特征中筛选出与视觉特征的关联程度最高的线索文本特征,并将视觉特征和线索文本特征用于训练预设大语言模型,以对预设大语言模型进行微调,从而增强视觉特征与文本特征之间的关联性,使医学图像与文本报告之间的颗粒度对齐,进而提高微调后的预设大模型的疾病感知能力。微调后的预设大模型更适用于识别医学影像,通过微调后的预设大语言模型对待识别的医学图像进行识别,并输出对疾病信息描述更准确、更详细的高质量的医学影像报告。