一种放射学报告生成方法、装置、终端及存储介质与流程

文档序号:29644867发布日期:2022-04-13 19:54阅读:173来源:国知局
一种放射学报告生成方法、装置、终端及存储介质与流程

1.本发明涉及深度学习技术领域,特别涉及一种放射学报告生成方法、装置、终端及存储介质。


背景技术:

2.放射学影像在医学领域中广泛应用,根据放射学影像编写的诊断报告中需要对放射学影像进行描述,然而编写放射学报告通常是耗时的,需要全面的知识和丰富的经验来理解放射学影像。
3.因此,现有技术还有待改进和提高。


技术实现要素:

4.针对现有技术的上述缺陷,本发明提供一种放射学报告生成方法,旨在解决现有技术放射学报告编写耗时长的问题。
5.为了解决上述技术问题,本发明所采用的技术方案如下:
6.本发明的第一方面,提供一种放射学报告生成方法,所述方法包括:
7.获取待处理影像,将所述待处理影像输入至已训练的报告生成模型,其中,所述报告生成模型包括视觉特征编码器、目标嵌入矩阵、潜在特征编码器和分层解码器,所述分层解码器包括第一注意力层、第二注意力层和第三注意力层;
8.通过所述视觉特征编码器获取所述待处理影像的视觉特征,将所述待处理影像的视觉特征输入至所述潜在特征编码器,获取所述潜在特征编码器输出的所述待处理影像对应的潜在特征;
9.根据所述目标嵌入矩阵获取当前的放射学报告中的每个字符的嵌入特征,将每个所述嵌入特征输入至所述第一注意力层,获取所述第一注意力层输出的当前的所述放射学报告中每个字符的第一字符级特征以及每个句子的第一聚合特征;
10.将当前的所述放射学报告的每个句子的所述第一聚合特征和所述待处理影像的潜在特征输入至所述第二注意力层,通过所述第二注意力层将所述待处理影像的潜在特征编码至当前的所述放射学报告的每个句子的语义特征中,得到当前的所述放射学报告中每个句子的第二聚合特征;
11.将各个所述第二聚合特征、各个所述第一字符级特征以及所述待处理影像的视觉特征输入至所述第三注意力层,通过所述第三注意力层将所述待处理影像的视觉特征编码至当前的所述放射学报告的每个字符的语义特征中,得到当前的所述放射学报告的每个字符对应的第二字符级特征,根据各个所述第二字符级特征获取当前的所述放射学报告中的下一个字符;
12.重复执行所述根据所述目标嵌入矩阵获取当前的放射学报告中的每个字符的嵌入特征的步骤,直至获取到预设结束字符,得到所述待处理影像对应的目标放射学报告;
13.其中,所述放射学报告的初始内容为预设句子标记字符。
14.所述的放射学报告生成方法,其中,所述报告生成模型是根据预设数据集训练得到的,所述预设数据集中包括多组训练样本,每组训练样本中包括样本影像以及对应的样本放射学报告;所述将所述待处理影像输入至已训练的报告生成模型之前,包括:
15.在所述预设数据集中选择目标训练样本;
16.将所述目标训练样本中的样本影像输入至所述报告生成模型,获取所述样本影像的所述视觉特征;
17.将所述目标训练样本中的样本放射学报告输入至文本编码器,获取所述样本放射学报告的文本特征,将所述文本特征输入至所述潜在特征编码器,获取所述样本放射学报告对应的所述潜在特征;
18.将所述样本影像的所述视觉特征、所述样本放射学报告中的第一个字符和所述样本放射学报告对应的所述潜在特征输入至所述分层编码器,得到所述样本放射学报告对应的预测报告;
19.根据所述预测报告获取所述目标训练样本的损失,根据所述目标训练样本的损失更新所述报告生成模型的网络参数;
20.重新执行所述在所述预设数据集中选择目标训练样本的步骤,直至所述报告生成模型的参数收敛。
21.所述的放射学报告生成方法,其中,所述根据所述预测报告获取所述目标训练样本的损失,包括:
22.根据所述预测报告获取第一概率分布,所述第一概率分布为所述文本特征对应的所述潜在特征和所述样本影像联合条件下所述预测报告为所述样本放射学报告的概率分布;
23.将所述样本影像的所述视觉特征输入至所述潜在特征编码器,根据所述潜在特征编码器的输出获取第二概率分布,所述第二概率分布为所述样本影像条件下所述文本特征对应的所述潜在特征的概率分布;
24.根据所述文本特征对应的所述潜在特征获取第三概率分布,所述第三概率分布为所述样本放射学报告条件下所述文本特征对应的所述潜在特征的概率分布;
25.根据所述第一概率分布、所述第二概率分布和所述第三概率分布获取所述目标训练样本的损失。
26.所述的放射学报告生成方法,其中,所述获取所述第一注意力层输出的当前的所述放射学报告中每个字符的第一字符级特征以及每个句子的第一聚合特征,包括:
27.将当前的所述放射学报告中每个句子的所述预设句子标记字符对应的所述第一字符级特征作为所述放射学报告中每个句子的所述第一聚合特征。
28.所述的放射学报告生成方法,其中,所述通过所述第二注意力层将所述待处理影像的潜在特征编码至当前的所述放射学报告的每个句子的语义特征中,得到当前的所述放射学报告中每个句子的第二聚合特征,包括:
29.根据句子的所述第一聚合特征生成句子的查询嵌入;
30.根据所述待处理影像的潜在特征生成句子的键嵌入和值嵌入;
31.根据每个句子的查询嵌入、键嵌入和值嵌入执行多头注意力机制得到每个句子的所述第二聚合特征。
32.所述的放射学报告生成方法,其中,所述通过所述第三注意力层将所述待处理影像的视觉特征编码至当前的所述放射学报告的每个字符的语义特征中,得到当前的所述放射学报告的每个字符对应的第二字符级特征,包括:
33.根据文字字符的所述第一字符级特征生成文字字符的查询嵌入,根据句子的所述第二聚合特征生成句子的所述预设句子标记字符的查询嵌入;
34.根据所述待处理影像的视觉特征生成字符的键嵌入和值嵌入;
35.根据每个字符的查询嵌入、键嵌入和值嵌入执行多头注意力机制得到每个字符的所述第二字符级特征。
36.所述的放射学报告生成方法,其中,所述分层解码器还包括前馈层,所述前馈层中包括至少一个线性变换层;所述根据各个所述第二字符级特征获取当前的所述放射学报告中的下一个字符,包括:
37.将各个所述第二字符级特征输入至所述前馈层;
38.根据所述前馈层的输出得到当前的所述放射学报告中的下一个字符。
39.本发明的第二方面,提供一种放射学报告生成装置,包括:
40.影像获取模块,所述影像获取模块用于获取待处理影像,将所述待处理影像输入至已训练的报告生成模型,其中,所述报告生成模型包括视觉特征编码器、目标嵌入矩阵、潜在特征编码器和分层解码器,所述分层解码器包括第一注意力层、第二注意力层和第三注意力层;
41.潜在特征提取模块,所述潜在特征提取模块用于通过所述视觉特征编码器获取所述待处理影像的视觉特征,将所述待处理影像的视觉特征输入至所述潜在特征编码器,获取所述潜在特征编码器输出的所述待处理影像对应的潜在特征;
42.第一注意力模块,所述第一注意力模块用于根据所述目标嵌入矩阵获取当前的放射学报告中的每个字符的嵌入特征,将每个所述嵌入特征输入至所述第一注意力层,获取所述第一注意力层输出的当前的所述放射学报告中每个字符的第一字符级特征以及每个句子的第一聚合特征;
43.第二注意力模块,所述第二注意力模块用于将当前的所述放射学报告的每个句子的所述第一聚合特征和所述待处理影像的潜在特征输入至所述第二注意力层,通过所述第二注意力层将所述待处理影像的潜在特征编码至当前的所述放射学报告的每个句子的语义特征中,得到当前的所述放射学报告中每个句子的第二聚合特征;
44.第三注意力模块,所述第三注意力模块用于将各个所述第二聚合特征、各个所述第一字符级特征以及所述待处理影像的视觉特征输入至所述第三注意力层,通过所述第三注意力层将所述待处理影像的视觉特征编码至当前的所述放射学报告的每个字符的语义特征中,得到当前的所述放射学报告的每个字符对应的第二字符级特征,根据各个所述第二字符级特征获取当前的所述放射学报告中的下一个字符;
45.循环模块,所述循环模块用于在所述第三注意力模块输出当前的所述放射学报告的下一个字符后调用所述第一注意力模块重新执行所述获取当前的放射学报告中的每个字符的嵌入特征的步骤,直至获取到预设结束字符,得到所述待处理影像对应的目标放射学报告;
46.其中,所述放射学报告的初始内容为预设句子标记字符。
47.本发明的第三方面,提供一种终端,所述终端包括处理器、与处理器通信连接的计算机可读存储介质,所述计算机可读存储介质适于存储多条指令,所述处理器适于调用所述计算机可读存储介质中的指令,以执行实现上述任一项所述的分类方法的步骤。
48.本发明的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一项所述的分类方法的步骤。
49.与现有技术相比,本发明提供了一种放射学报告生成方法、装置、终端及存储介质,本发明提供的放射学报告生成方法,将待处理影像输入至已训练的报告生成模型,模型中包括视觉特征编码器、潜在特征编码器和分层解码器,通过视觉特征编码器提取待处理影像的视觉特征后,再通过潜在特征编码器提取潜在特征,在分层解码器中采用多层注意力机制操作,使得报告的字符特征和句子特征被交替地聚合和分布,并将潜在特征和视觉特征编码至报告的语义特征中,保证了利用报告的现有字符预测的下一个字符的准确性,实现了利用深度学习模型生成待处理影像的放射学报告,提升了放射学报告的编写效率。
附图说明
50.图1为本发明提供的放射学报告生成方法的实施例的流程图;
51.图2为本发明提供的放射学报告生产方法中报告生成模型训练过程示意图;
52.图3为本发明提供的放射学报告生成方法的实施例中对生成的放射学报告的评估过程中句子的相似性计算方法示意图;
53.图4为本发明提供的放射学报告生成方法生成的放射学报告示例图;
54.图5为本发明提供的放射学报告生成方法的实验过程中采用的数据集的统计数据图;
55.图6为本发明提供的放射学报告生成方法的实验结果示意图;
56.图7为本发明提供的放射学报告生成装置的实施例的结构原理图;
57.图8为本发明提供的终端的实施例的原理示意图。
具体实施方式
58.为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
59.本发明提供的放射学报告生成方法,可以应用于具有计算能力的终端中,终端可以执行本发明提供的放射学报告生成方法生成放射学报告,终端可以但不限于是各种计算机、移动终端、智能家电、可穿戴式设备等。
60.实施例一
61.如图1所示,所述放射学报告生成方法的一个实施例中,包括步骤:
62.s100、获取待处理影像,将所述待处理影像输入至已训练的报告生成模型,其中,所述报告生成模型包括视觉特征编码器、目标嵌入矩阵、潜在特征编码器和分层解码器,所述分层解码器包括第一注意力层、第二注意力层和第三注意力层。
63.具体地,所述待处理影像是放射学影像,例如x光影像,在现有技术中,需要医生阅
读放射学影像后编写放射学报告进行影像描述,例如:“两肺纹理稍强,双下肺野内中带见斑片装模糊影
……”
,而放射学报告需要有经验的医生仔细阅读理解影像后进行编码,效率低。针对这一问题,本实施例提供的放射学报告生成方法,构建报告生成模型并训练,将需要生成放射学报告的所述待处理影像输入至已训练的报告生成模型中,获取所述报告生成模型输出的放射学报告。
64.s200、通过所述视觉特征编码器获取所述待处理影像的视觉特征,将所述待处理影像的视觉特征输入至所述潜在特征编码器,获取所述潜在特征编码器输出的所述待处理影像对应的潜在特征。
65.所述待处理影像输入至所述报告生成模型中之后,首先通过所述报告生成模型中的视觉特征编码器提取所述待处理影像的视觉特征,具体地,所述视觉特征编码器中包括初始特征提取层和一个transformer编码器,所述初始特征提取层的结构可以是现有的图像特征提取模型的结构,例如cnn网络等。可以将所述待处理影像分解为至少一个区域,通过所述初始特征提取层提取每个区域的特征,所述初始特征特征提取层输出的各个特征可以连接到一个长向量组织成一个序列,表示为{x1,x2,...,x
l
,...,x
l
},其中,x
l
为第l个区域提取的特征,l为区域的数量。在提取到各个区域的特征之后,为了进一步总视觉特征并探索各个区域的特征之间的相似性,采用transformer编码器将各个区域的特征以及视觉标记进行编码,作为图像的整体表示,该过程可以表述为:v=f
ve
(x
[vis]
,x1,x2,...,x
l
,...,x
l
),其中,x
[vis]
表示视觉标记,f
ve
()表示视觉特征编码器中的transformer编码器的编码操作,v表示汇总的视觉特征,即所述待处理影像的视觉特征。
[0066]
所述报告生成模型中的所述潜在特征编码器用于根据所述待处理影像的所述视觉特征提取潜在特征,所述潜在特征是所述待处理影像和所述待处理影像对应的放射学报告共同的潜在表示特征,从而使得根据所述潜在特征能够得到所述待处理影像对应的放射学报告。所述视觉编码器和所述潜在特征编码器的参数通过预先对所述报告生成模型进行训练确定,为了使得所述潜在特征编码器能够实现输出所述潜在特征的效果,在训练所述报告生成模型时,采用样本影像对应的样本放射学报告的嵌入作为所述潜在特征编码器的输入来进行训练,具体将在后文被说明。
[0067]
将所述视觉特征编码器输入至所述潜在特征编码器,获取所述潜在特征编码器输出的所述潜在特征之后,本实施例提供的放射学报告生成方法,还包括步骤:
[0068]
s300、根据所述目标嵌入矩阵获取当前的放射学报告中的每个字符的嵌入特征,将每个所述嵌入特征输入至所述第一注意力层,获取所述第一注意力层输出的当前的所述放射学报告中每个字符的第一字符级特征以及每个句子的第一聚合特征。
[0069]
具体地,在本实施例中,是根据当前的放射学报告中所有的字符来预测下一个字符,所述放射学报告的初始内容为预设句子标记字符,也就是说,最开始,根据所述目标嵌入矩阵得到所述预设句子标记字符的嵌入特征,将所述预设句子标记字符的嵌入特征输入至所述第一注意力层,在获取下一个字符后,再将所述预设句子标记字符和所述预设句子标记字符的下一个字符的所述嵌入特征输入至所述第一注意力层,最终得到完整的报告。
[0070]
具体地,所述第一注意力层采用自注意力机制,也就是说,根据所述当前的放射学报告中每个字符的上下文字符的所述嵌入特征来执行自注意力机制,得到该字符的所述第一字符级特征。在注意力机制中,是设置有查询嵌入矩阵(q矩阵)、键嵌入矩阵(k矩阵)和值
嵌入矩阵(v矩阵),经过对应的矩阵获取每个字符的查询嵌入q、键嵌入k和值嵌入v,再根据字符的上下文的k和本字符的q和v,得到本字符的注意力机制输出,注意力机制可以用公式表示为:
[0071]
在执行自注意力机制时,是根据每个字符自身的所述嵌入矩阵分别和所述第一注意力层中的查询嵌入矩阵、键嵌入矩阵和值嵌入矩阵相乘得到每个字符对应的查询嵌入、键嵌入和值嵌入。
[0072]
具体地,所述第一注意力层中采用的自注意力机制中字符的上下文范围可以是属于同一句的其他字符,或者是字符的前后预设数量的其他字符、整个报告中的其他字符等。
[0073]
在本实施例中,在训练时,样本样本中的放射学报告的每个句子前设置有所述预设句子标记字符,例如字符y
[sent]
,在训练完成,根据所述报告生成模型所述放射学报告的下一个字符时,也会输出所述预设标记字符,就说明一个句子结束,开始下一个新句子,也就是说,在当前的所述放射学报告中,每个句子前都会有所述预设句子标记字符。所述获取所述第一注意力层输出的当前的所述放射学报告中每个字符的第一字符级特征以及每个句子的第一聚合特征,包括:
[0074]
将当前的所述放射学报告中每个句子的所述预设句子标记字符对应的所述第一字符级特征作为所述放射学报告中每个句子的所述第一聚合特征。
[0075]
例如,假设当前的所述放射学报告为{y
[sent]
,y1,y2,...,y
[sent]
,...,y
t
},其中y
t
表示当前的所述放射学报告中除所述预设句子标记字符外的的第t个字符,y
[sent]
为所述预设句子标记字符,那么首先通过所述目标嵌入矩阵得到每个字符的嵌入:{y
[sens]
,y1,y2,...,y
[sens]
,...,y
t
},然后将每个字符的所述嵌入特征输入至所述第一注意力层,在所述第一注意力层中,对于每个字符的所述嵌入特征,根据该字符的上下文字符的所述嵌入特征执行自注意力,得到当前的所述放射学报告中每个字符的所述第一字符级特征以及每个句子的所述第一聚合特征:{c
[sens1]
,c1,c2,...,c
[sens2]
,...,c
t
},其中,c
t
表示当前的所述放射学报告中除所述预设句子标记字符外的第t个字符的所述第一字符级特征,c
[senst]
表示当前的所述放射学报告中第t个句子的所述第一聚合特征。
[0076]
所述目标嵌入矩阵的参数和所述第一注意力层的参数(包括自注意力机制的查询嵌入矩阵、键嵌入矩阵和值嵌入矩阵)通过预先对所述报告生成模型进行训练确定。
[0077]
s400、将当前的所述放射学报告的每个句子的所述第一聚合特征和所述待处理影像的潜在特征输入至所述第二注意力层,通过所述第二注意力层将所述待处理影像的潜在特征编码至当前的所述放射学报告的每个句子的语义特征中,得到当前的所述放射学报告中每个句子的第二聚合特征。
[0078]
具体地,所述通过所述第二注意力层将所述待处理影像的潜在特征编码至当前的所述放射学报告的每个句子的语义特征中,得到当前的所述放射学报告中每个句子的第二聚合特征,包括:
[0079]
根据句子的所述第一聚合特征生成句子的查询嵌入;
[0080]
根据所述待处理影像的潜在特征生成句子的键嵌入和值嵌入;
[0081]
根据每个句子的查询嵌入、键嵌入和值嵌入执行多头注意力机制得到每个句子的所述第二聚合特征。
[0082]
在所述分层解码器的所述第二注意力层中,执行多头注意力机制,在句子层面操作语义特征,具体地,对于当前的所述放射学报告中的每个句子,根据句子的所述第一聚合特征和所述第二注意力层中的查询嵌入矩阵得到句子在所述第二注意力层中的查询嵌入,根据所述待处理影像的潜在特征和所述第二注意力层中的键嵌入矩阵和值嵌入矩阵得到句子在所述第二注意力层中的键嵌入和值嵌入,根据每个句子在所述第二注意力层的查询嵌入、键嵌入和值嵌入执行多头注意力机制得到每个句子的所述第二聚合特征。
[0083]
通过所述第二注意力层,实现了将所述待处理影像的潜在特征编码的当前的所述放射学报告的每个句子的语义特征中,从而使得根据当前的所述放射学报告的语义特征预测下一个字符的结果更准确。
[0084]
所述第二注意力层中的参数(包括查询嵌入矩阵、键嵌入矩阵和值嵌入矩阵)通过预先对所述报告生成模型进行训练确定。
[0085]
请再次参阅图1,本实施例提供的放射学报告生成方法,还包括步骤:
[0086]
s500、将各个所述第二聚合特征、各个所述第一字符级特征以及所述待处理影像的视觉特征输入至所述第三注意力层,通过所述第三注意力层将所述待处理影像的视觉特征编码至当前的所述放射学报告的每个字符的语义特征中,得到当前的所述放射学报告的每个字符对应的第二字符级特征,根据各个所述第二字符级特征获取当前的所述放射学报告中的下一个字符。
[0087]
具体地,在步骤s400中,当前的所述放射学报告中的预设句子标记字符的所述第一字符级特征已经被处理为所述第二聚合特征,因此,在步骤s500中的各个所述第一字符级特征值得是各个文字字符的所述第一字符级特征。所述通过所述第三注意力层将所述待处理影像的视觉特征编码至当前的所述放射学报告的每个字符的语义特征中,得到当前的所述放射学报告的每个字符对应的第二字符级特征,包括:
[0088]
根据文字字符的所述第一字符级特征生成文字字符的查询嵌入,根据句子的所述第二聚合特征生成句子的所述预设句子标记字符的查询嵌入;
[0089]
根据所述待处理影像的视觉特征生成字符的键嵌入和值嵌入;
[0090]
根据每个字符的查询嵌入、键嵌入和值嵌入执行多头注意力机制得到每个字符的所述第二字符级特征。
[0091]
在所述分层解码器的所述第三注意力层中,执行多头注意力机制,在字符层面操作语义特征,具体地,对于除了所述预设句子标记字符之外的文字字符,根据文字字符对应的所述第一字符集特征和所述第三注意力层中的查询嵌入矩阵生成文字字符在所述第三注意力层的查询嵌入,对于每个所述预设句子标记字符,根据所述预设句子标记字符所属于的句子的所述第二聚合特征和所述第三注意层中的查询嵌入矩阵生成所述预设句子标记字符在所述第三注意力层的查询嵌入,这样,对于当前的所述放射学报告中的每个字符,都生成了对应的查询嵌入。
[0092]
根据所述待处理影像的视觉特征和所述第三注意力层的键嵌入矩阵生成每个字符在所述第三注意力层的键嵌入,根据所述待处理影像的视觉特征和所述第三注意力层的值嵌入矩阵生成每个字符在所述第三注意力层的值嵌入,根据每个字符在所述第三注意力层的查询嵌入、键嵌入和值嵌入执行多头注意力机制,得到每个字符的所述第二字符级特征。
[0093]
不难看出,通过上面的步骤,所述待处理影像的视觉特征被编码至当前的所述放射学报告每个字符的所述第二字符级特征中,所述放射学报告的每个字符的所述第二字符级特征中包括了所述待处理影像的视觉特征以及所述待处理影像的潜在特征,所述分层解码器很好地利用了所述待处理影像的潜在特征和视觉特征,可以提升根据当前的放射学报告预测下一个字符的准确性,进而得到准确性更好的放射学报告。
[0094]
所述第三注意力层的参数(包括所述第三注意力层中的查询嵌入矩阵、键嵌入矩阵和值嵌入矩阵)预先通过对所述报告生成模型进行训练确定。
[0095]
所述分层解码器中还包括前馈层,所述根据各个所述第二字符级特征获取当前的所述放射学报告中的下一个字符,包括:
[0096]
将各个所述第二字符级特征输入至所述前馈层;
[0097]
根据所述前馈层的输出得到当前的所述放射学报告中的下一个字符。
[0098]
具体地,所述前馈层中包括至少一个线性变换层,例如,所述前馈层中可以包括两个线性变换层,两个线性变换层之间还可以设置一个rele激活函数,当然,本领域技术人员可以理解,所述前馈层的结构可以根据实际情况进行设置,并不限于上述的举例。
[0099]
所述分层解码器中还包括分类层,所述分层类为包括softmax激活函数的线性变换,将所述前馈层的输出输入至所述分类层,得到词汇表的分布,即输出下一个字符是各个预设字符的概率,选择概率最大的作为所述放射学报告的下一个字符。
[0100]
所述前馈层和所述分类层的参数通过预先对所述报告生成模型进行训练确定。
[0101]
s600、重复执行所述根据所述目标嵌入矩阵获取当前的放射学报告欧中的每个字符的嵌入特征的步骤,直至获取到预设结束字符,得到所述待处理影像对应的目标放射学报告。
[0102]
根据步骤s300-s600,可以生成当前的所述放射学报告的下一个字符,将下一个字符加入至当前的所述放射学报告,对当前的所述放射学报告进行更新,然后根据所述目标嵌入矩阵获取更新后的所述放射学报告中的每个字符的嵌入特征,即重复执行步骤s300,直到获取到的所述放射学报告的下一个字符为预设结束字符,所述预设结束字符可以设置为与文字字符和所述预设句子标记字符不重复的字符,例如“。”、“end”等。
[0103]
下面对所述报告生成模型的训练过程进行说明,具体地,所述报告生成模型是根据预设数据集训练得到的,所述预设数据集中包括多组训练样本,每组训练样本中包括样本影像以及该样本影像对应的样本放射学报告。在将所述待处理影像输入至已生成的报告生成模型之前,包括步骤:
[0104]
在所述预设数据集中选择目标训练样本;
[0105]
将所述目标训练样本中的样本影像输入至所述报告生成模型,获取所述样本影像的所述视觉特征;
[0106]
将所述目标训练样本中的样本放射学报告输入至文本编码器,获取所述样本放射学报告的文本特征,将所述文本特征输入至所述潜在特征编码器,获取所述样本放射学报告对应的所述潜在特征;
[0107]
将所述样本影像的所述视觉特征、所述样本放射学报告中的第一个字符和所述样本放射学报告对应的所述潜在特征输入至所述分层编码器,得到所述样本放射学报告对应的预测报告;
[0108]
根据所述预测报告获取所述目标训练样本的损失,根据所述目标训练样本的损失更新所述报告生成模型的网络参数;
[0109]
重新执行所述在所述预设数据集中选择目标训练样本的步骤,直至所述报告生成模型的参数收敛。
[0110]
具体地,每组训练样本中包括的样本影像对应的样本放射学报告是医生根据样本影像编写的放射学报告,也就是说,样本放射学报告可以看做是对应的样本影像的正确的放射学报告,所述样本放射学报告的第一个字符为所述预设句子标识字符,最后一个字符为所述预设结束字符。
[0111]
在训练时,每次采用一组目标训练样本来更新所述报告生成模型的参数,如图2所示,训练的过程中设置有文本编码器,所述文本编码器的参数和所述报告生成模型的参数一同被更新,但是在所述报告生产模型的参数收敛,即训练完成后,所述文本编码器并不用于生成待处理影像对应的所述目标放射学报告的过程中。
[0112]
对于目标训练样本,将所述目标训练样本中的样本影像输入至所述报告生成模型中的视觉编码器,获取所述样本影像的视觉特征,具体过程与前文说明的通过所述视觉编码器获取所述待处理影像的视觉特征一致。将所述目标训练样本中的样本放射学报告输入至所述文本编码器,在所述文本编码器中,首先采用与所述报告生成模型中的所述目标嵌入矩阵参数相同的嵌入矩阵得到样本放射学报告各个字符的嵌入序列,再通过一个transformer编码器对样本放射学报告中各个字符的嵌入进行编码,得到样本放射学报告的文本特征。在一种可能的实现方式中,可以在样本放射学报告的第一个字符之前增加一个文本标记y
[txt]
,对该文本标记也进行嵌入和编码。
[0113]
在得到样本放射学报告的文本特征后,将所述文本特征输入至所述报告生成模型中的所述潜在特征编码器,得到所述样本放射学报告对应的潜在特征。将所述样本影像的所述视觉特征、所述样本放射学报告中的第一个字符和所述样本放射学报告对应的所述潜在特征输入至所述分层编码器,得到所述样本放射学报告对应的预测报告。具体地,将所述样本影像的视觉特征当做步骤s300-s500中的待处理影像的视觉特征,将所述样本放射学报告中的第一个字符当做步骤s300-s500中放射学报告的初始内容,通过步骤s300-s500,可以给定样本放射学报告中的前部分字符,得到所述报告生成模型预测的下一个字符,得到根据所述报告生成模型的当前参数预测的样本影像的放射学报告,即所述预测报告。值得说明的是,在训练过程中每次生成下一个字符后,可以将下一个字符加入至预测得到下一个字符的样本放射学报告的内容之后,也可以是将原始的样本放射学报告中预测得到下一个字符的内容之后的字符加入到预测得到下一个字符的样本放射学报告的内容之后,再用于预测下一个字符。
[0114]
不难看出,为了使得所述报告生成模型的效果更好,所述报告生成模型的参数的更新方向应该是使得该模型根据样本影像和样本放射学报告生成的预测报告与样本放射学报告越接近越好,以及,根据样本影像得到的潜在特征和根据样本放射学报告得到的潜在特征越接近越好。而为了捕获放射学报告的不确定性,提高模型泛化能力,在本实施例中,采用概率建模的方式来获取所述报告生成模型的训练损失,以捕获到放射学报告的不确定性、多样性和复杂结构,使得模型的输出更加准确。
[0115]
所述根据所述预测报告获取所述目标训练样本的损失,包括:
[0116]
根据所述预测报告获取第一概率分布,所述第一概率分布为所述文本特征对应的所述潜在特征和所述样本影像联合条件下所述预测预告为所述样本放射学报告的概率分布;
[0117]
将所述样本影像的所述视觉特征输入至所述潜在特征编码器,根据所述潜在特征编码器的输出获取第二概率分布,所述第二概率分布为所述样本影像条件下所述文本特征对应的所述潜在特征的概率分布;
[0118]
根据所述文本特征对应的所述潜在特征获取第三概率分布,所述第三概率分布为所述样本放射学报告条件下所述文本特征对应的所述潜在特征的概率分布;
[0119]
根据所述第一概率分布、所述第二概率分布和所述第三概率分布获取所述目标训练样本的损失。
[0120]
基于概率建模,可以构建所述报告生成模型的目标函数如下:
[0121]
l
elbo
=log p
θ
(y|z,i)-βkl[q
θ
(z|y)||p
θ
(z|i)]
[0122]
其中,l
elbo
表示目标函数值,logp
θ
(y|z,i)表示在样本放射学报告对应的潜在特征z和样本影像i的联合条件下模型输出样本放射学报告y的概率分布,q
θ
(z|y)表示在样本放射学报告y的条件下生成潜在特征z的概率分布,p
θ
(z|i)表示在样本影像i的条件下生成潜在特征z的概率分布,kl[q
θ
(z|y)||p
θ
(z|i)]表示q
θ
(z|y)和p
θ
(z|i)之间的kl散度,β为超参数,用于控制kl散度的权重。正如前文所说明的,为了使得所述报告生成模型的效果更好,所述报告生成模型的参数的更新方向应该是使得该模型根据样本影像和样本放射学报告生成的预测报告与样本放射学报告越接近越好,因此,log p
θ
(y|z,i)的值应该越大越好,以及,根据样本影像得到的潜在特征和根据样本放射学报告得到的潜在特征越接近越好,因此,kl[q
θ
(z|y)||p
θ
(z|i)]应越小越好,即所述目标函数的值应越大越好,即所述目标训练样本对应的所述目标函数值越大,所述牧宝训练样本对应的模型训练损失越小。可以将所述目标函数值取倒数作为所述目标训练样本的损失。
[0123]
根据所述目标训练样本的损失更新所述报告生成模型的网络参数,知道所述报告生成模型的参数收敛,则所述报告生成模型训练完成,可用于预测所述待处理影像的放射学报告,即根据所述待处理影像生成所述目标放射学报告。
[0124]
发明人还通过实验验证了本实施例提供的放射学报告生成方法的有效性,具体包括定性实验验证和定量实验验证,在定性实验分析中,将通过本实施例提供的放射学报告生成方法生成的所述目标放射学报告直接进行比较,如图4所示,根据两种训练集训练得到的报告生成模型根据同一待处理影像生成的放射学报告(图中的generated sample1和generated sample2),以及该待处理影像的真实放射学报告(图中的ground truth)进行对比可以发现,与真实报告相比,本实施例提供的放射学报告生成方法生成的报告可以生成准确的描述,覆盖了真实报告中重要的发现。另外,还可以看出,两种数据集训练得到的报告生成模型具有两种不同的样式,这是由于两种数据集中的样本放射学报告是由两家医院的研究组撰写的,报告的写作风格不同,这种差异被潜在特征所捕捉,因此,本实施例中的概率建模方式可以捕获报告之间潜在的不确定性。
[0125]
而在定量实验中,采用基于规则和基于模型的评估方法(rmm),对于通过本实施例提供的放射学报告生成方法生成的放射学报告(下面称为候选报告)和参考报告,分别表示
为和其中,表示候选报告sc中的第n个句子,表示参考报告sr中的第m个句子,n、m分别表示候选报告和参考报告中句子的总数。首先进行基于规则的信息抽取,对于候选报告和参考报告,根据解剖结构位置提取句子中的信息,在实践中,大量的解剖位置被整理,以匹配报告中提到的解剖位置,可以从每个句子中提取解剖位置,从而生成了候选报告和参考报告的解剖位置信息,可以分别表示为和其中,表示候选报告中的第n个句子中的解剖位置,表示参考报告中的第m个句子中的解剖位置,n、m分别表示候选报告和参考报告中句子的总数。
[0126]
信息提取后,将候选报告和参考报告中的句子进行匹配,然后应用预先训练的句子嵌入模型,计算候选句子与参考句子的相似度评分,具体地,在计算句子和句子之间的相似度时,如图3所示,采用bertscore作为预先训练的句子嵌入,使用上下文嵌入(即bert)来评价两个句子之间的相似性,形式上,给定两个匹配的句子sc和sr,根据预先训练的bert模型生成两个向量序列然后将sc对应的向量序列中的每个向量与sr对应的向量序列中的一个向量匹配以计算召回率,并将sr对应的向量序列中的每个向量与sc对应的向量序列中的的一个向量匹配以计算精度,这种贪婪匹配的方式是为了最大化匹配相速度得分,使得一个句子中的每个向量能够与另一个句子中最相似的向量进行匹配,最后结合精度和召回率来计算两个句子之间的相似度。可以用公式表示为:
[0127][0128]
其中,sim(sc,sr)表示句子sc和sr之间的相似度,表示句子sc对应的向量序列中第i个向量,表示句子sr对应的向量序列中第j个向量。
[0129]
定义匹配函数match(s,s),表示从报告s中查找到的与s匹配的句子,具体地,匹配是根据解剖位置信息来匹配,将报告s中解剖位置与s的解剖位置一致的句子作为与s匹配的句子。构建候选报告的评价度量f
rmm
如下:
[0130][0131]
根据f
rmm
的值来评估候选报告和参考报告之间的差异,实现更准确的评估。
[0132]
在中国放射学报告数据集sribd x-ray上进行实验,数据集中包含226347份病例,每份病例均有一份正位胸片以及对应的报告,为了分割数据集,随机选择10000份病例用于验证,100000份病例用于测试,其余用于训练,数据集的统计数据如图5所示,包括病例的数量和报告的平均长度(report len)、描述的平均长度(findings len)、结论的平均长度(impression len)。实验中采用的对比模型主要有循环模型(即st,sat,att2al l,adaatt
和updown)和非循环模型(即trans,aoa和m2trans),模型的性能由传统的woms(包括bleu、meteor、rouge-l和cider)和上述的rmm度量进行评估。在将数据集输入至模型之前,在字符级别对报告进行处理,并以小于10的频率过滤字符,对于模型中的视觉编码器中的初始特征提取层,采用imagenet上预先训练的resnet101,提取2,048维的碎片特征,对于视觉编码器、文本编码器和分层编码器,采用三层和八个注意头,512维隐藏状态,随机初始化的结构,用adam优化器在交叉熵损失下训练模型。将视觉编码器的学习速率和其他参数分别设置为5
×
10-5
和1
×
10-4
。在生成过程中,将波束大小设置为3,以平衡所有模型的有效性和效率。上述超参数的最优值是通过评估来自两个数据集的验证集上的模型得到的。
[0133]
结果如图6所示,本发明中的报告生成生成模型通过与所有其他模型的比较证明了其优越性。虽然最吸引人的模型aoa和我们的模型都是基于transformer的,但我们的模型比它有明显的改进。背后的原因可能是aoa只专注于提高注意结构,没有对报告中的不确定性进行建模。结果表明,潜在的主题建模和分层解码对生成高质量的放射学报告至关重要。
[0134]
综上所述,本实施例提供一种放射学报告生成方法,将待处理影像输入至已训练的报告生成模型,模型中包括视觉特征编码器、潜在特征编码器和分层解码器,通过视觉特征编码器提取待处理影像的视觉特征后,再通过潜在特征编码器提取潜在特征,在分层解码器中采用多层注意力机制操作,使得报告的字符特征和句子特征被交替地聚合和分布,并将潜在特征和视觉特征编码至报告的语义特征中,保证了利用报告的现有字符预测的下一个字符的准确性,实现了利用深度学习模型生成待处理影像的放射学报告,提升了放射学报告的编写效率。
[0135]
应该理解的是,虽然本发明说明书附图中给出的的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0136]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取计算机可读存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0137]
实施例二
[0138]
基于上述实施例,本发明还相应提供了一种放射学报告生成装置,如图7所示,所述放射学报告生成装置包括:
[0139]
影像获取模块,所述影像获取模块用于获取待处理影像,将所述待处理影像输入至已训练的报告生成模型,其中,所述报告生成模型包括视觉特征编码器、目标嵌入矩阵、潜在特征编码器和分层解码器,所述分层解码器包括第一注意力层、第二注意力层和第三注意力层,具体如实施例一中所述;
[0140]
潜在特征提取模块,所述潜在特征提取模块用于通过所述视觉特征编码器获取所述待处理影像的视觉特征,将所述待处理影像的视觉特征输入至所述潜在特征编码器,获取所述潜在特征编码器输出的所述待处理影像对应的潜在特征,具体如实施例一中所述;
[0141]
第一注意力模块,所述第一注意力模块用于根据所述目标嵌入矩阵获取当前的放射学报告中的每个字符的嵌入特征,将每个所述嵌入特征输入至所述第一注意力层,获取所述第一注意力层输出的当前的所述放射学报告中每个字符的第一字符级特征以及每个句子的第一聚合特征,具体如实施例一中所述;
[0142]
第二注意力模块,所述第二注意力模块用于将当前的所述放射学报告的每个句子的所述第一聚合特征和所述待处理影像的潜在特征输入至所述第二注意力层,通过所述第二注意力层将所述待处理影像的潜在特征编码至当前的所述放射学报告的每个句子的语义特征中,得到当前的所述放射学报告中每个句子的第二聚合特征,具体如实施例一中所述;
[0143]
第三注意力模块,所述第三注意力模块用于将各个所述第二聚合特征、各个所述第一字符级特征以及所述待处理影像的视觉特征输入至所述第三注意力层,通过所述第三注意力层将所述待处理影像的视觉特征编码至当前的所述放射学报告的每个字符的语义特征中,得到当前的所述放射学报告的每个字符对应的第二字符级特征,根据各个所述第二字符级特征获取当前的所述放射学报告中的下一个字符,具体如实施例一中所述;
[0144]
循环模块,所述循环模块用于在所述第三注意力模块输出当前的所述放射学报告的下一个字符后调用所述第一注意力模块重新执行所述获取当前的放射学报告中的每个字符的嵌入特征的步骤,直至获取到预设结束字符,得到所述待处理影像对应的目标放射学报告,具体如实施例一中所述。
[0145]
实施例三
[0146]
基于上述实施例,本发明还相应提供了一种终端,如图8所示,所述终端包括处理器10以及存储器20。图8仅示出了终端的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
[0147]
所述存储器20在一些实施例中可以是所述终端的内部存储单元,例如终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,所述存储器20还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述终端的应用软件及各类数据。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有放射学报告生成程序30,该放射学报告生成程序30可被处理器10所执行,从而实现本技术中放射学报告生成方法。
[0148]
所述处理器10在一些实施例中可以是一中央处理器(central processing unit,cpu),微处理器或其他芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述分类方法等。
[0149]
在一实施例中,当处理器10执行所述存储器20中放射学报告生成程序30时实现以下步骤:
[0150]
获取待处理影像,将所述待处理影像输入至已训练的报告生成模型,其中,所述报告生成模型包括视觉特征编码器、目标嵌入矩阵、潜在特征编码器和分层解码器,所述分层解码器包括第一注意力层、第二注意力层和第三注意力层;
[0151]
通过所述视觉特征编码器获取所述待处理影像的视觉特征,将所述待处理影像的视觉特征输入至所述潜在特征编码器,获取所述潜在特征编码器输出的所述待处理影像对应的潜在特征;
[0152]
根据所述目标嵌入矩阵获取当前的放射学报告中的每个字符的嵌入特征,将每个所述嵌入特征输入至所述第一注意力层,获取所述第一注意力层输出的当前的所述放射学报告中每个字符的第一字符级特征以及每个句子的第一聚合特征;
[0153]
将当前的所述放射学报告的每个句子的所述第一聚合特征和所述待处理影像的潜在特征输入至所述第二注意力层,通过所述第二注意力层将所述待处理影像的潜在特征编码至当前的所述放射学报告的每个句子的语义特征中,得到当前的所述放射学报告中每个句子的第二聚合特征;
[0154]
将各个所述第二聚合特征、各个所述第一字符级特征以及所述待处理影像的视觉特征输入至所述第三注意力层,通过所述第三注意力层将所述待处理影像的视觉特征编码至当前的所述放射学报告的每个字符的语义特征中,得到当前的所述放射学报告的每个字符对应的第二字符级特征,根据各个所述第二字符级特征获取当前的所述放射学报告中的下一个字符;
[0155]
重复执行所述根据所述目标嵌入矩阵获取当前的放射学报告中的每个字符的嵌入特征的步骤,直至获取到预设结束字符,得到所述待处理影像对应的目标放射学报告;
[0156]
其中,所述放射学报告的初始内容为预设句子标记字符。
[0157]
其中,所述报告生成模型是根据预设数据集训练得到的,所述预设数据集中包括多组训练样本,每组训练样本中包括样本影像以及对应的样本放射学报告;所述将所述待处理影像输入至已训练的报告生成模型之前,包括:
[0158]
在所述预设数据集中选择目标训练样本;
[0159]
将所述目标训练样本中的样本影像输入至所述报告生成模型,获取所述样本影像的所述视觉特征;
[0160]
将所述目标训练样本中的样本放射学报告输入至文本编码器,获取所述样本放射学报告的文本特征,将所述文本特征输入至所述潜在特征编码器,获取所述样本放射学报告对应的所述潜在特征;
[0161]
将所述样本影像的所述视觉特征、所述样本放射学报告中的第一个字符和所述样本放射学报告对应的所述潜在特征输入至所述分层编码器,得到所述样本放射学报告对应的预测报告;
[0162]
根据所述预测报告获取所述目标训练样本的损失,根据所述目标训练样本的损失
更新所述报告生成模型的网络参数;
[0163]
重新执行所述在所述预设数据集中选择目标训练样本的步骤,直至所述报告生成模型的参数收敛。
[0164]
其中,所述根据所述预测报告获取所述目标训练样本的损失,包括:
[0165]
根据所述预测报告获取第一概率分布,所述第一概率分布为所述文本特征对应的所述潜在特征和所述样本影像联合条件下所述预测报告为所述样本放射学报告的概率分布;
[0166]
将所述样本影像的所述视觉特征输入至所述潜在特征编码器,根据所述潜在特征编码器的输出获取第二概率分布,所述第二概率分布为所述样本影像条件下所述文本特征对应的所述潜在特征的概率分布;
[0167]
根据所述文本特征对应的所述潜在特征获取第三概率分布,所述第三概率分布为所述样本放射学报告条件下所述文本特征对应的所述潜在特征的概率分布;
[0168]
根据所述第一概率分布、所述第二概率分布和所述第三概率分布获取所述目标训练样本的损失。
[0169]
其中,所述获取所述第一注意力层输出的当前的所述放射学报告中每个字符的第一字符级特征以及每个句子的第一聚合特征,包括:
[0170]
将当前的所述放射学报告中每个句子的所述预设句子标记字符对应的所述第一字符级特征作为所述放射学报告中每个句子的所述第一聚合特征。
[0171]
其中,所述通过所述第二注意力层将所述待处理影像的潜在特征编码至当前的所述放射学报告的每个句子的语义特征中,得到当前的所述放射学报告中每个句子的第二聚合特征,包括:
[0172]
根据句子的所述第一聚合特征生成句子的查询嵌入;
[0173]
根据所述待处理影像的潜在特征生成句子的键嵌入和值嵌入;
[0174]
根据每个句子的查询嵌入、键嵌入和值嵌入执行多头注意力机制得到每个句子的所述第二聚合特征。
[0175]
其中,所述通过所述第三注意力层将所述待处理影像的视觉特征编码至当前的所述放射学报告的每个字符的语义特征中,得到当前的所述放射学报告的每个字符对应的第二字符级特征,包括:
[0176]
根据文字字符的所述第一字符级特征生成文字字符的查询嵌入,根据句子的所述第二聚合特征生成句子的所述预设句子标记字符的查询嵌入;
[0177]
根据所述待处理影像的视觉特征生成字符的键嵌入和值嵌入;
[0178]
根据每个字符的查询嵌入、键嵌入和值嵌入执行多头注意力机制得到每个字符的所述第二字符级特征。
[0179]
其中,所述分层解码器还包括前馈层,所述前馈层中包括至少一个线性变换层;所述根据各个所述第二字符级特征获取当前的所述放射学报告中的下一个字符,包括:
[0180]
将各个所述第二字符级特征输入至所述前馈层;
[0181]
根据所述前馈层的输出得到当前的所述放射学报告中的下一个字符。
[0182]
实施例四
[0183]
本发明还提供一种计算机可读存储介质,其中,存储有一个或者多个程序,所述一
个或者多个程序可被一个或者多个处理器执行,以实现如上所述的放射学报告生成方法的步骤。
[0184]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1