基于记忆及强化学习优化的医疗大模型问答方法

文档序号：39062415发布日期：2024-08-17 22:32阅读：12来源：国知局

本发明涉及医疗问答，具体涉及一种基于记忆及强化学习优化的医疗大模型问答方法。

背景技术：

1、医疗领域自动问答旨在针对患者的医疗问题，生成有针对性的专业回答，满足患者的个性化需求。目前，随着大模型的发展以及从通用领域向专业领域的拓展，有研究使用医疗大模型帮助实现与患者的交互，回答患者问题。在这个过程中，目前的方法遇到几个挑战。首先，目前方法使用标准的大模型编码以及解码过程实现对患者问题的处理以及答案的生成，缺乏对患者信息的有效利用，使得生成的内容缺乏患者个性化特点，难以满足生成个性化回答的需求。其次，目前的医疗问答大模型采用训练与使用分离的模式，缺乏有效地在应用中优化的机制，使得模型一经训练就无法在应用中根据患者的反馈实时优化模型效果，导致模型性能不理想。

技术实现思路

1、为解决上述技术问题，本发明提供一种基于记忆及强化学习优化的医疗大模型问答方法。

2、为解决上述技术问题，本发明采用如下技术方案：

3、一种基于记忆及强化学习优化的医疗大模型问答方法，采用的医疗问答模型包括医疗大模型、记忆插件、交互模块；具体包括以下步骤：

4、步骤一，使用记忆插件对结构化的患者病历文本进行编码，得到m个记录患者病历关键信息的记忆向量；

5、步骤二，将用于训练的患者问题文本输入到由l层的transformer解码器构成的医疗大模型，得到第层transformer解码器输出的患者问题编码特征，其中；

6、步骤三，使用交互模块实现记忆向量与患者问题编码特征的交互，得到增强的患者问题编码特征；

7、步骤四，使用医疗大模型剩下的层transformer解码器处理，采用标准的transformer解码过程，得到针对患者问题文本的个性化答案；

8、步骤五，将个性化答案与人工标注答案比较，使用交叉熵损失函数，得到损失；

9、步骤六，基于损失，通过反向传播以及梯度下降算法，更新医疗问答模型中的医疗大模型、记忆插件和交互模块的可训练的参数，实现对医疗问答模型的训练；

10、步骤七，将患者病历文本和实际的患者问题文本输入到完成训练的医疗问答模型，输出个性化答案。

11、进一步地，所述记忆插件包括一个标准的多层transformer编码器，以及标准的卷积神经网络；步骤一具体包括以下步骤：

12、s11，使用标准的多层transformer编码器，将结构化的患者病历文本编码为病历表征：

13、；

14、表示transformer编码器；

15、s12，使用标准的卷积神经网络对病历表征进行编码，并将结果经过最大池化层，得到m个记录患者病历关键信息的记忆向量：

16、；

17、表示卷积神经网络，表示最大池化层。

18、进一步地，步骤三中，所述使用交互模块实现记忆向量与患者问题编码特征的交互，得到增强的患者问题编码特征，具体包括以下步骤：

19、s31，使用全连接层将患者问题编码特征映射为查询表征，使用两个不同的全连接层将m个记录患者病历关键信息的记忆向量分别映射为键表征以及值表征；

20、s32，使用查询表征和第m个键表征计算对应的权重，对第m个值表征进行加权，，从而判定值表征对应的患者病历信息对回答问题的贡献大小；

21、；

22、s33，对每个m的取值重复步骤s32，得到所有m的取值所对应的权重；

23、s34，将权重应用于对应的值表征上进行加权平均，得到记忆值向量；

24、；

25、s35，将记忆值向量与患者问题编码特征相加，得到增强的患者问题编码特征。

26、进一步地，还包括基于强化学习的医疗问答模型优化的过程；基于强化学习的医疗问答模型优化的过程根据患者的反馈信号计算奖励，通过强化学习方法对医疗问答模型进行优化，具体包括以下步骤：

27、a1，在生成个性化答案后，获取患者的反馈信号；所述反馈信号包括正面反馈信号和负面反馈信号；当患者对生成的个性化答案满意，并且患者按照进行治疗后，病情好转，给出正面反馈信号；当患者对生成的个性化答案不满意，从而采取其他治疗方案，或者患者按照进行治疗后，病情未好转，给出负面反馈信号；

28、a2，构建实例元组；

29、a3，将患者病历文本和实际的患者问题文本输入到完成训练的医疗问答模型，生成新的个性化答案；

30、a4，使用个性化答案与新的个性化答案间的相似性，以及反馈信号作为依据，计算奖励r；其中为文本语义比较函数；

31、当反馈信号为正面反馈信号时，应靠近，故的值越靠近1时，奖励r越大：

32、；

33、当反馈信号为负面反馈信号时，引入由医生撰写的人工标注答案，应偏离并接近；故当的值越接近1、的值越远离1时，奖励r越大：

34、；

35、和为预先定义的正实数，且；

36、a5，在获得奖励r后，采用标准的强化学习拒绝采样方法对医疗问答模型进行优化，即收集多个实例元组以及对应的奖励，根据奖励对实例元组排序，选取奖励最高的实例元组作为新的监督数据，进而使用监督微调方法来更新医疗问答模型的参数，即更新医疗大模型、记忆插件和交互模块的参数。

37、与现有技术相比，本发明的有益技术效果是：

38、1.本发明引入了患者病历信息，以解决现有方法难以生成个性化答案的问题。

39、2.通过强化学习，可以在实际应用中根据患者反馈优化模型，从而使得模型始终与患者偏好对齐，增强模型与患者交互过程中，模型输出答案的质量。

技术特征：

1.一种基于记忆及强化学习优化的医疗大模型问答方法，其特征在于，采用的医疗问答模型包括医疗大模型、记忆插件、交互模块；具体包括以下步骤：

2.根据权利要求1所述的基于记忆及强化学习优化的医疗大模型问答方法，其特征在于，所述记忆插件包括一个标准的多层transformer编码器，以及标准的卷积神经网络；步骤一具体包括以下步骤：

3.根据权利要求1所述的基于记忆及强化学习优化的医疗大模型问答方法，其特征在于，步骤三中，所述使用交互模块实现记忆向量与患者问题编码特征的交互，得到增强的患者问题编码特征，具体包括以下步骤：

4.根据权利要求1所述的基于记忆及强化学习优化的医疗大模型问答方法，其特征在于，还包括基于强化学习的医疗问答模型优化的过程；基于强化学习的医疗问答模型优化的过程根据患者的反馈信号计算奖励，通过强化学习方法对医疗问答模型进行优化，具体包括以下步骤：

技术总结
本发明涉及医疗问答技术领域，公开了一种基于记忆及强化学习优化的医疗大模型问答方法，包括：使用记忆插件对结构化的患者病历文本进行编码，得到记录患者病历关键信息的记忆向量；将用于问题文本输入到医疗大模型，得到患者问题编码特征；使用交互模块实现记忆向量与患者问题编码特征的交互，得到增强的患者问题编码特征；使用医疗大模型处理，得到个性化答案；将个性化答案与人工标注答案比较，使用交叉熵损失函数得到损失；基于损失，通过反向传播以及梯度下降算法，更新医疗问答模型中的医疗大模型、记忆插件和交互模块的可训练的参数，实现医疗问答模型的训练；本发明引入了患者病历信息，以解决难以生成个性化答案的问题。

技术研发人员：余晓凡,马礼坤,宋彦,田元贺
受保护的技术使用者：安徽省立医院（中国科学技术大学附属第一医院）
技术研发日：
技术公布日：2024/8/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：余晓凡,马礼坤,宋彦,田元贺
技术所有人：安徽省立医院（中国科学技术大学附属第一医院）
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。