一种基于预训练语言模型及机器学习的肝病预警方法

文档序号:40585164发布日期:2025-01-07 20:25阅读:11来源:国知局
一种基于预训练语言模型及机器学习的肝病预警方法

本发明涉及一种肝病预警方法,具体涉及一种基于预训练语言模型及机器学习的肝病预警方法。


背景技术:

1、肝病作为一种影响全球数亿人口的重大健康问题,具有广泛的社会和经济影响。常见的肝病包括肝硬化、脂肪肝、酒精性肝病、药物性肝损伤、自身免疫性肝炎、原发性肝癌、肝囊肿、肝血管瘤等等。尽管这些疾病均归属于肝病范畴,但每种肝病的发病机制和临床表现均存在显著差异,因此,在临床实践中,对各类肝病的准确鉴别往往具有一定的复杂性和挑战性。并且由于肝病的早期症状往往不明显,许多患者在病情严重时才会被确诊,因此建立有效的肝病预警机制显得尤为重要。

2、近年来,随着计算机技术的迅猛发展,数据科学和人工智能在疾病的预警和管理中展现出了显著的潜力。利用计算机系统对疾病进行预警,能够有效地辅助医生进行精准的病情评估和诊断决策。因此,基于计算机技术的肝病预警成为可能,并具有广泛的应用前景。

3、在人工智能领域,预训练语言模型(pre-trained language model)是指先在大规模文本数据上进行预训练的模型,这些模型常常广泛应用于各种自然语言处理(nlp)任务,如文本分类、翻译、对话、问答等。预训练语言模型首先在大规模未标注的文本上进行预训练(比如使用自回归任务或掩码语言模型任务),然后根据特定的下游任务(如情感分析、问答系统、文本分类等)进行微调。在肝病预警中,这些模型可以处理医学文献、患者病历和其他相关文本数据,从中提取有价值的信息,辅助医生进行病情分析和决策。

4、其中,大语言模型(large language model)是指具有非常大参数规模的预训练语言模型,通常具有数十亿甚至上千亿个参数。大语言模型的规模使得它们在处理更复杂的语言任务时表现出色,具有更强的上下文理解和生成能力。在肝病预警领域,大语言模型能够处理复杂的医学文献和患者信息,提供更准确的疾病信息和预警建议,从而帮助医生更好地理解患者的病情并作出相应的决策。

5、机器学习(machine learning)是一种通过使用数据来训练模型,使其自动从数据中学习并进行预测或决策的技术。机器学习是人工智能的一个子领域,旨在通过算法和统计模型模拟人类的学习能力,而无需明确编程指令。机器学习常常分为监督学习、无监督学习以及强化学习。监督学习指模型通过输入、输出的标注数据进行训练,学习从输入预测输出的映射关系,其典型任务包括分类和回归。无监督学习指模型在没有标注数据的情况下,基于数据内在的结构进行模式识别,其常见任务包括聚类和降维。强化学习指模型通过与环境的互动,学习如何通过奖励和惩罚机制进行决策。在肝病预警中,机器学习方法可以用于分析患者的医疗数据,识别潜在的病症模式,为医生提供提示建议。

6、梯度提升决策树(gbdt)是一种强大的机器学习算法,属于集成学习方法。它通过将多个弱学习器(通常是决策树)逐步组合在一起,利用梯度提升策略来不断减小模型的预测误差。每一棵新树都试图纠正前面所有树的误差,使得模型在训练集上的表现越来越好。gbdt通过在初始模型(如预测的平均值)基础上,逐步训练新树来拟合前一模型的残差。通过重复这一过程,模型不断改进。其使用梯度下降法来优化损失函数,每棵新树的构建是为了沿着损失函数的梯度方向减小误差。在肝病预警中,gbdt算法可以用于预测患者的病情进展、识别与疾病相关的关键特征,从而辅助医生进行诊断,提高了早期发现肝病的可能。

7、综上所述,利用预训练语言模型和机器学习方法对患者信息进行自动分析和预警,不仅能够显著节省医疗资源和人力成本,还能够提高肝病预警的准确性和效率。这些技术为医生提供了有力的辅助工具,有助于优化医生诊断过程,并促进患者后续治疗的实施。


技术实现思路

1、有鉴于此,本发明公开了一种基于预训练语言模型及机器学习的肝病预警方法,以解决现有技术背景中面临的肝病预警问题,此方法通过使用大语言模型对患者的原始数据进行格式化处理,通过使用梯度提升决策树算法及与训练语言模型进行肝病的预警,从而实现自动化肝病预警和风险排查,实现提高疾病预警准确率和效率的目的。

2、本发明为解决上述技术问题采用以下技术方案:

3、本发明提供种基于预训练语言模型及机器学习的肝病预警方法,具体步骤如下:

4、步骤1:患者信息数据收集,收集患者电子病历信息,筛选出患者入院记录的原始文本作为原始数据,

5、步骤2:患者原始数据预处理,使用大语言模型对患者原始数据进行数据格式化处理,得到格式化后的患者病史信息、检验检查信息以及影像报告信息,

6、步骤3:对患者的病史信息和检验检查信息使用梯度提升决策树算法进行训练,学习病史信息及检验检查信息与肝病之间的关系,

7、步骤4:对患者的影像报告信息使用预训练语言模型,学习影像报告与肝病之间的关系,

8、步骤5:使用贝叶斯优化对模型参数进行调优,调整到最佳模型参数,得到病史模型、检验检查模型以及影像报告模型。本发明通过大语言模型获取高质量的患者格式化信息,并将肝病预警问题转化为三类关键信息的分类问题,能够获取精准的肝病分类结果。

9、作为本发明的进一步优化方案,在步骤2中,数据预处理操作包括以下步骤:

10、(1)根据肝病医学知识设计格式化prompt,将患者原始数据细分为三种不同类型的格式化数据:病史信息、检验检查信息、影像报告信息,

11、(2)prompt的设计方法:将所有信息转换为数值类型,是、否转换为1、0,空值转换为-1,范围型数据删去其符号,仅提取患者手术前数据,剔除无关数据,

12、(3)其中病史信息包括:性别、年龄、体征检查、烟酒史、疾病史、过敏史、手术及输血史、家族史,

13、(4)其中检验检查信息包括:乙肝五项、肝功能检测、病毒相关检测、自身免疫抗体检测、血脂血糖检测、血常规检测、肾功能检测、电解质及代谢相关检测、凝血功能检测、肿瘤标志物、胰岛功能检测,

14、(5)其中影像报告信息包括:检查所见及检查结论,

15、(6)对每次输入进入大模型的文本量进行限制,将原始数据分批次输入大模型,直至所有信息处理完成,将所有格式化信息保存为json文件,

16、(7)将所有格式化信息划分训练集及测试集,用于后续模型训练及测试。

17、作为本发明的进一步优化方案,在步骤3中,梯度提升决策树算法包括以下步骤:

18、(1)分别使用格式化病史信息和格式化检验检查信息的训练集进行病史模型和检验检查模型的训练,方法为梯度提升决策树算法,

19、(2)针对不同分类的样本,根据其样本数量给出不同的权重,权重公式为:其中wi是第i个样本的权重,n是样本总数,n1,n2……nn,分别为每个样本的数量,

20、(3)首先使用相关数据训练二分类模型,判断是否为肝占位疾病,

21、(4)二分类梯度提升决策树算法的损失函数为:其中是二分类的损失函数,yi是第i个样本的真实标签,取值为0或1,是模型预测的第i个样本为正类的概率,

22、(5)然后将是否为肝占位疾病作为一维新的特征添加进数据集中,即添加一维是否为肝占位的特征,肝占位病种(原发性肝癌、肝囊肿、肝血管瘤)的患者此特征为1,非肝占位病种(肝硬化、脂肪肝、酒精性肝病、药物性肝损伤、自身免疫性肝炎)的患者此特征为0,并使用该数据集训练八分类模型,分类的类别为:肝硬化、脂肪肝、酒精性肝病、药物性肝损伤、自身免疫性肝炎、原发性肝癌、肝囊肿、肝血管瘤,

23、(6)八分类梯度提升决策树算法的损失函数为:其中是八分类的损失函数,yi,k是第i个样本的真实标签,其中yi,k=1表示该样本的真实类别为k,否则yi,k=0,是模型预测的第i个样本为属于k类的概率。

24、作为本发明的进一步优化方案,在步骤4中,预训练语言模型包括以下步骤:

25、(1)使用格式化影像数据的训练集进行影像模型的训练,方法为预训练语言模型,

26、(2)首先将同一患者的影像信息进行拼接,使用拼接后的数据训练二分类模型,判断是否为肝占位疾病,

27、(3)然后将是否为肝占位疾病作为一维新的特征添加进数据集中,即将肝占位病种(原发性肝癌、肝囊肿、肝血管瘤)的患者数据拼接“肝占位”字段,将非肝占位病种(肝硬化、脂肪肝、酒精性肝病、药物性肝损伤、自身免疫性肝炎)的患者数据拼接“非肝占位”字段,并使用该拼接数据一同训练八分类模型,分类的类别为:肝硬化、脂肪肝、酒精性肝病、药物性肝损伤、自身免疫性肝炎、原发性肝癌、肝囊肿、肝血管瘤。

28、本发明采用上述技术方案,有益效果为:将患者原始数据分类为病史、检验检查及影像三种数据,并根据肝病知识编写prompt,通过使用大模型对三类数据分别进行结构化处理,从而精准地提取出关键风险指标信息。并且对三类结构化数据分别使用梯度提升决策树算法及预训练语言模型方法,得到数据与肝病之间的联系,通过使用贝叶斯优化方法优化模型参数,进而得出患者所患肝病的概率。本方案使用预训练语言模型和机器学习方法,实现了对患者信息进行自动分析和预警,从而辅助医生进行诊断决策,提高了早期发现肝病的可能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1