一种基于联邦学习的多临床分期疾病辅助分类方法及系统

文档序号:35289752发布日期:2023-09-01 11:10阅读:72来源:国知局
一种基于联邦学习的多临床分期疾病辅助分类方法及系统

本发明属于大数据、医疗,具体涉及一种基于联邦学习的多临床分期疾病辅助分类方法及系统。


背景技术:

1、随着人工智能技术的迅速发展,传统的手写病历单子已经逐渐被电子病历所替代。基于电子病历进行机器学习训练,致使各种疾病辅助分类模型层出不穷。通过患者输入病理特征值来预测疾病分期,为医生看诊提供辅助建议。然而随着病历数据量增加以及数据保护意识的提升,现有的通过传统机器学习进行多临床分期疾病辅助分类模型训练存在一些缺陷:传统的机器学习模型,属于集中式学习,它需要将各方医院的患者数据进行整合,在整合的过程中,会增加隐私数据泄露的风险。同时也由于医疗数据隐私性高,存在部分医院不愿意共享数据,那么就形成数据孤岛的问题。


技术实现思路

1、本发明要解决的问题是提高分类模型的准确率及隐私数据的安全性,提出一种基于联邦学习的多临床分期疾病辅助分类方法及系统。

2、为实现上述目的,本发明通过以下技术方案实现:

3、一种基于联邦学习的多临床分期疾病辅助分类方法,包括一个中心服务端和多个愿意参与联邦学习并向中心服务端提交联邦学习任务的客户端,包括如下步骤:

4、s1、采集病例数据构建病例数据集,将病例数据集输入到客户端,进行分析处理,得到优化的病例数据集;

5、s2、客户端对步骤s1得到的优化的病例数据集进行xggridboost模型训练,得到完成训练的模型参数;

6、步骤s2的具体实现方法包括如下步骤:

7、s2.1、构建xggridboost初始模型为obj,计算表达式为:

8、

9、其中,t为叶子节点的数量,j为第j叶子节点,λ与γ分别为正则化项中控制正则化方式l1和正则化方式l2的正则化的超参数,gj为叶子节点j所包含样本的一阶偏导数累加之和,hj为叶子节点j所包含样本的二阶偏导数累加之和;

10、s2.2、客户端对步骤s1得到的优化的病例数据集进行xggridboost模型训练,使用步骤s2.1构建的xggridboost初始模型进行训练,采用交叉熵作为损失函数,判断预测结果,计算表达式为:

11、

12、其中,p(xi)为第i个疾病的真实分布概率,q(xi)为第i个疾病的预测分布概率,n为疾病分期总个数,loss为交叉熵损失函数;

13、s3、将步骤s2得到的完成训练的模型参数进行加密处理、压缩处理,得到处理的模型参数发送给中心服务端;

14、步骤s3的具体实现方法包括如下步骤:

15、s3.1、将步骤s2得到的完成训练的模型参数采用差分隐私技术进行加密处理,计算表达式为:

16、pr[m(x)∈s]≤exp(ε)pr[m(y)∈s]+δ

17、其中,pr[m(x)∈s]为在含有完成训练的模型参数的数据集x上执行算法m得到结果s的概率,ε为隐私参数,x为含有完成训练的模型参数的数据集,y为x的相邻数据集,δ为附加参数,m为添加噪音的算法;

18、添加噪音的算法采用拉普拉斯算法,计算表达式为:

19、

20、其中,q'(x)为添加拉普拉斯噪音后的结果,q(x)为原始数据,δf为查询的敏感度,ε为隐私预算参数;

21、拉普拉斯噪音的密度函数f(z)的计算表达式为:

22、

23、其中,z为随机变量取值,b为尺度参数,μ为位置参数,|z-μ|为z与μ的绝对距离;

24、s3.2、将步骤s3.1加密处理后的模型参数采用lz77算法与huffman编码进行结合,首先采用lz77算法对加密处理后的模型参数进行压缩,然后计算每个压缩参数出现的频率,根据出现的频率,每次选择最小的两个节点合并成一个新的节点,权值相加作为新的节点的权值,不断重复这个过程,直到所有的节点合并成一个根节点,构建huffman树,最后将每个压缩参数按照生成的huffman编码进行二进制转换,然后将所有的二进制代码连接,得到处理的模型参数;

25、s3.3、将步骤s3.2得到的处理的模型参数发送给中心服务端;

26、s4、中心服务端对接收的处理的模型参数进行解压缩,然后对解压缩的模型参数进行安全聚合,并使用近似算法确定最佳分割点,然后中心服务端将最佳分割点发送给多个客户端;

27、s5、多个客户端接收最佳分割点后,判断本地决策树是否达到最大深度,判断为否,则根据得到的最佳分割点信息作为本地决策树构建下一层,并重新分配样本进行迭代模型训练,判断为是,则停止构建决策树完成训练,输出训练模型。

28、进一步的,步骤s1的具体实现方法包括如下步骤:

29、s1.1、采集病例数据,然后将患者的个人信息、病史信息、体格检查、生化检测、作为特征值,将医生的诊断结果作为标签,然后对病历中存在的错误数据进行剔除,构建病历数据集f1;

30、s1.2、对步骤s1得到的病历数据集f1进行缺失值填充,得到补充数据的病历数据集f2;

31、s1.3、对步骤s1.2得到的补充数据的病历数据集f2进行诊断结果无关特征值删除,得到诊断相关数据集f3;

32、s1.4、对步骤s1.3得到的诊断相关数据集f3进行关联性分析,然后删除诊断相关数据集f3中关联性低的特征值,得到优化的病例数据集f4。

33、进一步的,步骤s1.2的具体实现方法包括如下步骤:

34、s1.2.1、对于患者的身高、体重的缺失值,分别计算男性、女性的身高与体重平均值,进行缺失值填充;

35、s1.2.2、对于腰围与臀围的缺失值,将臀围与腰围分别作为因变量,身高、体重的特征值作为自变量,使用多元线性回归进行预测填充;

36、s1.2.3、对于生化检测的缺失值,采用基于决策树的集成学习算法进行预测填充。

37、进一步的,步骤s1.3中的诊断结果无关特征值包括患者的证件号、手机号、个人信息特征值、看诊后的医嘱用药特征值。

38、进一步的,步骤s1.4的具体实现方法包括如下步骤:

39、s1.4.1、基于卡方检验法对步骤s1.3得到的诊断相关数据集f3进行关联度分析,卡方检验法的计算表达式为:

40、

41、其中,f0为实际值,fe为期望值,x2为卡方统计量;

42、s1.4.2、基于方差分析法对步骤s1.3得到的诊断相关数据集f3进行关联度分析,方差分析法的计算表达式为:

43、

44、其中,ssa为组间平方和,sse为组内平方和,相应的ssa/(k-1)为组间方差,sse/(n-k)为组内方差,f为方差比;

45、s1.4.3、将经过关联性分析的患者的查体数据、血样检测结果,尿样检测结果作为特征值集合,患者的诊断结果作为标签集合,构成优化的病例数据集f4。

46、进一步的,步骤s4的具体实现方法包括如下步骤:

47、s4.1、中心服务端使用步骤s3.2构建的huffman树,逐个取出二进制编码并从树的根节点开始比对,直到找到相应的字符为止,然后进行lz77解码,根据压缩时所用的窗口大小和滑动距离,逐个将匹配数据从滑动窗口中取出,并拼接在一起,得到解压缩的模型参数;

48、s4.2、对步骤s4.1得到的解压缩的模型参数进行安全聚合,并使用近似算法确定最佳分割点,首先根据特征分布的百分位数,提出候选划分点,接着,将特征映射到候选点划分的分桶中,聚合统计信息,对每个桶内的样本统计值g、h进行累加统计,最后在累加统计量上确定最佳分割点,利用打分函数gain确定最佳分割点,计算表达式为:

49、

50、其中,gl为左子树中所有样本梯度,hl为左子树中所有hessian矩阵,gr为右子树中所有样本梯度,hr为右子树中所有hessian矩阵,λ为正则化项系数,γ为惩罚项;

51、选取最大的gain值,作为最佳分割点;

52、s4.3、中心服务端将步骤s4.2得到的最佳分割点发送给多个客户端。

53、一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述的一种基于联邦学习的多临床分期疾病辅助分类方法的步骤。

54、本发明的有益效果:

55、本发明所述的一种基于联邦学习的多临床分期疾病辅助分类方法,在联邦学习训练过程中,还包括:在客户端本地训练完成后,使用lhc无损数据压缩算法对模型参数进行压缩,减少数据传输量;同时在中心服务端对参数进行解压缩。引入压缩算法用来提高联邦学习的训练性能。

56、本发明所述的一种基于联邦学习的多临床分期疾病辅助分类方法,采用联邦学习框架,提高了隐私数据的安全性,解决数据孤岛的问题。同时提出使用密文压缩算法,减少数据传输量,提高了模型训练性能。在此训练过程中,综合三个客户端进行模型训练,提高了模型的准确性。

57、本发明所述的一种基于联邦学习的多临床分期疾病辅助分类方法,针对于痛风病数据集进行实验,痛风病具体的分期阶段为:慢性关节炎期,急性关节炎期,间歇期三种。三个医院客户端数据量分别为18900,23450,20829;将三方数据集进行整合,使用传统的训练方式在本地进行训练,最后实验结果的平均准确率为80.75%;通过使用本发明的分类方法,最后实验结果的平均准确率为85.33%,其中慢性关节炎预测准确率为85%,急性关节炎预测准确率为91%,间歇期预测准确率为80%,可以发现提高了模型的预测准确率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1