本发明涉及深度学习和患者再入院风险预测领域,具体地说是一种基于改进cwgan模型的患者再入院风险预测方法。
背景技术:
1、近年来,不论是国内还是国外,各种流行病的再入院率普遍呈现上升趋势。再入院指的是患者经过治疗,出院一段时间之后在规定的时间范围内再次因相同的病因住院治疗。降低再入院率已经成为许多国家医疗改革中较为重要的目标之一。
2、目前,在对疾病再入院的研究方面主要分为两种。一种是通过统计学原理对患者再入院风险因素进行分析研究;另一种是通过建立患者再入院风险预测模型来更准确地分析患者再入院的概率。再入院风险预测模型的构建主要是基于患者的电子病历数据,利用某种方法发掘其中的特征和再入院之间的关联,从而预测患者之后再入院的可能性。然而由于再入院数据具有天然非均衡的特点,即再入院和不再入院的患者数量差距较大,而传统的一些分类模型都是建立在均衡数据集上的,因此,如何对非均衡数据进行处理使得它不影响模型的预测效果是相关研究的重点之一。综上,对再入院的风险预测研究主要有两个重点,一个是对非均衡数据的处理,另一个则是构建预测模型。
3、在非均衡数据处理方面,chawla等提出合成少数类过采样技术smote(syntheticminority over-sampling technique),smote通过生成合成样本来增加少数类样本的数量,以平衡类别分布,它主要通过在少数类样本之间进行线性插值来创建新样本,从而避免了简单复制样本带来的过拟合问题,但是它没有考虑样本的分布情况。he等在smote的基础上提出自适应合成采样算法(adaptive synthetic sampling, adasyn ) , adasyn在smote的基础上进行了改进,通过自适应地生成少数类样本来提高分类器对少数类的识别能力。但上述提到的过采样方法主要是基于少数类的部分子集来合成样本,没有兼顾到数据整体的一个分布情况,因此对模型分类性能的提升比较有限。
4、在预测模型方面,再入院作为一个分类问题,能够运用的相关预测模型有很多,但已有的许多预测模型都有着难以解释的缺点,无法对具体结果进行实际分析。
技术实现思路
1、本发明为了克服现有技术存在的不足之处,提出了一种基于改进cwgan模型的患者再入院风险预测方法,以期能通过生成更多高质量的合成患者再入院数据,解决患者再入院数据不均衡的问题,从而能提高再入院风险预测的准确性,更有效地捕捉患者再入院影响特征与再入院标签之间的复杂关系。同时,也能够优化医疗资源的配置,辅助医疗决策,推动智能医疗技术的发展。
2、为达到上述目的,本发明采用的技术方案为:
3、本发明一种基于改进cwgan模型的患者再入院风险预测方法的特点在于,是按如下步骤进行:
4、步骤1、获取患者再入院数据集,包括患者的再入院影响特征集和患者再入院标签,其中,患者的再入院影响特征集包括:分类列影响特征集和数值列影响特征集,所述患者再入院标签的取值为0或1,分别表示患者是否会再入院;
5、对所述分类列影响特征集进行one-hot编码,得到编码后的分类列影响特征集;
6、采用变分高斯混合模型对所述数值列影响特征集进行归一化转换,得到正态分布的数值列影响特征集;
7、由编码后的分类列影响特征集、正态分布的数值列影响特征集和患者再入院标签构成预处理后的患者再入院数据集,并记为,其中,表示第个患者的再入院数据,为患者的数量;且,其中,表示第个患者预处理后的再入院影响特征,表示第个患者的再入院标签;
8、步骤2、构建由生成网络g和判别网络d组成的改进cwgan模型,并基于对改进cwgan模型进行训练,从而得到最优cwgan模型;
9、步骤3、所述最优cwgan模型对进行处理,并输出最优再入院影响合成特征集,其中,表示第个患者的最优再入院影响合成数据;
10、由与构成第个患者的最优再入院合成数据,从而得到最优再入院合成数据集;
11、由和组成得到二分类再入院数据集;
12、步骤4、构建xgboost二分类模型,使用对xgboost二分类模型进行训练,得到最优xgboost二分类模型,并输出再入院预测标签,若为1,则说明第个患者再入院风险高,反之,说明第个患者再入院风险低。
13、本发明所述的一种基于改进cwgan模型的患者再入院风险预测方法的特点也在于,所述步骤2是按如下步骤进行:
14、步骤2.1、构建生成网络g,包含并行的个生成网络隐藏层和个生成网络交叉层,以及一个生成网络输出层;
15、第个生成网络隐藏层为全连接层并采用leaky relu激活函数,其中,;
16、当=1时,任取一个随机噪声向量分别输入到第个生成网络隐藏层和第个生成网络交叉层中进行处理,相应输出第个患者的第个生成网络再入院影响隐藏特征和第个生成网络再入院影响交叉特征;
17、当=2,3,…时,将第个生成网络再入院影响隐藏特征输入第个生成网络隐藏层中进行处理,并得到,从而由第个生成网络隐藏层输出第个生成网络再入院影响隐藏特征;
18、同时,将第个生成网络再入院影响交叉特征输入第个生成网络交叉层中,并通过式(1)得到,从而由第个生成网络交叉层输出第个生成网络再入院影响交叉特征;
19、 (1)
20、式(1)中,和分别是第个生成网络交叉层的权重矩阵和偏置;
21、将和拼接后,得到第个生成网络再入院影响隐藏交叉拼接特征,并输入所述生成网络输出层中,分别经过gumbel_softmax函数和tanh函数的处理后,相应得到第个再入院患者的分类列影响合成特征和数值列影响合成特征,从而构成第个患者的再入院影响合成特征;
22、步骤2.2、构建判别网络d,包含并行的个判别网络隐藏层和个判别网络交叉层,以及一个判别网络输出层;
23、第个判别网络隐藏层为全连接层,并采用leaky relu激活函数,其中,;
24、当=1时,将分别输入到第个判别网络隐藏层和第个判别网络交叉层中进行处理,相应输出第个患者的第个判别网络再入院影响隐藏特征和第个判别网络再入院影响交叉特征;
25、当=2,3,…时,将第个判别网络再入院影响隐藏特征输入第个判别网络隐藏层中进行处理,并得到第个判别网络再入院影响隐藏特征,从而由第个判别网络隐藏层输出第个判别网络再入院影响隐藏特征;
26、同时,将第个判别网络再入院影响交叉特征输入第个判别网络交叉层中,并通过式(2)得到第个判别网络再入院影响交叉特征,从而由第个判别网络交叉层输出第个判别网络再入院影响交叉特征;
27、 (2)
28、式(2)中,和分别是第个判别网络交叉层的权重矩阵和偏置;
29、将和拼接后,得到第个判别网络再入院影响隐藏交叉拼接特征,并输入所述判别网络输出层中,相应得到判别网络d对真假判别的预测值及第个再入院患者再入院标签的预测值;
30、步骤2.3、利用式(3)建立标签重构损失:
31、 (3)
32、式(3)中,表示交叉熵损失;
33、步骤2.4、利用式(4)建立生成网络g的损失函数:
34、 (4)
35、式(4)中,表示服从中再入院数据分布的的数学期望,是的权重;
36、步骤2.5、利用式(5)建立判别网络d的损失函数:
37、 (5)
38、式(5)中,表示服从中再入院数据分布的的数学期望,表示判别网络d对的预测值;是对的梯度,是权衡梯度惩罚项的权重;
39、步骤2.6、利用式(6)构建全局目标函数:
40、 (6)
41、步骤2.7、基于,利用梯度下降法对所述改进cwgan模型进行训练,并计算所述全局目标函数以更新模型参数,直至判别网络d无法判断输入数据的真假时,得到最优cwgan模型。
42、本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述患者再入院风险预测方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
43、本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行所述患者再入院风险预测方法的步骤。
44、与现有技术相比,本发明的有益效果体现在:
45、1、本发明采用改进cwgan模型来生成患者再入院数据,从而平衡再入院数据集。生成对抗网络作为近些年来热门的一种生成模型,广泛运用于对原始样本的分布特征的无监督式学习,而作为生成对抗网络的变体,相比于其他的非均衡数据处理方法,改进的cwgan模型可以在无监督的情况下获得数据的潜在分布规律并由此生成高度逼真的人工样本,从而可以得到高质量的平衡患者再入院数据集,提高了患者再入院预测的准确性。
46、2、本发明采用极端梯度提升(xgboost)模型进行患者再入院数据集的分类预测,相比于统计性分析,该模型可以生成分类树的集合,并为每个特征分配预测风险评分,从而能够更准确地分析出患者再入院的风险概率。