一种不平衡医疗数据缺失值填充方法及系统与流程

文档序号:35998280发布日期:2023-11-16 10:39阅读:68来源:国知局
一种不平衡医疗数据缺失值填充方法及系统与流程

本发明属于医疗信息,尤其涉及一种不平衡医疗数据缺失值填充方法及系统。


背景技术:

1、电子健康记录(ehr, electronic health records)保存着患者就诊相关的信息,包含患者的基本信息、诊断信息、检查信息、用药信息等。这些信息为医疗数据挖掘提供基础。但由于收集设备故障、传输不稳定等因素,会导致电子健康记录存在大量的缺失数据。这些缺失数据不仅会增大统计分析的复杂性和难度,还会导致分析结果不准确。因此,解决电子健康记录中的缺失值填充问题,对提高数据挖掘的质量具有重要意义。

2、生成对抗网络(gan, generative adversarial networks)是一种捕获训练数据分布的神经网络,通过学习到的数据分布创造新的数据,目前常用于图片生成、文字生成等领域。近些年,也有专家和学者将gan方法运用于数据缺失值填充领域,但在现实生活中,由于医院患者的电子病历数据常常是不平衡的,不同类型疾病患者数量相差较大,如果直接将gan方法作用于不平衡的医疗数据缺失值填充时会存在一些问题。一方面,填充效果缺乏多样性,在不平衡的样本上,生成器通过只关注样本数量多的类型填充质量并忽视那些数据数量少的类型填充质量,以此来欺骗判别器,从而导致最后填充的数据只属于某类疾病的数据。另一方面,gan方法在不平衡数据上训练,生成器更容易发生消失梯度问题。《wasserstein gan》文章指出,在最优判别器下,最小化生成器的损失等价于最小化真实分布和生成分布之间的js散度(jsd,jensen-shannon divergence),当真实分布和生成分布不重叠时或者重叠部分可以忽略时,js散度就是固定常数log2,此时生成器出现梯度消失,难以进行网络训练。


技术实现思路

1、本发明的目的在于针对现有技术的不足,提供一种基于生成对抗网络的不平衡医疗数据缺失值填充方法及系统,提高医疗数据缺失值的填充质量。

2、本发明的目的是通过以下技术方案实现的:

3、第一方面,本发明提供一种不平衡医疗数据缺失值填充方法,该方法包括:

4、利用医院的信息化系统获取患者数据;

5、利用数据填充模型对患者数据中的缺失值进行填充;

6、所述数据填充模型包括数据处理单元、生成器、填补单元、判别器和辅助分类器;所述生成器和判别器构成生成对抗网络;

7、所述数据处理单元中,使用掩码矩阵记录患者原始数据中缺失值的位置,使用0预填充患者原始数据中的缺失值,使用随机数填充患者原始数据中的缺失值,并输入生成器;

8、所述生成器用于学习输入的患者数据的分布,生成新的患者数据,并输入填补单元,所述生成器的输入包括患者数据和患者标签;

9、所述填补单元用于利用生成器生成的新的患者数据对患者原始数据中的缺失值进行填补;

10、所述判别器用于对输入的每个患者数据进行辨别,判断是否为观察值,所述判别器的输入包括填补单元填补后的患者数据以及使用0预填充患者原始数据中的缺失值后的患者数据,输出为每个患者数据为观察值的概率;

11、所述辅助分类器用于对填补单元填补后的患者数据进行预测,将预测结果反馈给生成器;

12、训练过程包括预训练辅助分类器和正式训练数据填充模型,预训练过程中使用未缺失的患者数据对辅助分类器进行训练,确定辅助分类器网络参数,正式训练过程中辅助分类器网络参数不参与更新;正式训练过程中先训练判别器再训练生成器,判别器和生成器不断的对抗训练,直至数据填充模型收敛;

13、将需要填充缺失值的患者数据及患者标签输入训练好的数据填充模型,经过数据处理单元、生成器和填补单元后,输出填充后的患者数据。

14、进一步地,对获取的患者数据进行数据预处理后再输入数据填充模型,具体为:对离散型数据进行独热编码操作,对连续型数据进行最大最小值归一化操作。

15、进一步地,患者原始数据记为,其中表示第i个患者的原始数据,n为患者数量,k为特征数量;掩码矩阵记为,其中用于标记第i个患者原始数据中的观察值和缺失值,观察值取1,缺失值取0;使用0预填充患者原始数据中的缺失值,填充后的数据矩阵记为,其中表示使用0预填充第i个患者原始数据中的缺失值后的患者数据;创建随机矩阵记为,其中是随机生成的符合标准正态分布的随机数向量,用于填充第i个患者原始数据中的缺失值;使用随机矩阵中的随机数填充患者原始数据中的缺失值,填充后的数据矩阵记为,其中表示使用随机数填充第i个患者原始数据中的缺失值后得到的患者数据,,表示哈达玛积。

16、进一步地,所述生成器的损失函数由三部分组成,第一部分是计算生成器生成的观察值与实际观察值之间的差距,使用均方误差作为损失函数;第二部分是生成对抗网络的生成器损失,使用wasserstein距离作为损失函数;第三部分损失是计算辅助分类器对填补单元填补后的患者数据的预测标签与患者真实标签之间的差距,使用交叉熵函数作为损失函数。

17、进一步地,述生成器的损失函数;

18、第一部分损失函数;

19、第二部分损失函数;

20、第三部分损失函数;

21、其中表示第i个患者数据作为输入时生成器的输出值,,g()表示经过生成器后得到的患者数据,yi表示第i个患者的真实标签,d()表示患者数据经过判别器后得到的结果,ti表示第i个患者原始数据经填补单元填补后的患者数据,表示辅助分类器对第i个患者的预测标签,和为超参数,·表示向量内积。

22、进一步地,所述填补单元中,利用生成器生成的患者数据填补患者原始数据x中的缺失值,填补后的数据矩阵记为,其中ti表示第i个患者原始数据经填补单元填补后的患者数据,,其中表示第i个患者数据作为输入时生成器的输出值。

23、进一步地,所述判别器的损失函数ld计算公式如下:

24、;

25、其中d()表示患者数据经过判别器后得到的结果,表示使用0预填充第i个患者原始数据中的缺失值后的患者数据,ti表示第i个患者原始数据经填补单元填补后的患者数据,·表示向量内积。

26、进一步地,所述判别器的损失函数ld计算公式如下:

27、;

28、其中d()表示患者数据经过判别器后得到的结果,表示使用0预填充第i个患者原始数据中的缺失值后的患者数据,ti表示第i个患者原始数据经填补单元填补后的患者数据,·表示向量内积。

29、进一步地,正式训练数据填充模型的过程中,首先输入包含缺失值的患者数据,判别器计算损失,梯度反向传播更新判别器网络参数;然后生成器计算损失,梯度反向传播更新生成器网络参数;判别器和生成器不断的对抗训练,直至数据填充模型收敛。

30、第二方面,本发明提供一种不平衡医疗数据缺失值填充系统,该系统包括数据获取模块、数据填充模型构建模块和数据填充模块;所述数据获取模块用于利用医院的信息化系统获取患者数据;

31、所述数据填充模型构建模块用于构建及训练数据填充模型;所述数据填充模型包括数据处理单元、生成器、填补单元、判别器和辅助分类器,生成器和判别器构成生成对抗网络;

32、所述数据处理单元中,使用掩码矩阵记录患者原始数据中缺失值的位置,使用0预填充患者原始数据中的缺失值,使用随机数填充患者原始数据中的缺失值,并输入生成器;

33、所述生成器用于学习输入的患者数据的分布,生成新的患者数据,并输入填补单元,所述生成器的输入包括患者数据和患者标签;

34、所述填补单元用于利用生成器生成的新的患者数据对患者原始数据中的缺失值进行填补;

35、所述判别器用于对输入的每个患者数据进行辨别,判断是否为观察值,所述判别器的输入包括填补单元填补后的患者数据以及使用0预填充患者原始数据中的缺失值后的患者数据,输出为每个患者数据为观察值的概率;

36、所述辅助分类器用于对填补单元填补后的患者数据进行预测,将预测结果反馈给生成器;

37、训练过程包括预训练辅助分类器和正式训练数据填充模型,预训练过程中使用未缺失的患者数据对辅助分类器进行训练,确定辅助分类器网络参数,正式训练过程中辅助分类器网络参数不参与更新;正式训练过程中先训练判别器再训练生成器,判别器和生成器不断的对抗训练,直至数据填充模型收敛;

38、所述数据填充模块用于将需要填充缺失值的患者数据及患者标签输入训练好的数据填充模型,经过数据处理单元、生成器和填补单元后,输出填充后的患者数据。

39、第三方面,本发明提供一种不平衡医疗数据缺失值填充设备,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现如第一方面所述的不平衡医疗数据缺失值填充方法。

40、第四方面,本发明提供一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时,实现如第一方面所述的不平衡医疗数据缺失值填充法。

41、本发明的有益效果是:

42、1. 本发明使用推土机距离(wasserstein距离)代替js散度构建生成器和判别器的损失,wasserstein距离相对js散度具有优越的平滑特性,即便两个分布没有重叠,wasserstein距离仍然能够反映它们的远近,能够解决在训练过程中生成器可能会出现消失梯度问题。

43、2. 本发明将患者标签作为监督信号加入到生成器中,帮助生成器在不平衡的医疗电子病历中能够识别不同的患者数据,增加生成器生成患者数据的多样性。

44、3. 本发明增加了辅助分类器,对填补单元填补后的患者数据进行分类预测,并将预测结果反馈给生成器,提高生成器的生成效果。

45、4. 本发明利用随机数填充患者数据的缺失部分,将填充后的患者数据作为生成器的输入,通过生成器学习缺失值与其他数据间的关系,避免了在训练过程中需要收集足够多完整样本的问题。

46、5. 本发明提出的生成器损失由三部分组成,分别为生成器生成的患者观察值与患者实际观察值之间的损失、判别器对生成器生成的患者缺失值的预测与真实值之间的损失、辅助分类器对填补单元填补后的患者数据的预测标签与患者真实标签之间的损失,通过构建不同的损失,让生成器从不同角度考虑填充的效果,从而提高填充结果的准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1