医疗数据合成方法及装置与流程

文档序号:36097605发布日期:2023-11-21 01:45阅读:93来源:国知局
医疗数据合成方法及装置与流程

本发明涉及人工智能,尤其涉及医疗数据合成方法及装置。


背景技术:

1、本部分旨在为本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

2、目前一些涉及用户信息的数据出于保护用户数据安全的目的,无法直接访问使用,例如在医疗领域,医院信息管理系统(his)和电子健康记录(ehr)保存了很多医疗数据。然而,研究人员无法直接访问这些医疗数据,因为ehr 数据由个人身份标识组成,而个人标识与潜在的敏感医疗信息相结合,会引起数据安全问题。但是,访问受限减少了及时使用数据的机会,并可能减缓行业的进步。尤其,在医疗数据风险检测领域,需要大量应用机器学习做辅助判断,这就需要大量的医疗数据用于训练与测试。但是医疗系统能够提供的医疗数据有限,因此,为了测试特征加工和算法模型在真实数据规模下的性能指标,需要通过生成贴近真实业务数据关系的合成数据来训练模型。目前,缺乏有效的医疗数据合成方法。


技术实现思路

1、本发明实施例提供一种医疗数据合成方法,用以提高医疗数据合成效率、以及合成准确性,该方法包括:

2、根据预先配置的先验规则对各真实医疗数据表格进行数据预处理,得到训练样本;其中,先验规则为根据真实医疗数据之间的关系配置的数据关联规则;

3、采用训练样本训练去噪自动编码器,将训练好的去噪自动编码器中的解码器设置为对抗生成网络模型的生成器的隐藏层,利用训练样本训练对抗生成网络模型的判别器得到生成器损失,根据生成器损失更新生成器,得到训练好的生成器;

4、采用训练好的生成器将输入的随机噪声转化成合成医疗数据;其中,所述随机噪声满足预设分布规则;

5、采用反转化器确定合成医疗数据满足先验规则时,根据各真实医疗数据表格的表结构关系、以及表格内部结构关系,将合成医疗数据拆分成与各真实医疗数据表格维度相同的数据表格;其中,反转化器为根据先验规则约束生成。

6、本发明实施例还提供一种医疗数据合成装置,用以提高医疗数据合成效率、以及合成准确性,该装置包括:

7、第一处理模块,用于根据预先配置的先验规则对各真实医疗数据表格进行数据预处理,得到训练样本;其中,先验规则为根据真实医疗数据之间的关系配置的数据关联规则;

8、模型训练模块,用于采用训练样本训练去噪自动编码器,将训练好的去噪自动编码器中的解码器设置为对抗生成网络模型的生成器的隐藏层,利用训练样本训练对抗生成网络模型的判别器得到生成器损失,根据生成器损失更新生成器,得到训练好的生成器;

9、第二处理模块,用于采用训练好的生成器将输入的随机噪声转化成合成医疗数据;

10、第三处理模块,用于采用反转化器确定合成医疗数据满足先验规则时,根据各真实医疗数据表格的表结构关系、以及表格内部结构关系,将合成医疗数据拆分成与各真实医疗数据表格维度相同的数据表格。

11、本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述医疗数据合成方法。

12、本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述医疗数据合成方法。

13、本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述医疗数据合成方法。

14、本发明实施例中,根据预先配置的先验规则对各真实医疗数据表格进行数据预处理,得到训练样本;其中,先验规则为根据真实医疗数据之间的关系配置的数据关联规则;采用训练样本训练去噪自动编码器,将训练好的去噪自动编码器中的解码器设置为对抗生成网络模型的生成器的隐藏层,利用训练样本训练对抗生成网络模型的判别器得到生成器损失,根据生成器损失更新生成器,得到训练好的生成器;采用训练好的生成器将输入的随机噪声转化成合成医疗数据;采用反转化器确定合成医疗数据满足先验规则时,根据各真实医疗数据表格的表结构关系、以及表格内部结构关系,将合成医疗数据拆分成与各真实医疗数据表格维度相同的数据表格。这样,通过合并真实医疗数据表格、以及根据真实医疗数据之间的关系配置的先验规则生成训练样本,可以使得训练样本训练后的生成器生成贴近真实医疗数据的合成医疗数据,另外,进一步根据先验规则验证了合成医疗数据是否真的符合真实医疗数据的数据关系特征,提高了医疗数据合成效率、以及合成准确性,为后续的医疗数据风险检测提供大量符合条件的医疗数据。



技术特征:

1.一种医疗数据合成方法,其特征在于,包括:

2.如权利要求1所述的医疗数据合成方法,其特征在于,根据预先配置的先验规则对各真实医疗数据表格进行数据预处理,得到训练样本,包括:

3.如权利要求2所述的医疗数据合成方法,其特征在于,表结构关系包括:母表、子表、和关联字段,表格内部结构关系包括:列类型、脱敏处理指示信息、缺失值处理指示信息;

4.如权利要求3所述的医疗数据合成方法,其特征在于,根据各真实医疗数据表格的母表、子表、和关联字段,在基础表中关联各真实医疗数据表格中除基础表外的其他表格中的列,得到初始合并数据表格,包括:

5.如权利要求4所述的医疗数据合成方法,其特征在于,列类型包括:连续型变量、离散型变量;

6.如权利要求2所述的医疗数据合成方法,其特征在于,根据预先生成的转化器,清洗第一数据表格中不满足先验规则的医疗数据,得到第二数据表格,包括:

7.如权利要求2所述的医疗数据合成方法,其特征在于,采用高斯混合模型、以及独热编码,对第二数据表格进行编码转换处理,得到训练样本,包括:

8.如权利要求7所述的医疗数据合成方法,其特征在于,采用高斯混合模型对第二数据表格中连续型变量的列进行拟合,确定得到第二数据表格中每一连续型变量的特征值,包括:

9.如权利要求7所述的医疗数据合成方法,其特征在于,采用独热编码对第二数据表格中离散型变量的列进行处理,得到第二数据表格中每一离散型变量的特征值,包括:

10.如权利要求1所述的医疗数据合成方法,其特征在于,采用训练样本训练去噪自动编码器,将训练好的去噪自动编码器中的解码器设置为生成器的隐藏层,利用训练样本训练判别器得到生成器损失,根据生成器损失更新生成器,得到训练好的生成器,包括:

11.如权利要求10所述的医疗数据合成方法,其特征在于,判别器内置的一隐藏层用于计算输入数据的均值和标准差,输入数据的均值、标准差,与输入数据的特征值串联后输入到下一隐藏层;其中,输入数据包括:训练样本、第一合成数据、第二合成数据。

12.如权利要求1所述的医疗数据合成方法,其特征在于,采用训练好的生成器将输入的随机噪声转化成合成医疗数据,包括:

13.一种医疗数据合成装置,其特征在于,包括:

14.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12任一所述方法。

15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至12任一所述方法。


技术总结
本发明公开了一种医疗数据合成方法及装置,涉及人工智能技术领域,其中该方法包括:根据预先配置的先验规则对各真实医疗数据表格进行数据预处理,得到训练样本;其中,先验规则为根据真实医疗数据之间的关系配置的数据关联规则;采用训练样本训练判别器,利用判别器训练生成器,得到训练好的生成器;采用训练好的生成器生成合成医疗数据;采用反转化器确定合成医疗数据满足先验规则时,将合成医疗数据拆分成与各真实医疗数据表格维度相同的数据表格。本发明可以提高医疗数据合成效率、合成准确性。

技术研发人员:沈丹婷,张灏,赵礼悦,柏沁言
受保护的技术使用者:北京亚信数据有限公司
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1