本发明涉及数据处理,具体涉及一种医学影像数据的脱敏方法。
背景技术:
1、医学数据,是数字化医疗中产生的一系列电子数据,包括医学影像数据、患者的电子病历、检验报告等,其往往被用于各类回归性分析、人工智能模型的训练过程中。为符合相关的合规需求,医学数据在转为其他用途之前,通常需要进行脱敏处理,将涉及到患者隐私、可用于跟踪的相关标识信息进行去除后再进行使用。
2、现有技术中,已存在针对该类型的数据进行脱敏的技术方案。比如,中国专利cn202011511260.7公开了一种基于医疗数据的数据脱敏装置,该装置能够对数据中的数值部分进行识别,并在云端依照相关算法生成噪声进行混淆,从而实现脱敏。
3、但是,在实际实施过程中,发明人发现,由于各级医院的数字化系统建设进度不同、供应商不同、数据存档的需求也不同,导致在实际诊疗过程中,产生的医疗数据往往会产生一定的差异,比如,影像检查过程中的各类参数字段格式、产生的影像文件格式等,进而使得针对固定类型数据设计的脱敏方法效果不佳。
技术实现思路
1、针对现有技术中存在的上述问题,现提供一种医学数据的脱敏方法。
2、具体技术方案如下:
3、一种医学影像数据的脱敏方法,包括:
4、步骤s1:获取待脱敏数据,对所述待脱敏数据进行识别以获取数据种类;
5、所述数据种类包括影像数据和关联于所述影像数据的患者检查数据;
6、步骤s2:根据所述数据种类调用对应的脱敏方法对所述待脱敏数据进行处理,得到待验证数据;
7、步骤s3:对所述待验证数据进行验证,生成验证结果。
8、另一方面,当所述待脱敏数据为所述患者检查数据时,所述步骤s2包括:
9、步骤a21:对所述患者检查数据进行解析,得到多个数据字段;
10、步骤a22:对所述数据字段进行分类,得到敏感信息字段和待赋值字段;
11、步骤a23:对所述敏感信息字段进行加密,以及,对所述待赋值字段重新赋值为星号,得到所述待验证数据。
12、另一方面,当所述待脱敏数据为所述影像数据时,所述步骤s2包括:
13、步骤b21:对所述影像数据进行识别,以得到文字区域;
14、步骤b22:针对每一个所述文字区域,分别获取所述文字区域邻接的背景区域;
15、步骤b23:基于所述背景区域的色彩和纹理对所述文字区域进行填充,以得到所述待验证数据。
16、另一方面,所述步骤s3包括:
17、步骤s31:对所有的所述待验证数据进行抽样,得到抽样数据;
18、步骤s32:对所述抽样数据验证完整性,得到完整性验证结果;
19、步骤s33:根据所述数据种类调用对应的验证方法对所述抽样数据进行验证,生成数据验证结果;
20、所述验证结果包括所述完整性验证结果和所述数据验证结果。
21、另一方面,所述步骤s31中,基于以下方法根据不同的所述数据种类对应的数据数量对所述待验证数据进行抽样:
22、
23、式中,n′为第n个所述数据种类对应的所述待验证数据的抽样数量,z为z值,ε为置信区间,n为所述待验证数据的总量。
24、另一方面,所述步骤s32中,当所述数据种类为影像数据时,所述完整性验证包括:
25、步骤c31:对所述待验证数据依次提取所有的单帧图像;
26、步骤c32:根据所述待验证数据所对应的检查部位分别对每一帧所述单帧图像进行检测,以获取至少一个检查关键点;
27、步骤c33:根据所有的所述单帧图像中的所述检查关键点和所述检查部位生成所述完整性验证结果。
28、另一方面,所述步骤s33中,针对所述患者检查数据,采用第一验证方法进行验证,所述第一验证方法包括:
29、步骤d31:对所述待验证数据提取多个待检验字段;
30、步骤d32:针对每个待检验字段,判断所述待检验字段为加密字段或星号字段;
31、步骤d33:针对每个所述加密字段,判断所述加密字段的字段值格式是否为字符串格式,以及所述加密字段的字段值的长度是否满足预设的加密字段长度,生成第一判断结果;
32、或者,针对每个所述星号字段,判断所述星号字段的字段值是否为星号,生成第二判断结果;
33、步骤d34:根据所述第一判断结果和所述第二判断结果生成所述数据验证结果。
34、另一方面,所述步骤s33中,针对所述影像数据,采用第二验证方法进行验证,所述第二验证方法包括:
35、步骤e31对所述影像数据进行识别,判断所述影像数据中是否包含文字信息;
36、若是,生成校验不通过的数据验证结果;
37、若否,生成校验通过的数据验证结果。
38、另一方面,所述影像数据包括扫查视频和扫查图像,所述患者检查数据包括dicom格式的检查数据和扫查参数。
39、上述技术方案具有如下优点或有益效果:
40、针对现有技术中的脱敏方案,针对多类型的数据脱敏效果不佳的问题,本方案通过在脱敏之前预先对待脱敏数据的数据种类进行识别,并调用对应的脱敏方法进行脱敏,随后再分别采用相应的验证方法对脱敏效果进行验证,以实现对不同数据来源的数据均能够实现较好的脱敏效果。
1.一种医学影像数据的脱敏方法,其特征在于,包括:
2.根据权利要求1所述的脱敏方法,其特征在于,当所述待脱敏数据为所述患者检查数据时,所述步骤s2包括:
3.根据权利要求1所述的脱敏方法,其特征在于,当所述待脱敏数据为所述影像数据时,所述步骤s2包括:
4.根据权利要求1所述的脱敏方法,其特征在于,所述步骤s3包括:
5.根据权利要求4所述的脱敏方法,其特征在于,所述步骤s31中,基于以下方法根据不同的所述数据种类对应的数据数量对所述待验证数据进行抽样:
6.根据权利要求4所述的脱敏方法,其特征在于,所述步骤s32中,当所述数据种类为影像数据时,所述完整性验证包括:
7.根据权利要求4所述的脱敏方法,其特征在于,所述步骤s33中,针对所述患者检查数据,采用第一验证方法进行验证,所述第一验证方法包括:
8.根据权利要求4所述的脱敏方法,其特征在于,所述步骤s33中,针对所述影像数据,采用第二验证方法进行验证,所述第二验证方法包括:
9.根据权利要求1所述的脱敏方法,其特征在于,所述影像数据包括扫查视频和扫查图像,所述患者检查数据包括dicom格式的检查数据和扫查参数。