本公开涉及医疗信息,尤其涉及一种电子病历脱敏方法及系统、电子设备、存储介质。
背景技术:
1、电子病历是医疗信息建设中的重要领域,现有的his医疗系统厂商都做了对应的电子病历编辑器让医生快速编辑病历,生成对应的xml格式的电子病历。基于对电子病历共享的需求,需要对病历中出现的真实敏感信息进行脱除,但是由于不同的his医疗系统厂商对电子病历的设计不统一,导致标签文档混乱,格式繁多,进而导致难以对电子病历进行有效脱敏,为数据流动共享增加难度。
技术实现思路
1、有鉴于此,本公开实施例提供了一种电子病历脱敏方法及系统、电子设备、存储介质,能够对电子病历进行准确、高效的脱敏,促进电子病历共享。
2、第一方面,本公开实施例提供了一种电子病历脱敏方法,采用如下技术方案:
3、获取电子病历,将所述电子病历转化为非结构化文本;
4、确定敏感词类型;
5、基于语义模型、所述非结构化文本、所述敏感词类型获得第一概率矩阵和第二概率矩阵;
6、基于所述第一概率矩阵和所述第二概率矩阵确定所述非结构化文本中的目标敏感词的第一起止位置编号;
7、基于所述第一起止位置编号对所述电子病历进行脱敏获得安全病历。
8、可选地,所述基于语义模型、所述非结构化文本、所述敏感词类型获得第一概率矩阵和第二概率矩阵包括:
9、获取第一阈值与所述非结构化文本的所有字符的总数的第一差值;
10、如果所述第一差值为零,则将所述非结构化文本的所有字符组合为字符集合;
11、如果所述第一差值不为零,则将所述非结构化文本的所有字符和第一差值个预设字符组合为字符集合;
12、遍历所述敏感词类型,基于所述字符集合和遍历出来的敏感词类型,构建所述语义模型的输入矩阵;
13、将所述输入矩阵输入到所述语义模型中,获取所述语义模型输出的所述第一概率矩阵和所述第二概率矩阵。
14、可选地,所述输入矩阵为:
15、;
16、其中,表示第个非结构化文本的字符集合,,表示所述非结构化文本的总数;表示第个遍历出来的敏感词类型,,表示所述敏感词类型的总数;
17、所述第一概率矩阵为:
18、;
19、其中,表示第个非结构化文本的字符集合中的字符分别为目标敏感词的首字符的概率的集合,简称第一概率集合,所述目标敏感词属于第个遍历出来的敏感词类型;
20、所述第二概率矩阵为:
21、;
22、其中,表示第个非结构化文本的字符集合中的字符分别为目标敏感词的末尾字符的概率的集合,简称第二概率集合。
23、可选地,所述基于所述第一概率矩阵和所述第二概率矩阵确定所述非结构化文本中的目标敏感词的第一起止位置编号包括:
24、如果所述目标敏感词所属的敏感词类型为姓名,则基于所述第一概率矩阵和所述第二概率矩阵,采用第一预设规则确定所述第一起止位置编号;
25、如果所述目标敏感词所属的敏感词类型不为姓名,则基于所述第一概率矩阵和所述第二概率矩阵,采用第二预设规则确定所述第一起止位置编号。
26、可选地,所述电子病历脱敏方法还包括:
27、创建初始模型;
28、准备数据集;
29、基于所述数据集对所述初始模型进行预训练、微调、训练、测试和验证,获得所述语义模型。
30、可选地,所述初始模型包括pretrain层和enhanced encoding层,所述pretrain层包括medical embedding层和transformer encoder层,所述enhanced encoding层包括pooler-linear层、linear层1和linear层2。
31、可选地,所述准备数据集包括:
32、获取数据样本,根据所述敏感词类型查询出所述数据样本中每个敏感词的第二起止位置编号;
33、基于所述第二起止位置编号对所述数据样本进行标注,将标注好的数据样本整合为所述数据集。
34、第二方面,本公开实施例还提供了一种电子病历脱敏系统,采用如下技术方案:
35、文本转化模块,用于获取电子病历,将所述电子病历转化为非结构化文本;
36、类型确定模块,用于确定敏感词类型;
37、矩阵获得模块,用于基于语义模型、所述非结构化文本、所述敏感词类型获得第一概率矩阵和第二概率矩阵;
38、编号确定模块,用于基于所述第一概率矩阵和所述第二概率矩阵确定所述非结构化文本中的目标敏感词的第一起止位置编号;
39、病历脱敏模块,用于基于所述第一起止位置编号对所述电子病历进行脱敏获得安全病历。
40、第三方面,本公开实施例还提供了一种电子设备,采用如下技术方案:
41、所述电子设备包括:
42、至少一个处理器;以及,
43、与所述至少一个处理器通信连接的存储器;其中,
44、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行以上任一所述的电子病历脱敏方法。
45、第四方面,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行以上任一所述的电子病历脱敏方法。
46、本公开实施例提供的一种电子病历脱敏方法,通过将电子病历转为非结构化文本,并基于语义模型和敏感词类型进行处理,使得电子病历中的敏感信息会被识别并脱敏,从而有效保护了患者的隐私信息,降低了泄露敏感数据的风险,脱敏后获得的安全病历可以用于数据共享,例如用于医学研究、统计分析等,并且由于敏感信息已经被脱敏,安全病历可以更加自由地在不同的环境中使用和传播,促进了医疗数据的流通和共享。该方法中通过语义模型和敏感词类型确定目标敏感词在非结构化文本中的起止位置编号,然后通过起止位置编号对相应病历文本进行脱敏的方式,能够有效地降低错误脱敏的概率,提高了脱敏的准确性,并且相比于人工脱敏,节省了大量的时间和人力成本。
47、上述说明仅是本公开技术方案的概述,为了能更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为让本公开的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
1.一种电子病历脱敏方法,其特征在于,包括:
2.根据权利要求1所述的电子病历脱敏方法,其特征在于,所述基于语义模型、所述非结构化文本、所述敏感词类型获得第一概率矩阵和第二概率矩阵包括:
3.根据权利要求2所述的电子病历脱敏方法,其特征在于,所述输入矩阵为:
4.根据权利要求3所述的电子病历脱敏方法,其特征在于,所述基于所述第一概率矩阵和所述第二概率矩阵确定所述非结构化文本中的目标敏感词的第一起止位置编号包括:
5.根据权利要求1所述的电子病历脱敏方法,其特征在于,还包括:
6.根据权利要求5所述的电子病历脱敏方法,其特征在于,所述初始模型包括pretrain层和enhanced encoding层,所述pretrain层包括medical embedding层和transformerencoder层,所述enhanced encoding层包括pooler-linear层、linear层1和linear层2。
7.根据权利要求5所述的电子病历脱敏方法,其特征在于,所述准备数据集包括:
8.一种电子病历脱敏系统,其特征在于,包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行权利要求1-7任一所述的电子病历脱敏方法。