一种医学实体关系的识别方法、装置及存储介质与流程

文档序号:31173217发布日期:2022-08-17 09:44阅读:55来源:国知局
一种医学实体关系的识别方法、装置及存储介质与流程

1.本技术涉及数据处理领域,尤其是涉及一种医学实体关系的识别方法、装置及存储介质。


背景技术:

2.随着医院信息化的飞速发展,积累的医疗数据越来越多,其中最基础的医疗数据是电子病历,然而,由于电子病历大部分由自然语言构成且包含部分非结构化数据,使得电子病历中的有用信息无法被依赖于结构化数据的临床决策系统直接使用,因此就需要进行文本数据归一化处理。文本数据的归一化对实现临床决策辅助系统、内涵质控、鉴别诊断等应用起到重要作用,其中,医学实体关系识别为文本数据的归一化处理过程中的重要环节。
3.医学实体关系识别是指从电子病历中提取解剖部位、诊断、肿瘤分期等实体词语,基于提取的多个实体词语建立关系从而组成富有意义的短语。但是目前实体关系的获取一般是先通过使用多种cnn(convolutional neural networks,卷积神经网络)和lstm(long short-term memory,长短期记忆人工神经网络)深度学习网络从不同维度的特征来进行抽取,然后将这些多种cnn和lstm深度学习网络联合在一起,选择出样本对应的实体关系。但是目前的这种方式没有考虑到不同实体之间上下位语义信息,导致识别不准确。


技术实现要素:

4.有鉴于此,本技术的目的在于提供一种医学实体关系的识别方法、装置及存储介质,可以有效的提高医学实体关系识别的准确度。
5.本技术实施例提供了一种医学实体关系的识别方法,所述识别方法包括:获取目标电子病历文本;通过预先确定好的实体词语识别模型对所述目标电子病历文本进行实体词语识别,识别所述目标电子病历文本中包括的医学实体词语以及每个医学实体词语的实体类型;对识别出的每个医学实体词语添加身份标识和实体识别标识;其中,所述身份标识包括每个医学实体词语中每个字符的字符身份标识以及根据每个医学实体词语的实体类型确定出的每个医学实体词语的类型身份标识,所述实体识别标识用于确定该医学实体词语是否为需进行识别的词语;按所述目标电子病历文本的阅读顺序,将添加有身份标识和实体识别标识的所有医学实体词语依次排列组合,生成多元组短语;将所述多元组短语输入至预先训练好的实体关系识别模型中,确定所述目标电子病历文本的医学实体关系的识别结果;所述实体关系识别模型为通过知识蒸馏技术训练成用于进行医学实体关系识别的学生模型。
6.可选的,通过以下步骤构建所述实体关系识别模型:获取基于待训练电子病历文本构建成的文本样本集;所述文本样本集中包括对应
的真实标签数据;基于所述文本样本集对预训练语言模型进行微调,将微调后的预训练语言模型确定为教师模型;所述预训练语言模型为bert模型;将所述文本样本集分别输入教师模型和初始学生模型中,获取所述教师模型输出的软标签数据;所述初始学生模型为cnn模型;基于所述真实标签数据和所述软标签数据,确定蒸馏损失函数;基于所述蒸馏损失函数对所述初始学生模型进行迭代训练,直至所述初始学生模型收敛,得到实体关系识别模型。
7.可选的,所述基于所述真实标签数据和所述软标签数据,确定蒸馏损失函数,包括:基于所述软标签数据确定第一损失函数;基于所述真实标签数据确定第二损失函数;对所述第一损失函数和第二损失函数进行加权求和,确定所述蒸馏损失函数。
8.可选的,通过以下步骤确定所述文本样本集:获取多个待训练电子病历文本;针对每个待训练电子病历文本,通过所述实体词语识别模型对该待训练电子病历文本进行实体词语识别,确定该待训练电子病历文本包括的医学实体词语以及每个医学实体词语的实体类型;按照预设的实体类型组合规则,基于待训练电子病历文本中每个医学实体词语的实体类型,对该待训练电子病历文本包括的医学实体词语进行筛选,并对筛选出的医学实体词语进行组合,生成该待训练电子病历文本对应的待训练样本;所述实体类型组合规则中规定了生成的待训练样本中所需包括的医学实体词语的实体类型;基于所有待训练电子病历文本对应的待训练样本,构成所述文本样本集。
9.可选的,所述实体类型组合规则是根据预设的医疗项目进行构建的;其中,所述医疗项目中规定了具有医学实体关系时所需包括的医学实体词语的实体类型。
10.可选的,所述基于所述文本样本集对预训练语言模型进行微调,将微调后的预训练语言模型确定为教师模型,包括:针对所述文本样本集中的每个待训练样本,根据该待训练样本中每个医学实体词语的实体类型,对每个医学实体词语添加对应的类型标志符,以及对该待训练样本的起始端添加分类标志符;将每个添加有类型标志符和分类标志符的待训练样本作为预训练语言模型的输入特征,将每个待训练样本对应的真实标签数据作为预训练语言模型的输出特征,对所述预训练语言模型进行微调,将微调后的预训练语言模型确定为教师模型。
11.可选的,所述医疗项目包括症状、药品、手术、评分表、检验以及检查。
12.本技术实施例还提供了一种医学实体关系的识别装置,所述识别装置包括:获取模块,用于获取目标电子病历文本;识别模块,用于通过预先确定好的实体词语识别模型对所述目标电子病历文本进行实体词语识别,识别所述目标电子病历文本中包括的医学实体词语以及每个医学实体词语的实体类型;
添加模块,用于对识别出的每个医学实体词语添加身份标识和实体识别标识;其中,所述身份标识包括每个医学实体词语中每个字符的字符身份标识以及根据每个医学实体词语的实体类型确定出的每个医学实体词语的类型身份标识,所述实体识别标识用于确定该医学实体词语是否为需进行识别的词语;生成模块,用于按所述目标电子病历文本的阅读顺序,将添加有身份标识和实体识别标识的所有医学实体词语依次排列组合,生成多元组短语;第一确定模块,用于将所述多元组短语输入至预先训练好的实体关系识别模型中,确定所述目标电子病历文本的医学实体关系的识别结果;所述实体关系识别模型为通过知识蒸馏技术训练成用于进行医学实体关系识别的学生模型。
13.可选的,所述识别装置还包括模型构建模块,所述模型构建模块用于:获取基于待训练电子病历文本构建成的文本样本集;所述文本样本集中包括对应的真实标签数据;基于所述文本样本集对预训练语言模型进行微调,将微调后的预训练语言模型确定为教师模型;所述预训练语言模型为bert模型;将所述文本样本集分别输入教师模型和初始学生模型中,获取所述教师模型输出的软标签数据;所述初始学生模型为cnn模型;基于所述真实标签数据和所述软标签数据,确定蒸馏损失函数;基于所述蒸馏损失函数对所述初始学生模型进行迭代训练,直至所述初始学生模型收敛,得到实体关系识别模型。
14.可选的,所述模型构建模块在用于基于所述真实标签数据和所述软标签数据,确定蒸馏损失函数时,所述模型构建模块用于:基于所述软标签数据确定第一损失函数;基于所述真实标签数据确定第二损失函数;对所述第一损失函数和第二损失函数进行加权求和,确定所述蒸馏损失函数。
15.可选的,所述识别装置还包括第二确定模块,所述第二确定模块用于:获取多个待训练电子病历文本;针对每个待训练电子病历文本,通过所述实体词语识别模型对该待训练电子病历文本进行实体词语识别,确定该待训练电子病历文本包括的医学实体词语以及每个医学实体词语的实体类型;按照预设的实体类型组合规则,基于待训练电子病历文本中每个医学实体词语的实体类型,对该待训练电子病历文本包括的医学实体词语进行筛选,并对筛选出的医学实体词语进行组合,生成该待训练电子病历文本对应的待训练样本;所述实体类型组合规则中规定了生成的待训练样本中所需包括的医学实体词语的实体类型;基于所有待训练电子病历文本对应的待训练样本,构成所述文本样本集。
16.可选的,所述实体类型组合规则是根据预设的医疗项目进行构建的;其中,所述医疗项目中规定了具有医学实体关系时所需包括的医学实体词语的实体类型。
17.可选的,所述模型构建模块在用于基于所述文本样本集对预训练语言模型进行微调,将微调后的预训练语言模型确定为教师模型时,所述模型构建模块用于:针对所述文本样本集中的每个待训练样本,根据该待训练样本中每个医学实体词
语的实体类型,对每个医学实体词语添加对应的类型标志符,以及对该待训练样本的起始端添加分类标志符;将每个添加有类型标志符和分类标志符的待训练样本作为预训练语言模型的输入特征,将每个待训练样本对应的真实标签数据作为预训练语言模型的输出特征,对所述预训练语言模型进行微调,将微调后的预训练语言模型确定为教师模型。
18.可选的,所述医疗项目包括症状、药品、手术、评分表、检验以及检查。
19.本技术实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的识别方法的步骤。
20.本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的识别方法的步骤。
21.本技术实施例提供的一种医学实体关系的识别方法、装置及存储介质,所述识别方法包括:获取目标电子病历文本;通过预先确定好的实体词语识别模型对所述目标电子病历文本进行实体词语识别,识别所述目标电子病历文本中包括的医学实体词语以及每个医学实体词语的实体类型;对识别出的每个医学实体词语添加身份标识和实体识别标识;其中,所述身份标识包括每个医学实体词语中每个字符的字符身份标识以及根据每个医学实体词语的实体类型确定出的每个医学实体词语的类型身份标识,所述实体识别标识用于确定该医学实体词语是否为需进行识别的词语;按所述目标电子病历文本的阅读顺序,将添加有身份标识和实体识别标识的所有医学实体词语依次排列组合,生成多元组短语;将所述多元组短语输入至预先训练好的实体关系识别模型中,确定所述目标电子病历文本的医学实体关系的识别结果;所述实体关系识别模型为通过知识蒸馏技术训练成用于进行医学实体关系识别的学生模型。
22.这样,本技术基于医学领域的先验知识,定义医疗项目和医疗项目下面所需要识别的实体关系,基于此特定范围让识别变得较为简单,从而让模型更好的学习;通过bert预训练语言模型做实体关系识别下游任务的微调并且采用实体增强的方法,提高了bert模型的识别效果;采用知识蒸馏的技术,使得cnn效果逼近bert模型,从而解决bert模型推理速度慢以及cnn识别准确度低的问题。
23.为使本技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
24.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
25.图1为本技术实施例所提供的一种医学实体关系的识别方法的流程图;图2为本技术提供的实体关系识别模型输入特征的结构示意图;图3为本技术所构建的预训练语言模型输入特征的结构示意图;图4为本技术实施例所提供的一种医学实体关系的识别装置的结构示意图之一;
图5为本技术实施例所提供的一种医学实体关系的识别装置的结构示意图之二;图6为本技术实施例所提供的一种电子设备的结构示意图。
具体实施方式
26.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本技术保护的范围。
27.随着医院信息化的飞速发展,积累的医疗数据越来越多,其中最基础的医疗数据是电子病历,然而,由于电子病历大部分由自然语言构成且包含部分非结构化数据,使得电子病历中的有用信息无法被依赖于结构化数据的临床决策系统直接使用,因此就需要进行文本数据归一化处理。其中,医学实体关系识别为文本数据的归一化处理过程中的重要环节。
28.医学实体关系识别是指从电子病历中提取解剖部位、诊断、肿瘤分期等实体词语,基于提取的多个实体词语建立关系从而组成富有意义的短语。目前实体关系的获取一般是先通过使用多种cnn(convolutional neural networks,卷积神经网络)和lstm(long short-term memory,长短期记忆人工神经网络)深度学习网络从不同维度的特征来进行抽取,然后将这些多种cnn和lstm深度学习网络联合在一起,选择出样本对应的实体关系。但是目前的这种方式存在识别不准确的问题。
29.基于此,本技术实施例提供了一种医学实体关系的识别方法、装置及存储介质,可以有效的提高医学实体关系识别的准确度。
30.请参阅图1,图1为本技术实施例所提供的一种医学实体关系的识别方法的流程图。如图1中所示,本技术实施例提供的识别方法,包括:s101、获取目标电子病历文本。
31.这里,所述目标电子病历文本是记录于电子病历中的文本,所述目标电子病历可以是用户输入的,也可以是存储在本地存储中的,还可以存储在云端服务器的。所述目标电子病历文本为需进行医学实体关系识别的文本。
32.所述医学实体关系识别是指从电子病历中提取解剖部位、诊断、肿瘤分期等实体,并基于提取的实体组成富有意义的短语。
33.示例的,获取的目标电子病历文本可以为“双侧颈部、腋窝、腹股沟区淋巴结可见”,后续工作即为判断该文本是否存在医学实体关系。
34.s102、通过预先确定好的实体词语识别模型对所述目标电子病历文本进行实体词语识别,识别所述目标电子病历文本中包括的医学实体词语以及每个医学实体词语的实体类型。
35.这里,所述实体词语识别模型为预先训练好可进行医学实体词语识别以及医学实体词语对应的实体类型识别的模型。在识别出每个医学实体词语的实体类型后,可以给改
医学实体词语添加对应的实体类型标签。
36.其中,所述实体词语识别模型可以预先确定实体类型的种类,确定每个医学实体词语的实体类型;所述医学实体词语为具有医学信息的命名实体词;所述实体类型可以包括解剖部位bdy、方位pos、症状sym、观察对象wat、性质att、时间tim、存在状态ext等多种有医学含义的实体类型,具体可划分出37种实体类型。
37.示例的,对电子病历文本“双侧颈部、腋窝、腹股沟区淋巴结可见”进行实体词语识别的结果为“双侧(pos) 颈部(bdy) 腋窝(bdy) 腹股沟区(bdy) 淋巴结(bdy) 可见(ext)”。
38.s103、对识别出的每个医学实体词语添加身份标识和实体识别标识。
39.这里,所述身份标识包括每个医学实体词语中每个字符的字符身份标识以及根据每个医学实体词语的实体类型确定出的每个医学实体词语的类型身份标识,所述实体识别标识用于确定该医学实体词语是否为需进行识别的词语。
40.其中,可预先构建医学单字符字典,对每一个字符给定一个字符身份标识(id),这个id用一个词表维护,称为单字符字典,每个字符只会对应唯一的id。这样,就可以确定医学实体词语中每个字符对应的字符身份标识。
41.在确定每个医学实体词语对应的类型身份标识时,可通过预先构建的实体类型词典进行确定,在实体类型词典中每个实体类型对应一个id也与字id类似,用一个词表维护,每个实体类型只会对应唯一的id。这样,根据实体词语识别模型识别出每个医学实体词语的实体类型以及实体类型词典,即可以确定出电子病历文本中每个医学实体词语的类型身份标识。
42.需要说明的是,对每个医学实体词语添加身份标识和实体识别标识可以使实体关系识别模型更容易识别出所输入的特征。并且在实体关系识别模型训练过程中,也可以对训练样本添加身份标识和实体识别标识。
43.示例的,请参阅图2,图2为本技术提供的实体关系识别模型输入特征的结构示意图。如图2所示,第三行类型身份标识中,因为颈部、腋窝、腹股沟区以及淋巴结的实体类型相同,所以对应的类型身份标识相同。第四行实体识别标识中都标为1是因为“双侧颈部腋窝腹股沟区淋巴结可见”中的所有医学实体词语均是需要进行识别的词语,其中,如果某个或某些实体词语不需要识别时,可以在词语识别标识的相应位置处标记0。
44.s104、按所述目标电子病历文本的阅读顺序,将添加有身份标识和实体识别标识的所有医学实体词语依次排列组合,生成多元组短语。
45.这里,之所以需要重新排列组合,是因为电子病历文本中可能包含一些对确定医学实体关系帮助不大的字符、词语以及符号等,因此在确定医学实体关系时,需要将这些信息删除,只保留识别出的有医学含义的实体词语,从而生成需进行医学实体词语识别的多元组短语。
46.其中,所述多元组短语中包括多种实体类型的医学实体词语,包括的医学实体词语的数量也可以为多个。
47.s105、将所述多元组短语输入至预先训练好的实体关系识别模型中,确定所述目标电子病历文本的医学实体关系的识别结果。
48.这里,所述实体关系识别模型为通过知识蒸馏技术训练成可用于进行医学实体关
系识别的学生模型;所述实体关系识别模型对输入的多元组短语进行医学实体关系识别,确定该多元组短语的医学实体关系的识别结果,该识别结果也是目标电子病历文本的医学实体关系的识别结果。其中确定出的识别结果为二分类结果,二分类结果包括“有关系”和“无关系”。
49.在本技术提供的一种实施方式中,通过以下步骤构建所述实体关系识别模型:获取基于待训练电子病历文本构建成的文本样本集;所述文本样本集中包括对应的真实标签数据;基于所述文本样本集对预训练语言模型进行微调,将微调后的预训练语言模型确定为教师模型;所述预训练语言模型为bert模型;将所述文本样本集分别输入教师模型和初始学生模型中,获取所述教师模型输出的软标签数据;所述初始学生模型为cnn模型;基于所述真实标签数据和所述软标签数据,确定蒸馏损失函数;基于所述蒸馏损失函数对所述初始学生模型进行迭代训练,直至所述初始学生模型收敛,得到实体关系识别模型。
50.这里,所述文本样本集中包括正样本数据(存在医学实体关系的样本)和负样本数据(不存在医学实体关系的样本),其中,正样本数据对应的真实标签数据为有关系,负样本数据对应的真实标签数据为无关系。
51.在本技术提供的另一种实施方式中,通过以下步骤确定所述文本样本集:获取多个待训练电子病历文本;针对每个待训练电子病历文本,通过所述实体词语识别模型对该待训练电子病历文本进行实体词语识别,确定该待训练电子病历文本包括的医学实体词语以及每个医学实体词语的实体类型;按照预设的实体类型组合规则,基于待训练电子病历文本中每个医学实体词语的实体类型,对该待训练电子病历文本包括的医学实体词语进行筛选,并对筛选出的医学实体词语进行组合,生成该待训练电子病历文本对应的待训练样本;所述实体类型组合规则中规定了生成的待训练样本中所需包括的医学实体词语的实体类型;基于所有待训练电子病历文本对应的待训练样本,构成所述文本样本集。
52.这里,所述待训练病历文本为记录在电子病历中的文本。实体类型组合规则中规定了具体那几种实体类型的医学实体词语同时存在时有医学实体关系,也就是说所述实体类型组合规则中限定了实体类型的组合形式,这里,所述实体类型组合规则中可存在多种实体类型的组合形式。
53.这里,所述实体类型组合规则是根据预设的医疗项目进行构建的;其中,所述医疗项目中规定了具有医学实体关系时所需包括的医学实体词语的实体类型。其中,预设的医疗项目中至少包括症状、药品、手术、评分表、检验以及检查。
54.其中,所述医疗项目类别是根据医学研究内容所确定的,这里定义了六种医疗项目,其中,每种医疗项目的实体类型的组合形式如下所示:症状项目对应的实体类型的组合形式为[症状sym+存在状态exa/may/neg+性质att+部位或方位pos/bdy+时间tim];药品项目对应的实体类型的组合形式为[药品名称med+用药途径rou+剂量dos+规格spe+频次fre+时间tim];手术项目对应的实体类型的组合形式为[入路opr+手术名称opm+开始时间tim+结束时间tim+手术持续时间tim+部位pos+植入物opx];评分项目对应的实体类型的组合形式为[评分表名称wat+数值vau+单位unt+时间点tim+时间段tim];检验项目需要识别的实体为[检验细项实体名称wat+从属检验单名称wat+时间点tim+时间段tim+数值vau+单位unt+存在状态exa/may/neg];检查项目需要识别的实体为[检查方法exa+检查部位pos/bdy+值vau+单位unt+检查结论sym+报告时间
tim]。
[0055]
需要说明的是,每个症状项目对应的实体类型的组合形式中的多个实体类型,可划分了必要实体类型和非必要实体类型,例如症状项目对应的实体类型的组合形式中的症状sym、时间tim以及转移部位pos/bdy为必要实体类型,其余为非必要实体类型。其中,符合所述实体类型组合规则中实体类型的组合形式的样本为正样本数据,不符合的为负样本数据。正样本数据中必须包括必要实体类型的医学实体词语,对于非必要实体类型的词语可以包括也可以不包括。
[0056]
示例的,以待训练电子病历文本为“双侧颈部腋窝腹股沟区淋巴结可见”为例,说明文本样本集的确定过程,根据实体类型组合规则,以及文本中包括的实体词语和实体词语的类型,确定该文本属于检查类别,那么可识别出检查类别存在医学实体关系的关系对(正训练样本)为:{双侧pos,颈部bdy,淋巴结bdy,可见ext}、{腋窝bdy,淋巴结bdy,可见ext}、{腹股沟区bdy,淋巴结bdy,可见ext}。这样在确定出正样本数据后,也可以确定出正样本数据对应的第一实体类型序列,然后对待训练电子病历文本中的实体词语进行随机组合,使得随机组合生成的样本对应的第二实体类型序列与所述第一实体类型序列不同即可,这样随机组合生成的样本即为负样本数据,示例的,生成的负样本数据可以为:{双侧pos,淋巴结bdy}、{双侧pos,颈部bdy,可见ext},这些负样本数据都是信息实体关系不对或者包含不全的关系对。
[0057]
需要说明的是,每个待训练电子病历文本可生成至少一个正样本数据,也可以生成多个正样本数据和多个负样本数据。这样,生成大量样本数据,从而生成文本样本集。其中,生成样本数据的同时也确定出每个样本数据对应的真实标签。
[0058]
由此可看出基于医学的实体关系识别需要定义具体的医疗项目类别和医疗项目类别下对应实体识别类型,约定好识别范围,相对于开放性的关系识别任务难度更简单,模型能更好的做识别。并且医疗领域的关系识别是需要在句子中把多个不相邻的实体词语组合在一起才能产生有医学含义的短语,而其他领域不会存在这么多不相邻实体的组合方式,一般常用都是三元组关系识别。因此基于医疗领域这些特性我们也可以设计多元组识别,多元组表示多个实体词语组合,具体多少个是依赖之前定义的实体类型组合规则确定。
[0059]
这样,通过实体类型组合规则进行正负样本数据确定的方法,可以自动生成样本数据以及样本对应的真实标签,从而减少人工标注成本。并且通过预先设定实体类型组合规则,一般人员即可完成数据的标注。
[0060]
在本技术提供的另一种实施方式中,所述基于所述文本样本集对预训练语言模型进行微调,将微调后的预训练语言模型确定为教师模型,包括:针对所述文本样本集中的每个待训练样本,根据该待训练样本中每个医学实体词语的实体类型,对每个医学实体词语添加对应的类型标志符,以及对该待训练样本的起始端添加分类标志符;将每个添加有类型标志符和分类标志符的待训练样本作为预训练语言模型的输入特征,将每个待训练样本对应的真实标签数据作为预训练语言模型的输出特征,对所述预训练语言模型进行微调,将微调后的预训练语言模型确定为教师模型。
[0061]
这里,在对预训练语言模型(bert模型)进行微调前,本方案提出一种bert模型输入特征的构建方法,具体为:针对文本样本集的每个待训练样本(所述待训练样本为正样本数据或负样本数据),识别该待训练样本包括的每个医学实体词语的实体类型,再根据预先
确定的实体类型与类型标志符的映射关系,对每个医学实体词语添加类型标志符;并在待训练样本的起始端添加分类标志符,所述分类标志符用于告诉预训练语言模型所执行任务的类型,这里所执行任务的类型为分类任务;最后,基于添加有类型标志符和分类标志符的文本样本集对bert模型进行微调,得到教师模型。
[0062]
其中,在对bert模型进行微调时,可以从文本样本集中选取一定比例的文本作为训练样本,剩余文本作为测试样本对bert模型进行迭代训练,当达到预设迭代次数时,停止微调,保存测试样本f1(f1值为精确率和召回率的调和平均数)最大值的bert模型结果,作为教师模型。
[0063]
其中,在对每个医学实体词语添加类型标志符时,具体可以为在医学实体词语的首尾位置处均添加该医学实体词语对应的类型标志符。通过对每个待训练样本添加类型标志符,起到了实体特征增强的作用,更利于模型进行识别。
[0064]
示例的,请参阅图3,图3为本技术所构建的预训练语言模型输入特征的结构示意图。在添加类型标志符和分类标志符前,使用[unused0]、[unused1]至[unusedn]的bert词典作为每个实体类型一一对应的类型标志符,n的取值是根据实体类型的种类数量确定的。比如:剖宫部位bdy对应[unused0]bert词典,方位pos对应[unused1] bert词典,存在状态exi对应[unused3]bert词典,每个实体类型,都能找到唯一的bert词典对应。有了实体类型到bert词典的唯一映射,在构建bert模型输入特征时,将一对[unusedx](x通过实体类型来确定)放在所需要识别的医学实体词语前和后,将医学实体词语放在中间,这样预测多元组的关系时(既多个候选实体之间是否能组合成一个医学短语),每个医学实体词语用一对[unusedx](x通过实体类型来确定)进行实体特征增强。如图3所示,cls代表分类标志符,u0为unused0,u1为unused1,u3为unused3。
[0065]
此外,通过实验发现,实体特征增强方式促使模型的f1值相较于未做实体特征增强的提升了2%。
[0066]
这里,在确定出教师模型后,通过教师模型对文本样本集的样本进行预测,确定每个样本对应的软标签数据。其中样本通过教师模型(微调好的bert模型)预测时,可得到bert模型每层transformer encode的向量输出,其中,所述bert模型可以为bert-large模型,为24层transformer,取第24层transformer即最后一层transformer的输出的二维向量,作为软标签数据。
[0067]
在确定软标签数据和真实标签数据后,需确定总的损失函数,也就是确定蒸馏损失函数。这里,基于所述真实标签数据和所述软标签数据,确定蒸馏损失函数,包括:基于所述软标签数据确定第一损失函数;基于所述真实标签数据确定第二损失函数;对所述第一损失函数和第二损失函数进行加权求和,确定所述蒸馏损失函数。
[0068]
其中,基于确定出的蒸馏损失函数,利用反向梯度传播算法对所述初始学生模型的模型参数进行迭代更新,直至初始学生模型收敛,得到实体关系识别模型。其中,所述初始学生模型为cnn模型,所述初始学生模型为轻量模型。
[0069]
这样,采用知识蒸馏的技术,使得cnn效果逼近bert模型,解决了bert模型推理速度慢的问题。并且保证其性能跟直接训练的cnn一致情况下,效果优于直接训练的cnn模型。
[0070]
本技术实施例提供的一种医学实体关系的识别方法、装置及存储介质,所述识别方法包括:获取目标电子病历文本;通过预先确定好的实体词语识别模型对所述目标电子
病历文本进行实体词语识别,识别所述目标电子病历文本中包括的医学实体词语以及每个医学实体词语的实体类型;对识别出的每个医学实体词语添加身份标识和实体识别标识;其中,所述身份标识包括每个医学实体词语中每个字符的字符身份标识以及根据每个医学实体词语的实体类型确定出的每个医学实体词语的类型身份标识,所述实体识别标识用于确定该医学实体词语是否为需进行识别的词语;按所述目标电子病历文本的阅读顺序,将添加有身份标识和实体识别标识的所有医学实体词语依次排列组合,生成多元组短语;将所述多元组短语输入至预先训练好的实体关系识别模型中,确定所述目标电子病历文本的医学实体关系的识别结果;所述实体关系识别模型为通过知识蒸馏技术训练成用于进行医学实体关系识别的学生模型。
[0071]
这样,本技术基于医学领域的先验知识,定义医疗项目类别和医疗项目类别下面所需要识别的实体关系,基于此特定范围让识别变得较为简单,从而让模型更好的学习;通过bert预训练语言模型做实体关系识别下游任务的微调并且采用实体增强的方法,提高了bert模型的识别效果;采用知识蒸馏的技术,使得cnn效果逼近bert模型,从而解决bert模型推理速度慢以及cnn识别准确度低的问题。
[0072]
请参阅图4、图5,图4为本技术实施例所提供的一种医学实体关系的识别装置的结构示意图之一,图5为本技术实施例所提供的一种医学实体关系的识别装置的结构示意图之二。如图4中所示,所述识别装置400包括:获取模块410,用于获取目标电子病历文本;识别模块420,用于通过预先确定好的实体词语识别模型对所述目标电子病历文本进行实体词语识别,识别所述目标电子病历文本中包括的医学实体词语以及每个医学实体词语的实体类型;添加模块430,用于对识别出的每个医学实体词语添加身份标识和实体识别标识;其中,所述身份标识包括每个医学实体词语中每个字符的字符身份标识以及根据每个医学实体词语的实体类型确定出的每个医学实体词语的类型身份标识,所述实体识别标识用于确定该医学实体词语是否为需进行识别的词语;生成模块440,用于按所述目标电子病历文本的阅读顺序,将添加有身份标识和实体识别标识的所有医学实体词语依次排列组合,生成多元组短语;第一确定模块450,用于将所述多元组短语输入至预先训练好的实体关系识别模型中,确定所述目标电子病历文本的医学实体关系的识别结果;所述实体关系识别模型为通过知识蒸馏技术训练成用于进行医学实体关系识别的学生模型。
[0073]
可选的,如图5所示,所述识别装置400还包括模型构建模块460,所述模型构建模块460用于:获取基于待训练电子病历文本构建成的文本样本集;所述文本样本集中包括对应的真实标签数据;基于所述文本样本集对预训练语言模型进行微调,将微调后的预训练语言模型确定为教师模型;所述预训练语言模型为bert模型;将所述文本样本集分别输入教师模型和初始学生模型中,获取所述教师模型输出的软标签数据;所述初始学生模型为cnn模型;基于所述真实标签数据和所述软标签数据,确定蒸馏损失函数;
基于所述蒸馏损失函数对所述初始学生模型进行迭代训练,直至所述初始学生模型收敛,得到实体关系识别模型。
[0074]
可选的,所述模型构建模块460在用于基于所述真实标签数据和所述软标签数据,确定蒸馏损失函数时,所述模型构建模块460用于:基于所述软标签数据确定第一损失函数;基于所述真实标签数据确定第二损失函数;对所述第一损失函数和第二损失函数进行加权求和,确定所述蒸馏损失函数。
[0075]
可选的,所述识别装置400还包括第二确定模块470,所述第二确定模块470用于:获取多个待训练电子病历文本;针对每个待训练电子病历文本,通过所述实体词语识别模型对该待训练电子病历文本进行实体词语识别,确定该待训练电子病历文本包括的医学实体词语以及每个医学实体词语的实体类型;按照预设的实体类型组合规则,基于待训练电子病历文本中每个医学实体词语的实体类型,对该待训练电子病历文本包括的医学实体词语进行筛选,并对筛选出的医学实体词语进行组合,生成该待训练电子病历文本对应的待训练样本;所述实体类型组合规则中规定了生成的待训练样本中所需包括的医学实体词语的实体类型;基于所有待训练电子病历文本对应的待训练样本,构成所述文本样本集。
[0076]
可选的,所述实体类型组合规则是根据预设的医疗项目进行构建的;其中,所述医疗项目中规定了具有医学实体关系时所需包括的医学实体词语的实体类型。
[0077]
可选的,所述模型构建模块460在用于基于所述文本样本集对预训练语言模型进行微调,将微调后的预训练语言模型确定为教师模型时,所述模型构建模块460用于:针对所述文本样本集中的每个待训练样本,根据该待训练样本中每个医学实体词语的实体类型,对每个医学实体词语添加对应的类型标志符,以及对该待训练样本的起始端添加分类标志符;将每个添加有类型标志符和分类标志符的待训练样本作为预训练语言模型的输入特征,将每个待训练样本对应的真实标签数据作为预训练语言模型的输出特征,对所述预训练语言模型进行微调,将微调后的预训练语言模型确定为教师模型。
[0078]
可选的,所述医疗项目包括症状、药品、手术、评分表、检验以及检查。
[0079]
请参阅图6,图6为本技术实施例所提供的一种电子设备的结构示意图。如图6中所示,所述电子设备600包括处理器610、存储器620和总线630。
[0080]
所述存储器620存储有所述处理器610可执行的机器可读指令,当电子设备600运行时,所述处理器610与所述存储器620之间通过总线630通信,所述机器可读指令被所述处理器610执行时,可以执行如上述图1以至图3所示方法实施例中的步骤,具体实现方式可参见方法实施例,在此不再赘述。
[0081]
本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1以至图3所示方法实施例中的步骤,具体实现方式可参见方法实施例,在此不再赘述。
[0082]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0083]
在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0084]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0085]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0086]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0087]
最后应说明的是:以上所述实施例,仅为本技术的具体实施方式,用以说明本技术的技术方案,而非对其限制,本技术的保护范围并不局限于此,尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本技术实施例技术方案的精神和范围,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1