本申请涉及医疗数据处理领域,尤其涉及一种医疗知识图谱构建方法、装置、设备及介质。
背景技术:
1、为了向医生和患者提供更加优质的医学服务,如何对大量且宽泛的医学知识进行处理、整合,以获得基于自然语言处理的医疗问答系统,进而为医生和患者提供更加优质的医学服务,一直是医疗领域里备受关注的关键问题。
2、但基于医疗领域是一个宽泛的领域,其中包涵了大量的医学知识,这些知识是由许多更多领域和方向所组成的,导致医学领域的数据源十分庞大且分散,而且由于医疗行业的知识因为涉及到很多专有词汇,通过常规模型生成的知识图谱并不易于阅读。例如,当专有词汇被错误切割时,则词义就发生了变化,生成的图谱会有歧义,导致向医生和患者传递了错误的信息。
3、如何有效地整合大量的医疗知识与数据,并构建出一个完备而准确的医疗知识图谱,仍然是本领域技术人员亟待解决的技术问题。
技术实现思路
1、本发明实施例提供一种医疗知识图谱构建方法、装置、计算机设备及计算机可读存储介质,旨在结合医疗知识中的专有词汇以及在医疗场景下的各种语句关系生成完备而准确的医疗知识图谱,以为医生和患者提供优质的医学辅助服务。
2、第一方面,本发明实施例提供了一种医疗知识图谱构建方法,包括:
3、获取待处理的医疗知识样本,对医疗知识样本中的实体语句进行提取处理以得到实体语句序列;
4、对实体语句序列进行编码处理以生成实体向量;
5、根据医疗知识样本在至少两个实体向量之间赋予关联向量,关联向量用于表征对应的至少两个实体语句在医疗场景下的关系类别;
6、根据实体向量、关联向量及预设重建规则生成重建医疗知识;
7、调取预设的图谱模板,并根据重建医疗知识与图谱模板生成医疗知识图谱。
8、在一些实施方式中,根据医疗知识样本在至少两个实体向量之间赋予关联向量,包括:
9、在实体向量对应的实体语句中确定至少一个实体特征词;
10、根据在医疗知识样本查找与实体特征词对应的词义定位,词义定位包括但不限于实体特征词本身及其同义词、近义词、上位词在医疗知识样本中的相对位置;
11、在两个实体向量对应的词义定位之间的范围查找关系特征语句;
12、根据关系特征语句确定关系标签,并为对应的两个实体向量之间赋予与关系标签相匹配的关联向量。
13、在一些实施方式中,关系标签包括但不限于第一标签、第二标签及第三标签,第一标签用于表征病因与病症的关系,第二标签用于表征病症与初步治疗方案的关系,第三标签用于表征初步治疗方案与具体治疗方案的关系;
14、根据关系特征语句确定关系标签包括:
15、当关系特征语句中包含表征病因与病症关系的单词时,确定关系标签为第一标签;
16、当关系特征语句中包含表征治疗方案的单词时,确定关系标签为第二标签;
17、当关系特征语句中包含表征患者健康状况的单词时,确定关系标签为第三标签。
18、在一些实施方式中,对医疗知识样本中的实体语句进行提取处理以得到实体语句序列,包括:
19、对医疗知识样本进行预处理,得到词汇集合;
20、调用预先配置的医疗用语词典对词汇集合识别,得到候选词集合;
21、计算候选词集合中每个候选词对应的保留概率,根据保留概率从候选词集合中筛选出目标医疗词汇;
22、根据目标医疗词汇生成实体语句序列。
23、在一些实施方式中,对医疗知识样本进行预处理,得到词汇集合,包括:
24、提取医疗知识样本中的多个连续字符组成词汇预备单元;
25、对词汇预备单元进行去重处理和去停用词处理,得到词汇集合。
26、在一些实施方式中,根据实体向量、关联向量及预设重建规则生成重建医疗知识,包括:
27、将实体向量转换为对应的重建实体;
28、获取重建实体在医疗场景下的实体类别,并根据实体类别为对应的重建实体赋予优先级;
29、解析预设重建规则确定优先级对应的向量重建系数,根据重建实体的向量重建系数将重建实体之间的关联向量转换为目标向量;
30、根据目标向量与实体向量生成重建医疗知识。
31、在一些实施方式中,根据重建医疗知识与图谱模板生成医疗知识图谱,包括:
32、在预设图谱模板中设置实体向量对应的重建实体;
33、根据重建医疗知识中的目标向量在不同的重建实体之间设置对应的关系链接,以生成医疗知识图谱。
34、第二方面,本发明实施例还提供了一种医疗知识图谱构建装置,包括:
35、语句提取模块,用于获取待处理的医疗知识样本,对医疗知识样本中的实体语句进行提取处理以得到实体语句序列;
36、序列编码模块,用于对实体语句序列进行编码处理以生成实体向量;
37、向量赋予模块,用于根据医疗知识样本在至少两个实体向量之间赋予关联向量,关联向量用于表征对应的至少两个实体语句在医疗场景下的关系类别;
38、知识重建模块,用于根据实体向量、关联向量及预设重建规则生成重建医疗知识,重建医疗知识至少包括实体向量对应的实体语句及至少两个实体语句之间的关系类别;
39、图谱构建模块,用于调取预设的图谱模板,并根据重建医疗知识与图谱模板生成医疗知识图谱。
40、第三方面,本发明实施例还提供了一种计算机设备,计算机设备包括存储器和处理器;
41、存储器,用于存储计算机程序;
42、处理器,用于执行计算机程序并在执行计算机程序时实现如本说明书实施例提供的任一项医疗知识图谱构建方法。
43、第四方面,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时使处理器实现如本说明书实施例提供的任一项医疗知识图谱构建方法。
44、本发明实施例提供了一种医疗知识图谱构建方法、装置、计算机设备及计算机可读存储介质,其中,医疗知识图谱构建方法包括:获取待处理的医疗知识样本,对医疗知识样本中的实体语句进行提取处理以得到实体语句序列;对实体语句序列进行编码处理以生成实体向量;根据医疗知识样本在至少两个实体向量之间赋予关联向量,关联向量用于表征对应的至少两个实体语句在医疗场景下的关系类别;根据实体向量、关联向量及预设重建规则生成重建医疗知识;调取预设的图谱模板,并根据重建医疗知识与图谱模板生成医疗知识图谱。本发明提供的医疗知识图谱构建方法结合医疗知识中的专有词汇以及在医疗场景下的各种语句关系生成完备而准确的医疗知识图谱,以为医生和患者提供优质的医学辅助服务。
1.一种医疗知识图谱构建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述医疗知识样本在至少两个所述实体向量之间赋予关联向量,包括:
3.根据权利要求2所述的方法,其特征在于,所述关系标签包括但不限于第一标签、第二标签及第三标签,所述第一标签用于表征病因与病症的关系,所述第二标签用于表征病症与初步治疗方案的关系,所述第三标签用于表征初步治疗方案与具体治疗方案的关系;
4.根据权利要求1所述的方法,其特征在于,所述对所述医疗知识样本中的实体语句进行提取处理以得到实体语句序列,包括:
5.根据权利要求4所述的方法,其特征在于,所述对所述医疗知识样本进行预处理,得到词汇集合,包括:
6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据所述实体向量、所述关联向量及预设重建规则生成重建医疗知识,包括:
7.如权利要求6所述的方法,其特征在于,所述根据所述重建医疗知识与所述图谱模板生成医疗知识图谱,包括:
8.一种医疗知识图谱构建装置,其特征在于,包括:
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的医疗知识图谱构建方法。