体检知识图谱构建方法、装置、计算机设备及存储介质与流程

文档序号:32504284发布日期:2022-12-10 06:04阅读:54来源:国知局
体检知识图谱构建方法、装置、计算机设备及存储介质与流程

1.本发明实施例涉及数据处理领域,尤其涉及一种体检知识图谱构建方法、装置、计算机设备及存储介质。


背景技术:

2.健康体检是通过医学手段和方法对受检者进行身体的全面检查,了解受检者早期身体健康状况,及早的发现疾病线索和健康隐患的医疗行为。体检内容包括临床各科室的基本检查,如超声、心电、放射等医疗设备检查,还包括围绕人体的血液、尿液等的化验检查。健康体检是以健康而非单纯疾病为中心的身体检查,故又称之为预防保健性体检。因此,一个精准,涵盖知识量高的体检知识图谱可以提高体检效率。
3.现有的体检知识图谱的构建方法是基于规则从基础知识图谱中推理出推理知识图谱,再将基础知识图谱和推理知识图谱合并形成新的基础知识图谱。但是,基于规则的方式需要较多的人工制定规则,成本较高,并且知识获取的范围比较局限。


技术实现要素:

4.鉴于此,为解决上述体检知识图谱构建方法成本高和局限性高的技术问题,本发明实施例提供一种体检知识图谱构建方法、装置、计算机设备及存储介质。
5.第一方面,本发明实施例提供一种体检知识图谱构建方法,包括:
6.对现有医疗文档中的医疗概念实体进行抽取,得到多个目标医疗概念实体,其中,所述目标医疗概念实体包括疾病实体和特征实体;
7.抽取所述疾病实体和特征实体之间的多种预设参数;
8.基于所述多种预设参数将所述多个目标医疗概念实体与第一体检知识图谱中的医疗概念实体进行链接,得到第二体检知识图谱;
9.对所述第二体检知识图谱中的体检知识进行数据处理,得到第三体检知识图谱;
10.对所述第三体检知识图谱进行质量评估,在质量评估结果满足预设条件时,得到目标体检知识图谱。
11.在一个可能的实施方式中,所述方法还包括:
12.基于预训练的关系分类模型,抽取所述疾病实体和特征实体之间的关联关系;
13.基于槽填充方法,抽取所述特征实体的属性信息。
14.在一个可能的实施方式中,所述方法还包括:
15.对所述现有医疗文档中的医疗信息语句添加预设字符,得到目标医疗信息语句;
16.将所述目标医疗语句输入至所述关系分类模型,得到疾病实体和特征实体对应的目标向量;
17.基于所述目标向量计算所述疾病实体和特征实体之间的关联关系。
18.在一个可能的实施方式中,所述方法还包括:
19.基于所述槽填充方法,对所述现有医疗文档中的医疗信息语句进行语义识别,识
别所述特征实体的属性信息。
20.在一个可能的实施方式中,所述方法还包括:
21.基于实体链接方法,将所述多个目标医疗概念实体与所述第一体检知识图谱中的医疗概念实体进行链接,确定所述多个目标医疗概念实体与所述第一体检知识图谱中的医疗概念实体之间的层级关系;
22.基于所述层级关系,将所述多个目标医疗概念实体链接到所述第一体检知识图谱中对应的医疗概念实体下,得到第二体检知识图谱。
23.在一个可能的实施方式中,所述方法还包括:
24.基于语义相似度,在所述第一体检知识图谱中的医疗概念实体中选择与所述多个目标医疗概念实体对应的多个候选医疗概念实体;
25.基于预训练的关系分类模型预测所述多个目标医疗概念实体和对应的多个候选实体之间的层级关系。
26.在一个可能的实施方式中,所述方法还包括:
27.采用规则推理方法获取所述第二体检知识图谱中存在的隐含医疗概念实体;
28.采用链接预测方法预测所述隐含医疗概念实体之间的关联关系;
29.采用槽填充方法补充所述隐含医疗概念实体缺失的属性信息;
30.基于所述隐含医疗概念实体之间的关联关系和所述隐含医疗概念实体缺失的属性信息对所述第二体检知识图谱进行更新,得到第三体检知识图谱。
31.第二方面,本发明实施例提供一种体检知识图谱构建装置,包括:
32.抽取模块,用于对现有医疗文档中的医疗概念实体进行抽取,得到多个目标医疗概念实体,其中,所述目标医疗概念实体包括疾病实体和特征实体;
33.所述抽取模块,还用于抽取所述疾病实体和特征实体之间的多种预设参数;
34.链接模块,用于基于所述多种预设参数将所述多个目标医疗概念实体与第一体检知识图谱中的医疗概念实体进行链接,得到第二体检知识图谱;
35.处理模块,用于对所述第二体检知识图谱中的体检知识进行数据处理,得到第三体检知识图谱;
36.评估模块,用于对所述第三体检知识图谱进行质量评估,在质量评估结果满足预设条件时,得到目标体检知识图谱。
37.第三方面,本发明实施例提供一种计算机设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的体检知识图谱构建程序,以实现上述第一方面中所述的体检知识图谱构建方法。
38.第四方面,本发明实施例提供一种存储介质,包括:所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述第一方面中所述的体检知识图谱构建方法。
39.本发明实施例提供的体检知识图谱构建方案,通过对现有医疗文档中的医疗概念实体进行抽取,得到多个目标医疗概念实体,其中,所述目标医疗概念实体包括疾病实体和特征实体;抽取所述疾病实体和特征实体之间的多种预设参数;基于所述多种预设参数将所述多个目标医疗概念实体与第一体检知识图谱中的医疗概念实体进行链接,得到第二体检知识图谱;对所述第二体检知识图谱中的体检知识进行数据处理,得到第三体检知识图
谱;对所述第三体检知识图谱进行质量评估,在质量评估结果满足预设条件时,得到目标体检知识图谱,相比于现有技术基于规则从基础知识图谱中推理出推理知识图谱,再将基础知识图谱和推理知识图谱合并形成新的基础知识图谱;基于规则的方式需要较多的人工制定规则,成本较高,并且知识获取的范围比较局限的问题,由本方案,可以避免体检知识图谱构建过程中较多人工干预,降低构建成本的问题,本方案构建的体检知识图谱涵盖知识范围广,提高应用效率。
附图说明
40.图1为本发明实施例提供的一种体检知识图谱构建方法的流程示意图;
41.图2为本发明实施例提供的另一种体检知识图谱构建方法的流程示意图;
42.图3为本发明实施例提供的一种体检知识图谱构建装置的结构示意图;
43.图4为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
44.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
45.为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
46.图1为本发明实施例提供的一种体检知识图谱构建方法的流程示意图,如图1所示,该方法具体包括:
47.s11、对现有医疗文档中的医疗概念实体进行抽取,得到多个目标医疗概念实体,其中,所述目标医疗概念实体包括疾病实体和特征实体。
48.本发明实施例中,首先对现有的医疗文档中的医疗概念实体进行抽取,其中,可以采用bert(bidirectional encoder representations from transformers)模型、crf算法以及词典回标的混合策略对现有医疗文档中的医疗概念实体进行抽取,bert模型是一种语言表示模型;crf算法是一种无向图模型,主要应用于分词、词性标注和命名实体识别等序列标注;现有医疗文档可以包括但不限于体检报告、医学教材、临床病历等非结构化医疗文档。
49.进一步的,抽取医疗概念实体后得到多个目标医疗概念实体,其中,目标医疗概念实体包括疾病实体和特征实体。
50.例如,一个体检数据显示为“肺癌且有血压偏高(150/98mmhg)”,将“肺癌”抽取为疾病实体;将“血压偏高”抽取为特征实体。
51.s12、抽取所述疾病实体和特征实体之间的多种预设参数。
52.本发明实施例中,根据上述得到的疾病实体和特征实体,进一步抽取疾病实体和特征实体之间的多种预设参数,其中,多种预设参数可以是疾病实体和特征实体之间的关联关系、特征实体的属性信息等。
53.s13、基于所述多种预设参数将所述多个目标医疗概念实体与第一体检知识图谱
中的医疗概念实体进行链接,得到第二体检知识图谱。
54.在抽取得到疾病实体和特征实体之间的多种预设参数后,基于多种预设参数,可以采用实体链接法,将文档中抽取的目标医疗概念实体与第一体检知识图谱中的医疗概念实体进行链接,确定医疗概念实体间的层级关系(同义关系、上下位关系),根据层级关系融合医疗概念实体,得到第二体检知识图谱,其中,第一体检知识图谱为现有的体检知识图谱,是将来自其他结构化和第三方知识库的体检知识进行数据整合、消歧、更新后得到的。
55.s14、对所述第二体检知识图谱中的体检知识进行数据处理,得到第三体检知识图谱。
56.本发明实施例中,得到第二体检知识图谱后,需要对第二体检知识图谱进行优化,包括但不限于挖掘隐含信息,推理缺失事实,通过不一致检测技术发现数据中的噪声和缺陷,不断完善和扩充知识图谱等。
57.s15、对所述第三体检知识图谱进行质量评估,在质量评估结果满足预设条件时,得到目标体检知识图谱。
58.对第三体检知识图谱进行质量评估,首先,可以人工抽检知识图谱中的实体、关系、属性,评估知识准确率,然后基于应用构建知识覆盖率测试集,评估知识的覆盖率,最后将知识图谱应用于业务,基于业务效果评估知识图谱的质量。
59.本发明实施例提供的体检知识图谱构建方法,通过对现有医疗文档中的医疗概念实体进行抽取,得到多个目标医疗概念实体,其中,所述目标医疗概念实体包括疾病实体和特征实体;抽取所述疾病实体和特征实体之间的多种预设参数;基于所述多种预设参数将所述多个目标医疗概念实体与第一体检知识图谱中的医疗概念实体进行链接,得到第二体检知识图谱;对所述第二体检知识图谱中的体检知识进行数据处理,得到第三体检知识图谱;对所述第三体检知识图谱进行质量评估,在质量评估结果满足预设条件时,得到目标体检知识图谱,相比于现有技术基于规则从基础知识图谱中推理出推理知识图谱,再将基础知识图谱和推理知识图谱合并形成新的基础知识图谱;基于规则的方式需要较多的人工制定规则,成本较高,并且知识获取的范围比较局限的问题,由本方法,可以避免体检知识图谱构建过程中较多人工干预,降低构建成本的问题,本方案构建的体检知识图谱涵盖知识范围广,提高应用效率。
60.图2为本发明实施例提供的另一种体检知识图谱构建方法的流程示意图,如图2所示,该方法具体包括:
61.s21、对所述现有医疗文档中的医疗信息语句添加预设字符,得到目标医疗信息语句。
62.本发明实施例中,对现有的医疗文档中的医疗概念实体进行抽取,得到疾病实体和特征实体,进一步抽取疾病实体和特征实体之间的多种预设参数,其中,多种预设参数可以是疾病实体和特征实体之间的关联关系、特征实体的属性信息等。
63.进一步的,疾病实体和特征实体之间的关联关系可以采用预训练关系分类模型(如r-bert)进行抽取,例如,“严重高血糖时出现典型的“三多一少”症状,即多饮、多食、多尿和消瘦,多见于1型糖尿病。”抽取出疾病实体“1型糖尿病”和症状(特征实体)“多饮”、“多食”、“多尿”、“消瘦”之间的疾病临床表现关系。
64.具体的,以r-bert关系分类模型为例,将输入的句子添加预设字符,得到目标医疗
信息语句,即处理成如“[cls]严重高血糖时出现典型的“三多一少”症状,即$多饮#、多食、多尿和消瘦,多见于$1型糖尿病#。”的形式,在句子前加上“[cls]”,在首尾实体前后分别加上“$”和“#”字符。
[0065]
s22、将所述目标医疗语句输入至所述关系分类模型,得到疾病实体和特征实体对应的目标向量。
[0066]
将目标医疗语句输入bert模型,获得如下向量h
’0、h
’1、h
’2:
[0067]h’0=w0(tanh(h0)+b0[0068][0069][0070]
其中,h0是目标医疗语句的向量表示;h
’0表示句子向量经过前馈神经网络后得到的向量;hh和h
t
分别表示首实体和尾实体的字符向量表示;h
’1和h
’2是实体的各个字符向量表示求和并取平均后经过前馈神经网络得到的首实体和尾实体向量表示;w0、w1、w2表示模型计算不同阶段的权重矩阵;i表示首实体的第一个字符在句子中的位置;j表示首实体的最后一个字符在句子中的位置;k表示尾实体的第一个字符在句子中的位置;m表示尾实体的最后一个字符在句子中的位置;b0、b1、b2分别表示模型计算不同阶段的偏置。
[0071]
s23、基于所述目标向量计算所述疾病实体和特征实体之间的关联关系。
[0072]
将上述得到的三个目标向量拼接后经过全连接层,通过softmatx函数进行分类,得到疾病实体和特征实体之间的关联关系p,如公式1、2所示:
[0073]
h”=w3(tanh(h
’0+h
’1+h
’2)+b3ꢀꢀꢀ
公式1
[0074]
p=softmax(h”)
ꢀꢀꢀ
公式2
[0075]
其中,h”是softmatx函数隐藏层的向量表示;w3表示当前阶段的权重矩阵;b3表示当前阶段的偏置。
[0076]
s24、基于所述槽填充方法,对所述现有医疗文档中的医疗信息语句进行语义识别,识别所述特征实体的属性信息。
[0077]
本发明实施例中,可以采用槽填充方法,对现有医疗文档中的医疗信息语句进行语义识别,抽取特征实体的属性信息。
[0078]
例如,将“肺癌且有血压偏高(150/98mmhg)”中,特征实体“血压偏高”的指标属性“150/98mmhg”抽取出来。
[0079]
s25、基于语义相似度,在所述第一体检知识图谱中的医疗概念实体中选择与所述多个目标医疗概念实体对应的多个候选医疗概念实体。
[0080]
s26、基于预训练的关系分类模型预测所述多个目标医疗概念实体和对应的多个候选实体之间的层级关系。
[0081]
基于实体链接的方法将文档中抽取的多个目标医疗概念实体与第一体检知识图谱中的医疗概念实体进行链接,确定层级关系(同义关系、上下位关系)。首先通过语义相似度从第一体检知识图谱中选择与待链接的每个目标医疗概念实体最相似的若干候选医疗
实体,再通过预训练的关系分类模型预测待链接目标医疗概念实体和候选医疗概念实体的层级关系。其中,第一体检知识图谱为现有的体检知识图谱,是将来自其他结构化和第三方知识库的体检知识进行数据整合、消歧、更新后得到的。
[0082]
s27、基于所述层级关系,将所述多个目标医疗概念实体链接到所述第一体检知识图谱中对应的医疗概念实体下,得到第二体检知识图谱。
[0083]
根据层级关系融合目标医疗概念实体与第一体检知识图谱中的医疗概念实体,得到第二体检知识图谱。
[0084]
s28、采用规则推理方法获取所述第二体检知识图谱中存在的隐含医疗概念实体。
[0085]
s29、采用链接预测方法预测所述隐含医疗概念实体之间的关联关系。
[0086]
s210、采用槽填充方法补充所述隐含医疗概念实体缺失的属性信息。
[0087]
s211、基于所述隐含医疗概念实体之间的关联关系和所述隐含医疗概念实体缺失的属性信息对所述第二体检知识图谱进行更新,得到第三体检知识图谱。
[0088]
以下对s28~s211进行统一说明:
[0089]
本发明实施例中,得到第二体检知识图谱后,需要对第二体检知识图谱进行优化。
[0090]
具体的,对第二体检知识图谱采用知识推理技术挖掘隐含信息,推理出缺失事实,通过本体或者规则推理技术获取数据中存在的隐含医疗概念实体,用链接预测方法预测隐含医疗概念实体之间的隐含关联关系,用槽填充方法补齐隐含医疗概念实体缺失的属性信息;基于隐含医疗概念实体之间的关联关系和隐含医疗概念实体缺失的属性信息对第二体检知识图谱进行更新,通过不一致检测技术可以发现数据中的噪声和缺陷,不断完善和扩充知识图谱,得到完善更新后的第三体检知识图谱。
[0091]
进一步的,对第三体检知识图谱进行质量评估,首先,可以人工抽检知识图谱中的实体、关系、属性,评估知识准确率,然后基于应用构建知识覆盖率测试集,评估知识的覆盖率,最后将知识图谱应用于业务,基于业务效果评估知识图谱的质量。
[0092]
本发明实施例提供的体检知识图谱构建方法,通过对现有医疗文档中的医疗概念实体进行抽取,得到多个目标医疗概念实体,其中,所述目标医疗概念实体包括疾病实体和特征实体;抽取所述疾病实体和特征实体之间的多种预设参数;基于所述多种预设参数将所述多个目标医疗概念实体与第一体检知识图谱中的医疗概念实体进行链接,得到第二体检知识图谱;对所述第二体检知识图谱中的体检知识进行数据处理,得到第三体检知识图谱;对所述第三体检知识图谱进行质量评估,在质量评估结果满足预设条件时,得到目标体检知识图谱,由本方法,采用基于预训练深度学习的技术进行实体、关系、属性抽取,人工成本低,抽取的知识范围广,效率高,并且可以提高体检知识图谱的应用效率。
[0093]
图3为本发明实施例提供的一种体检知识图谱构建装置的结构示意图,如图3所示,具体包括:
[0094]
抽取模块301,用于对现有医疗文档中的医疗概念实体进行抽取,得到多个目标医疗概念实体,其中,所述目标医疗概念实体包括疾病实体和特征实体;
[0095]
所述抽取模块301,还用于抽取所述疾病实体和特征实体之间的多种预设参数;
[0096]
链接模块302,用于基于所述多种预设参数将所述多个目标医疗概念实体与第一体检知识图谱中的医疗概念实体进行链接,得到第二体检知识图谱;
[0097]
处理模块303,用于对所述第二体检知识图谱中的体检知识进行数据处理,得到第
三体检知识图谱;
[0098]
评估模块304,用于对所述第三体检知识图谱进行质量评估,在质量评估结果满足预设条件时,得到目标体检知识图谱。
[0099]
在一个可能的实施方式中,所述抽取模块301,具体用于基于预训练的关系分类模型,抽取所述疾病实体和特征实体之间的关联关系;基于槽填充方法,抽取所述特征实体的属性信息。
[0100]
在一个可能的实施方式中,所述抽取模块301,还用于对所述现有医疗文档中的医疗信息语句添加预设字符,得到目标医疗信息语句;将所述目标医疗语句输入至所述关系分类模型,得到疾病实体和特征实体对应的目标向量;基于所述目标向量计算所述疾病实体和特征实体之间的关联关系。
[0101]
在一个可能的实施方式中,所述抽取模块301,还用于基于所述槽填充方法,对所述现有医疗文档中的医疗信息语句进行语义识别,识别所述特征实体的属性信息。
[0102]
在一个可能的实施方式中,所述链接模块302,具体用于基于实体链接方法,将所述多个目标医疗概念实体与所述第一体检知识图谱中的医疗概念实体进行链接,确定所述多个目标医疗概念实体与所述第一体检知识图谱中的医疗概念实体之间的层级关系;基于所述层级关系,将所述多个目标医疗概念实体链接到所述第一体检知识图谱中对应的医疗概念实体下,得到第二体检知识图谱。
[0103]
在一个可能的实施方式中,所述链接模块302,还用于基于语义相似度,在所述第一体检知识图谱中的医疗概念实体中选择与所述多个目标医疗概念实体对应的多个候选医疗概念实体;基于预训练的关系分类模型预测所述多个目标医疗概念实体和对应的多个候选实体之间的层级关系。
[0104]
在一个可能的实施方式中,所述处理模块303,具体用于采用规则推理方法获取所述第二体检知识图谱中存在的隐含医疗概念实体;采用链接预测方法预测所述隐含医疗概念实体之间的关联关系;采用槽填充方法补充所述隐含医疗概念实体缺失的属性信息;基于所述隐含医疗概念实体之间的关联关系和所述隐含医疗概念实体缺失的属性信息对所述第二体检知识图谱进行更新,得到第三体检知识图谱。
[0105]
本实施例提供的体检知识图谱构建装置可以是如图3中所示的体检知识图谱构建装置,可执行如图1-2中体检知识图谱构建方法的所有步骤,进而实现图1-2所示体检知识图谱构建方法的技术效果,具体请参照图1-2相关描述,为简洁描述,在此不作赘述。
[0106]
图4为本发明实施例提供的一种计算机设备的结构示意图,图4所示的计算机设备400包括:至少一个处理器401、存储器402、至少一个网络接口404和其他用户接口403。计算机设备400中的各个组件通过总线系统405耦合在一起。可理解,总线系统405用于实现这些组件之间的连接通信。总线系统405除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线系统405。
[0107]
其中,用户接口403可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
[0108]
可以理解,本发明实施例中的存储器402可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储
器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synch link dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,drram)。本文描述的存储器402旨在包括但不限于这些和任意其它适合类型的存储器。
[0109]
在一些实施方式中,存储器402存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统4021和应用程序4022。
[0110]
其中,操作系统4021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序4022,包含各种应用程序,例如媒体播放器(media player)、浏览器(browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序4022中。
[0111]
在本发明实施例中,通过调用存储器402存储的程序或指令,具体的,可以是应用程序4022中存储的程序或指令,处理器401用于执行各方法实施例所提供的方法步骤,例如包括:
[0112]
对现有医疗文档中的医疗概念实体进行抽取,得到多个目标医疗概念实体,其中,所述目标医疗概念实体包括疾病实体和特征实体;抽取所述疾病实体和特征实体之间的多种预设参数;基于所述多种预设参数将所述多个目标医疗概念实体与第一体检知识图谱中的医疗概念实体进行链接,得到第二体检知识图谱;对所述第二体检知识图谱中的体检知识进行数据处理,得到第三体检知识图谱;对所述第三体检知识图谱进行质量评估,在质量评估结果满足预设条件时,得到目标体检知识图谱。
[0113]
在一个可能的实施方式中,基于预训练的关系分类模型,抽取所述疾病实体和特征实体之间的关联关系;基于槽填充方法,抽取所述特征实体的属性信息。
[0114]
在一个可能的实施方式中,对所述现有医疗文档中的医疗信息语句添加预设字符,得到目标医疗信息语句;将所述目标医疗语句输入至所述关系分类模型,得到疾病实体和特征实体对应的目标向量;基于所述目标向量计算所述疾病实体和特征实体之间的关联关系。
[0115]
在一个可能的实施方式中,基于所述槽填充方法,对所述现有医疗文档中的医疗信息语句进行语义识别,识别所述特征实体的属性信息。
[0116]
在一个可能的实施方式中,基于实体链接方法,将所述多个目标医疗概念实体与所述第一体检知识图谱中的医疗概念实体进行链接,确定所述多个目标医疗概念实体与所述第一体检知识图谱中的医疗概念实体之间的层级关系;基于所述层级关系,将所述多个目标医疗概念实体链接到所述第一体检知识图谱中对应的医疗概念实体下,得到第二体检知识图谱。
[0117]
在一个可能的实施方式中,基于语义相似度,在所述第一体检知识图谱中的医疗概念实体中选择与所述多个目标医疗概念实体对应的多个候选医疗概念实体;基于预训练
的关系分类模型预测所述多个目标医疗概念实体和对应的多个候选实体之间的层级关系。
[0118]
在一个可能的实施方式中,采用规则推理方法获取所述第二体检知识图谱中存在的隐含医疗概念实体;采用链接预测方法预测所述隐含医疗概念实体之间的关联关系;采用槽填充方法补充所述隐含医疗概念实体缺失的属性信息;基于所述隐含医疗概念实体之间的关联关系和所述隐含医疗概念实体缺失的属性信息对所述第二体检知识图谱进行更新,得到第三体检知识图谱。
[0119]
上述本发明实施例揭示的方法可以应用于处理器401中,或者由处理器401实现。处理器401可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器402,处理器401读取存储器402中的信息,结合其硬件完成上述方法的步骤。
[0120]
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(application specific integrated circuits,asic)、数字信号处理器(digital signal processing,dsp)、数字信号处理设备(dspdevice,dspd)、可编程逻辑设备(programmable logic device,pld)、现场可编程门阵列(field-programmable gate array,fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
[0121]
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
[0122]
本实施例提供的计算机设备可以是如图4中所示的计算机设备,可执行如图1-2中体检知识图谱构建方法的所有步骤,进而实现图1-2所示体检知识图谱构建方法的技术效果,具体请参照图1-2相关描述,为简洁描述,在此不作赘述。
[0123]
本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
[0124]
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在计算机设备侧执行的体检知识图谱构建方法。
[0125]
所述处理器用于执行存储器中存储的体检知识图谱构建程序,以实现以下在计算机设备侧执行的体检知识图谱构建方法的步骤:
[0126]
对现有医疗文档中的医疗概念实体进行抽取,得到多个目标医疗概念实体,其中,所述目标医疗概念实体包括疾病实体和特征实体;抽取所述疾病实体和特征实体之间的多
种预设参数;基于所述多种预设参数将所述多个目标医疗概念实体与第一体检知识图谱中的医疗概念实体进行链接,得到第二体检知识图谱;对所述第二体检知识图谱中的体检知识进行数据处理,得到第三体检知识图谱;对所述第三体检知识图谱进行质量评估,在质量评估结果满足预设条件时,得到目标体检知识图谱。
[0127]
在一个可能的实施方式中,基于预训练的关系分类模型,抽取所述疾病实体和特征实体之间的关联关系;基于槽填充方法,抽取所述特征实体的属性信息。
[0128]
在一个可能的实施方式中,对所述现有医疗文档中的医疗信息语句添加预设字符,得到目标医疗信息语句;将所述目标医疗语句输入至所述关系分类模型,得到疾病实体和特征实体对应的目标向量;基于所述目标向量计算所述疾病实体和特征实体之间的关联关系。
[0129]
在一个可能的实施方式中,基于所述槽填充方法,对所述现有医疗文档中的医疗信息语句进行语义识别,识别所述特征实体的属性信息。
[0130]
在一个可能的实施方式中,基于实体链接方法,将所述多个目标医疗概念实体与所述第一体检知识图谱中的医疗概念实体进行链接,确定所述多个目标医疗概念实体与所述第一体检知识图谱中的医疗概念实体之间的层级关系;基于所述层级关系,将所述多个目标医疗概念实体链接到所述第一体检知识图谱中对应的医疗概念实体下,得到第二体检知识图谱。
[0131]
在一个可能的实施方式中,基于语义相似度,在所述第一体检知识图谱中的医疗概念实体中选择与所述多个目标医疗概念实体对应的多个候选医疗概念实体;基于预训练的关系分类模型预测所述多个目标医疗概念实体和对应的多个候选实体之间的层级关系。
[0132]
在一个可能的实施方式中,采用规则推理方法获取所述第二体检知识图谱中存在的隐含医疗概念实体;采用链接预测方法预测所述隐含医疗概念实体之间的关联关系;采用槽填充方法补充所述隐含医疗概念实体缺失的属性信息;基于所述隐含医疗概念实体之间的关联关系和所述隐含医疗概念实体缺失的属性信息对所述第二体检知识图谱进行更新,得到第三体检知识图谱。
[0133]
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0134]
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0135]
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1