药症关系网络构建与概念映射方法及系统

文档序号:27963500发布日期:2021-12-12 22:06阅读:172来源:国知局
药症关系网络构建与概念映射方法及系统

1.本发明涉及药症知识图谱构建技术领域,具体涉及一种基于药症知识图谱的药症关系网络构建与概念映射方法及系统。


背景技术:

2.临床诊疗中,由于不同医生对医学概念及其相关实体的表达具有个性化、多元化的特点,这导致在构建临床推荐模型时,难以将新出现的术语对应到已有概念,并进行特征表示。
3.知识图谱是一种揭示实体间关系的语义网络,包含知识抽取、知识融合、知识推理、知识表示等重要技术。
4.郝文建等人提出了一种标准知识图谱构建、标准查询方法,该方法通过对样本标准文本数据的标准要素进行数据抽取,以及对样本标准文本数据中的非标要素进行数据抽取构建标准知识图谱,从而可以快速基于标准知识图谱准确获取标准的相关数据信息,避免传统方法中需要人工阅读提取标准数据信息导致效率较低的问题。
5.丁兆云等人提出了一种结合本体概念和实例的网络空间知识图谱推理方法。该方法是将网络空间的本体概念映射至本体图;从节点对应的语料库提取实例层的实体,根据本体边和实体,构建第二三元组;构建用于网络空间知识图谱推理的卷积神经网络模型,根据第一三元组和第二三元组,确定卷积神经网络模型的统一能量函数和得分函数。最后通过训练好的卷积神经网络模型,进行网络空间知识图谱推理。
6.现有的如上述方法仍然缺少针对临床概念映射的药症知识图谱构建方法,已有的图谱构建框架并不能有效的应用于此知识图谱的构建。


技术实现要素:

7.本发明的目的在于提供一种基于药症知识图谱的药症关系网络构建与概念映射方法及系统,以解决上述背景技术中存在的至少一项技术问题。
8.为了实现上述目的,本发明采取了如下技术方案:
9.一方面,本发明提供一种药症关系网络构建与概念映射方法,包括:
10.构建药症知识图谱;
11.基于药症知识图谱,结合元路径方法,构建症状关系网络;
12.基于症状关系网络,进行子图抽取,得到关系节点子集,即为输入症状术语的子图表示。
13.优选的,构建药症知识图谱,包括:确定实体类型以及实体类型间的关系类型。
14.优选的,实体类型包括中药、症状词、功效、归经和性味。
15.优选的,关系类型包括中药

症状、症状同义关系、中药

功效、中药

性味和中药

归经。
16.优选的,利用中药的功效、性味、归经数据实现症状关联,构建基于元路径的症状
关系网络;将构建出的症状关系都纳入到症状网络中,该网络中包含症状词和症状词两类实体,包含症状同义关系、症状字

症状词关系、基于中药功效关系获得的症状关系、基于中药性味关系获得的症状关系和基于中药归经关系获得的症状关系。
17.优选的,构建症状关系网络包括:
18.将中药

症状关系数据转为中药字典和症状字典;
19.分别将中药

功效、中药

性味和中药

归经关系转为功效字典、性味字典和归经字典;
20.遍历功效字典中每个功效的所有中药,将这些中药两两之间进行连接,遍历完所有功效字典后,形成所有可能的中药连接关系,然后根据两两中药共享的功效数目,进行可靠关系筛选(共享功效数目大于2),最终筛选出的中药关系作为网络连边,形成基于功效的中药关系网络g
e

h

21.遍历性味字典中每个功效的所有中药,将这些中药两两之间进行连接,遍历完所有性味字典后,形成所有可能的中药连接关系,然后根据两两中药共享的归经数目,进行可靠关系筛选(共享性味数目大于2),最终筛选出的中药关系作为网络连边,形成基于性味的中药关系网络g
p

h

22.遍历功效字典中每个归经的所有中药,将这些中药两两之间进行连接,遍历完所有归经字典后,形成所有可能的中药连接关系,然后根据两两中药共享的归经数目,进行可靠关系筛选(共享归经数目大于2),最终筛选出的中药关系作为网络连边,形成基于归经的中药关系网络g
m

h

23.遍历症状字典的所有症状

中药对,对于遍历到的每个中药,分别在三个中药关系网络g
e

h
、g
p

h
和g
m

h
中找这个中药的一阶邻居节点,即这个中药在网络中关联的其他中药,然后根据已知的中药

症状关系,获得这些其他中药关联的症状,进而建立这些症状与症状字典中症状的关联关系,以这些症状关系为网络连边,最终成成症状关系网络。
24.优选的,基于症状关系网络,进行子图抽取,得到关系节点子集,即为输入症状术语的子图表示,包括:
25.集合set
t
为症状关系网络中长度为1的节点集合;集合set
nei
为空;矩阵u
like
初始化为全1矩阵;字典dict
count
用于存储节点出现的频次;
26.将症状词进行字的拆解,得到关于此症状词的字的集合;取此集合与集合set
t
的交集,记为set
in

27.对于set
in
中的每个字,在症状字词网络中寻找其一阶邻居;将找到的所有邻居节点的频次进行统计,筛选频次大于1次的节点,存入set
nei

28.对set
in
中的所有元素分别遍历set
nei
,将存在连边的节点连接,得到子网集合set
presub

29.根据所有子网集合set
presub
生成矩阵u
like
,u
like
矩阵中1表示两个子网有交集,0表示两个子网无交集;并对有交集的子网进行合并,并更新u
like
矩阵,直到矩阵u
like
为0矩阵时结束,并返回最终的子集合集。
30.第二方面,本发明提供一种药症关系网络构建与概念映射系统,包括:
31.第一构建模块,用于构建药症知识图谱;
32.第二构建模块,用于基于药症知识图谱,结合元路径方法,构建症状关系网络;
33.第三构建模块,用于基于症状关系网络,进行子图抽取,得到关系节点子集,即为输入症状术语的子图表示。
34.第三方面,本发明提供一种计算机设备,包括存储器和处理器,所述处理器和所述存储器相互通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令执行如上所述的药症关系网络构建与概念映射方法。
35.第四方面,本发明提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的药症关系网络构建与概念映射方法。
36.本发明有益效果:提出融合中药性味归经和功效等多种信息的中药症状知识图谱构建方法,进而形成药症知识图谱;提出药症知识图谱和元路径结合的症状关系网络构建方法,进而构建出症状关系网络;提出基于子图抽取的术语表示算法,实现“未登录”术语的概念映射与特征表示。
37.本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
38.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
39.图1为本发明实施例所述的药症知识图谱示意图。
40.图2为本发明实施例所述的症状关系网络结构示意图。
具体实施方式
41.下面详细叙述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
42.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。
43.还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
44.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。
45.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本
领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
46.为便于理解本发明,下面结合附图以具体实施例对本发明作进一步解释说明,且具体实施例并不构成对本发明实施例的限定。
47.本领域技术人员应该理解,附图只是实施例的示意图,附图中的部件并不一定是实施本发明所必须的。
48.实施例1
49.本实施例1提供一种药症关系网络构建与概念映射系统,该系统包括:
50.第一构建模块,用于构建药症知识图谱;
51.第二构建模块,用于基于药症知识图谱,结合元路径方法,构建症状关系网络;
52.第三构建模块,用于基于症状关系网络,进行子图抽取,得到关系节点子集,即为输入症状术语的子图表示。
53.本实施例1中,利用上述的药症关系网络构建系统,实现了一种药症关系网络构建与概念映射方法,该方法包括:
54.利用第一构建模块,构建药症知识图谱;
55.利用第二构建模块,基于药症知识图谱,结合元路径方法,构建症状关系网络;
56.利用第三构建模块,基于症状关系网络,进行子图抽取,得到关系节点子集,即为输入症状术语的子图表示。
57.本实施例1中,构建药症知识图谱,包括:确定实体类型以及实体类型间的关系类型。实体类型包括中药、症状词、功效、归经和性味;关系类型包括中药

症状、症状同义关系、中药

功效、中药

性味和中药

归经。
58.本实施例中,利用中药的功效、性味、归经数据实现症状关联,构建基于元路径的症状关系网络;将构建出的症状关系都纳入到症状网络中,该网络中包含症状词和症状词两类实体,包含症状同义关系、症状字

症状词关系、基于中药功效关系获得的症状关系、基于中药性味关系获得的症状关系和基于中药归经关系获得的症状关系。
59.构建症状关系网络包括:
60.将中药

症状关系数据转为中药字典和症状字典;
61.分别将中药

功效、中药

性味和中药

归经关系转为功效字典、性味字典和归经字典;
62.遍历功效字典中每个功效的所有中药,将这些中药两两之间进行连接,遍历完所有功效字典后,形成所有可能的中药连接关系,然后根据两两中药共享的功效数目,进行可靠关系筛选(共享功效数目大于2),最终筛选出的中药关系作为网络连边,形成基于功效的中药关系网络g
e

h

63.遍历性味字典中每个功效的所有中药,将这些中药两两之间进行连接,遍历完所有性味字典后,形成所有可能的中药连接关系,然后根据两两中药共享的归经数目,进行可靠关系筛选(共享性味数目大于2),最终筛选出的中药关系作为网络连边,形成基于性味的中药关系网络g
p

h

64.遍历功效字典中每个归经的所有中药,将这些中药两两之间进行连接,遍历完所有归经字典后,形成所有可能的中药连接关系,然后根据两两中药共享的归经数目,进行可
靠关系筛选(共享归经数目大于2),最终筛选出的中药关系作为网络连边,形成基于归经的中药关系网络g
m

h

65.遍历症状字典的所有症状

中药对,对于遍历到的每个中药,分别在三个中药关系网络g
e

h
、g
p

h
和g
m

h
中找这个中药的一阶邻居节点,即这个中药在网络中关联的其他中药,然后根据已知的中药

症状关系,获得这些其他中药关联的症状,进而建立这些症状与症状字典中症状的关联关系,以这些症状关系为网络连边,最终成成症状关系网络。
66.基于症状关系网络,进行子图抽取,得到关系节点子集,即为输入症状术语的子图表示,包括:
67.集合set
t
为症状关系网络中长度为1的节点集合;集合set
nei
为空;矩阵u
like
初始化为全1矩阵;字典dict
count
用于存储节点出现的频次;
68.将症状词进行字的拆解,得到关于此症状词的字的集合;取此集合与集合set
t
的交集,记为set
in

69.对于set
in
中的每个字,在症状字词网络中寻找其一阶邻居;将找到的所有邻居节点的频次进行统计,筛选频次大于1次的节点,存入set
nei

70.对set
in
中的所有元素分别遍历set
nei
,将存在连边的节点连接,得到子网集合set
presub

71.根据所有子网集合set
presub
生成矩阵u
like
,u
like
矩阵中1表示两个子网有交集,0表示两个子网无交集;并对有交集的子网进行合并,并更新u
like
矩阵,直到矩阵u
like
为0矩阵时结束,并返回最终的子集合集。
72.实施例2
73.本实施例2中,提出一种基于药症知识图谱的症状网络构建与术语映射框架,主要包含药症知识图谱构建、基于元路径的症状网络构建方法和基于子图抽取的术语映射与表示算法。
74.(1)药症知识图谱构建
75.本实施例2中,基于中医基础知识(如《中国药典2015》和《中华本草》等)来构建药症只是图谱。
76.构建的药症知识图谱,包含中药、症状、功效、性味和归经在内的药症知识图谱,主要包含症状

症状、中药

症状、中药

功效、中药

性味、中药

归经关系,如图1所示。
77.本药症知识图谱中实体总数为18537个,共涉及五种实体类型,分别为:中药、症状词、功效、归经和性味,各类实体数量如表1所示。
78.表1
[0079][0080]
本实施例2中,构建的药症知识图谱中关系总数为102120条,共涉及五种关系类
型,即中药

症状、症状同义关系、中药

功效、中药

性味和中药

归经,各类关系数量表2所示。
[0081]
表2
[0082][0083]
(2)结合药症知识图谱和元路径方法的症状关系网络构建
[0084]
本实施例2中,以上构建的药症知识图谱涉及的实体虽然种类众多,也覆盖了大多数的症状术语,然而在现实的场景中无法被充分利用,因为在中医临床上,从病人中获得的信息往往仅有症状描述信息。
[0085]
建立症状之间的关联往往更为有价值,而药症知识图谱中提供的症状同义关系又比较有限,需要通过其他途径建立症状关联。
[0086]
因此,本实施例2中,提出了基于症状词拆解和基于元路径的症状关系构建方法,以此构建症状关系网络,如图2所示。
[0087]
首先,在中文语境下,考虑到一个词语是由各种字组成的,常用的汉字数量大约是两千到七千左右。领域缩小到中医药学,字数理论上要比常用汉字更少,更集中。同时,通过观察发现,多数症状与部位是相结合的,在某种意义上存在相关性。
[0088]
因此,本实施例2中,将症状词进行逐字拆解,并建立字词之间的关系将为我们构建症状之间的间接联系,例如,将症状“头痛”拆解为“头”和“痛”两个字,进而在网络中建立“头痛

头”和“头痛

痛”两条连边,同理也可将“头疼痛”拆为“头”、“疼”和“痛”三个字,建立“头疼痛

头”、“头疼痛

疼”和“头疼痛

痛”三条边。那么在网络中就可以分别通过“头”和“痛”将“头痛”和“头疼痛”间接连接。将所有症状词按照此方式进行处理,最终所有症状词和它们包含的字之间的关联关系。
[0089]
在知识图谱中,元路径(meta

path)是指一些人工定义的特殊路径,基于元路径可以构造成特定的语义关系。首先给出定义,s表示症状,h表示中药,e表示功效,p表示性味,m表示归经。那么对于元路径“s1

h1

e

h2

s2”,其构成的语义关系为中药h1和h2分别可以治疗症状s1和s2,中药h2与中药h1有相同功效e,则基于共同的功效e,h1和h2存在一定的关联,进而,症状s1和s2也可能存在一定的关联。因此,若去掉不必要的中间联结关系,可以直接构建出基于功效的症状

症状关系。其他结合性味、归经等信息,也可以构建类似的症状关系。基于上述思想,能够将复杂知识图谱关联简化成症状关联网络,但同时也保留了原有知识图谱的潜在信息。
[0090]
本实施例2中,中提出的基于元路径的症状关系筛选方法流程如下:
[0091]
输入:中药

症状、中药

功效、中药

性味以及中药

归经关系。
[0092]
步骤1:将中药

症状关系数据转为中药字典(键:中药;值:症状)和症状字典(键:症状;值:中药)。
[0093]
步骤2:分别将中药

功效、中药

性味和中药

归经关系转为功效字典(键:功效;值:中药)、性味字典(键:性味;值:中药)和归经字典(键:归经;值:中药)。
[0094]
步骤3:基于构建的功效字典,遍历功效字典中每个功效的所有中药,将这些中药两两之间进行连接,遍历完所有功效字典后,形成一个巨大的中药网络,最后再根据关联中药的功效数目,进行中药关系的筛选,最终形成基于功效的中药关系网络g
e

h
。同理,利用已构建的性味字典和归经字典,以同样方式分别构建中药网络g
p

h
和g
m

h

[0095]
步骤4:遍历症状字典的所有症状

中药对,对于遍历到的每个中药,以其为键分别在g
e

h
、g
p

h
和g
m

h
网络中寻找其一阶邻居节点,并对找到的中药邻居节点,在中药字典中这些中药所对应的症状,并建立这些症状和症状字典中症状的关联。通过以上方式,可以利用中药的功效、性味、归经数据实现症状关联,进而形成基于元路径的症状关系网络g
output

[0096]
最终,将以上构建出的症状关系都纳入到症状网络中,该网络中包含症状词和症状词两类实体,包含五类关系,即症状同义关系、症状字

症状词关系、基于中药功效关系获得的症状关系、基于中药性味关系获得的症状关系和基于中药归经关系获得的症状关系。最终形成的症状关系网络包含的节点和关系数量,如表3所示。
[0097]
表3
[0098]
数据来源关系类型关系个数本草主治症状词—症状字3038症状本体症状词—症状词(同义词)3122症状本体症状词—症状字12542中药功效+本草主治症状词—症状词(功效)114545中药归经+本草主治症状词—症状词(归经)17778中药性味+本草主治症状词—症状词(性味)44943全部共计195968
[0099]
(3)基于症状关系网络的子图抽取算法
[0100]
临床患者的电子病历中通常包含患者主诉,现病史,治疗处方等信息。这类数据中对患者表型信息的记录通常存在较强主观性。在药物推荐系统中,由于临床表型的描述多种多样,因此基本不可能预先将所有可能出现的术语进行特征编码,总会出现一些我们事先未进行编码的术语。但是很多临床表型都存在同义关系,一些之前未出现过的术语大部分都可以基于已有表型术语中的字词进行组合得到。例如,若术语“脚痛”存在于知识图谱,而新出现的“脚疼痛”不在知识图谱中,也无法精确匹配上“脚痛”。要解决此问题,需要提出一个概念映射算法,将新出现的术语进行概念映射。
[0101]
基于分词的映射方式是一种解决办法,然而这种方式不仅忽略了分词后的词之间的相关性,并且很多原始词中的字信息大多也会被忽略。要想充分的利用词语中全部信息,字特征不可忽略。
[0102]
因此,本实施例2中,提出基于子图的映射方法。子图结构是以原网络中的节点子集构成的子网络,子图能够比较完整的将映射后的字词进行网络拼接,形成新的子集,分别对这些子集进行综合表示,能够将映射结果更加精准。该方法的核心思想是先把词拆解为字,再将字通过上面构建的症状网络进行扩散拼接,最终得到新术语的子网络。例如,对于“脚疼痛”,在经过分词后,一般是“脚疼”。而子图方式能够以字为出发点,构建出“脚

脚疼



脚痛

痛”子网络,能够充分利用原词的潜在信息。
[0103]
本实施例2中提出的基于症状关系网络的子图抽取方法流程如下:
[0104]
输入:症状字词网络、待抽取子图的症状词。
[0105]
步骤1:初始化:集合set
t
为症状关系网络中长度为1的节点集合;集合set
nei
为空;矩阵u
like
初始化为全1矩阵;字典dict
count
用于存储节点出现的频次。
[0106]
步骤2:将症状词进行字的拆解,得到关于此症状词的字的集合;取此集合与集合set
t
的交集,记为set
in

[0107]
步骤3:对于set
in
中的每个字,在症状字词网络中寻找其一阶邻居;将找到的所有邻居节点的频次进行统计,筛选频次大于1次的节点,存入set
nei

[0108]
步骤4:对set
in
中的所有元素分别遍历set
nei
,将存在连边的节点连接,得到子网集合set
presub

[0109]
步骤5:根据所有子网集合set
presub
生成矩阵u
like
,u
like
矩阵中1表示两个子网有交集,0表示两个子网无交集;并对有交集的子网进行合并,并更新u
like
矩阵,直到矩阵u
like
为0矩阵时结束,并返回最终的子集合集。
[0110]
以上方法得到的节点子集即为输入症状术语的子图表示,且能够尽可能多的将新症状术语进行概念映射,并用于下游的处方推荐任务。
[0111]
实施例3
[0112]
本发明实施例3提供一种计算机设备,包括存储器和处理器,所述处理器和所述存储器相互通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令执行药症关系网络构建与概念映射方法,该方法包括如下流程步骤:
[0113]
构建药症知识图谱;
[0114]
基于药症知识图谱,结合元路径方法,构建症状关系网络;
[0115]
基于症状关系网络,进行子图抽取,得到关系节点子集,即为输入症状术语的子图表示。
[0116]
实施例4
[0117]
本发明实施例4提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现药症关系网络构建与概念映射方法,该方法包括如下流程步骤:
[0118]
构建药症知识图谱;
[0119]
基于药症知识图谱,结合元路径方法,构建症状关系网络;
[0120]
基于症状关系网络,进行子图抽取,得到关系节点子集,即为输入症状术语的子图表示。
[0121]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
[0122]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序
指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0123]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0124]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0125]
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明公开的技术方案的基础上,本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形,都应涵盖在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1