一种相似疾病挖掘的方法和应用与流程

文档序号:33121168发布日期:2023-02-01 03:52阅读:54来源:国知局
一种相似疾病挖掘的方法和应用与流程

1.本发明涉及智慧医疗技术领域,具体涉及一种相似疾病挖掘的方法和应用。


背景技术:

2.本发明所述的相似疾病挖掘的方法可以作为处方审核系统的一部分,主要用来挖掘不同诊断术语间的相关性,为药师审核电子处方提供参考。
3.目前现有技术中评估疾病间相似度的主要方法还是基于编辑距离。例如公开号为cn105095665b的中国专利文献公开了一种疾病信息的结构化方法,根据预设的维度,将疾病解析为发病部位、疾病程度以及疾病本体等信息,并将两种疾病的上述信息进行比对,以达到评估疾病相似程度的目的。
4.由于疾病的描述多种多样,单纯地基于编辑距离评估疾病间的相似性会存在很大的偏差,直接导致疾病匹配产生很高的假阳性率。


技术实现要素:

5.本发明旨在提供一种相似疾病挖掘的方法,以解决如何提高疾病间相似度度量的准确率的问题。
6.本发明的目的是解决现有技术的不足,提供一种相似疾病挖掘的方法,包括以下步骤:步骤一、构建知识图谱:所述的知识图谱包括药学知识图谱和疾病知识图谱;步骤二、基于所述的知识图谱获取疾病的向量表示:为了获取疾病的向量表示,采用随机游走的方式获取多个节点序列;以疾病为初始节点,并根据节点间的连接关系获取下一跳节点,以此类推;当获取多个节点序列后,通过word2vec模型来生成疾病的向量表示;步骤三、基于疾病的向量表示来评估相似度:根据疾病的向量表示计算两种疾病的余弦相似度,该余弦相似度的数值即为两种疾病间的相似度。
7.优选地,所述的药学知识图谱包括药品的主要成分、治疗部位、治疗疾病信息、atc编码和治疗icd10编码信息;所述的疾病知识图谱包括疾病的治疗、发病部位、常见症状、icd10编码和药品与疾病的治疗关系;所述的药品的主要成分、治疗部位、治疗疾病信息通过药品的说明书获取;治疗icd10编码信息由治疗疾病的icd10编码进行补充;atc编码通过药品的主要成分推理得到;疾病的治疗、发病部位、常见症状、icd10编码通过疾病百科描述提取;药品与疾病的治疗关系通过多个电子处方获取。
8.优选地,所述的通过word2vec模型来生成疾病的向量表示分为节点序列生成和疾病向量计算两个步骤。
9.优选地,所述的节点序列生成具体是指通过在知识图谱上随机游走构建节点序列。
10.优选地,所述的在知识图谱上随机游走具体是指按照元路径随机游走。
11.优选地,所述的元路径是指在医学上可解释的路径。
12.优选地,所述的元路径具体包括: 1)药品

疾病;2)药品

症状

疾病;3)药品

主要成分

疾病;4)药品

部位

疾病;5)药品

icd10编码

疾病。
13.优选地,不同的元路径采样出的节点能够通过相同的节点进行拼接以生成更长的序列,并能够通过疾病节点或者药品节点将更多不同药品或者疾病的节点拼接成一个序列。
14.优选地,所述的疾病向量计算中,疾病向量的输入为多个基于知识图谱游走产生的节点序列;所述的节点序列中可能包含多个通过药品节点和症状节点关联的疾病节点,亦即这些有关联的疾病节点更大可能被相似的药品治疗或者包含相同的相似症状,亦即具备相近的医学表现;采用通用的word2vec算法来生成知识图谱中每种节点的向量表示;通过此种方式生成的疾病向量,能够保证医学表现上越相近的疾病其向量表示的余弦相似度越大。
15.优选地,采用t-sne算法将高维度的疾病的向量表示降维到2维向量,并绘制在2d坐标系上。
16.本发明还提供一种相似疾病挖掘的方法在多药多症处方中药症关系挖掘和/或扩充药症关系中的应用。
17.有益效果与现有技术相比,本发明的有益效果是:本发明所述的相似疾病挖掘的方法是一种基于知识图谱的相似度度量方法,其核心假设是两种疾病具备的相同的症状越多,那么这两种疾病就越相似;据此可进一步假设,如果两种疾病在知识图谱上具备更多的相同的邻接节点,那么这两种疾病就越相似。
18.本发明所述的相似疾病挖掘的方法采用通用的word2vec算法来生成知识图谱中每种节点的向量表示。通过此种方式生成的疾病向量,可以保证医学表现上越相近的疾病其向量表示的余弦相似度越大。同时本发明采用t-sne算法将疾病的高维向量降维到2维向量,并绘制在2d坐标系上,能够在一张2d的平面图上形象地表示两个疾病的距离。
19.本发明所述的相似疾病挖掘的方法主要应用于两个场景:1.多药多症处方中药症关系挖掘。关键字匹配的方式无法确定每一种药究竟治疗处方中的哪种疾病,而基于本发明可评估药品治疗的适应症与处方中最相似的诊断,以此来提高药症关系挖掘的准确率。
20.2.扩充药症关系。本发明可以实现对疾病的聚类,如果某一种药能够治疗某一类别中的大部分疾病,那么大概率会治疗这一类别下的其他疾病,以此可扩充药症关系。
21.上述两种场景都是对药师工作的提效,最终的提取结果都需要药师进行复核。
22.本发明所述的相似疾病挖掘的方法能够基于知识图谱的随机游走算法来生成疾病的向量表示,通过余弦相似度来评估疾病的相似度,其效果要明显优于基于编辑距离的方法。
附图说明
23.附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本技术的具体实施方式一起用于解释本发明的技术方案,并不构成对本发明技术方案的限
制。
24.图1是药学知识图谱和疾病知识图谱的结构图。
25.图2是相似疾病的挖掘结果样例示意图。
26.图3是知识图谱样例示意图。
具体实施方式
27.在下文中更详细地描述了本发明以有助于对本发明的理解。
28.本发明使用的药学知识图谱和疾病知识图谱的完整结构如图1所示。
29.本发明所述的相似疾病挖掘的方法包括以下步骤:步骤一、构建如图1所示的知识图谱:所述的知识图谱包括药学知识图谱和疾病知识图谱;步骤二、基于所述的知识图谱获取疾病的向量表示:为了获取疾病的向量表示,本发明采用随机游走的方式获取大量的节点序列;以疾病为初始节点,并根据节点间的连接关系获取下一跳节点,以此类推。当获取大量的节点序列后,本发明通过word2vec模型来生成疾病的向量表示。
30.word2vec算法是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
31.具体的,通过word2vec模型来生成疾病的向量表示主要分为两个步骤:节点序列生成、疾病向量计算。
32.1)节点序列主要通过在知识图谱上随机游走构建;但为了引入可解释性,本发明引入了元路径的概念,本发明使用的元路径包括:1)药品

疾病;2)药品

症状

疾病;3)药品

主要成分

疾病;4)药品

部位

疾病;5)药品

icd10编码

疾病。元路径概念的引入,使得本发明随机生成的节点序列之间存在医学上的合理性,因此具备可解释性。本发明不限制上述五种元路径,只要是在医学上可解释的路径都可以作为元路径使用。
33.以图1为例,进一步解释为什么本发明具备医学上的可解释性。本发明在图3所示的知识图谱上进行节点序列生成;元路径4)可采样出“根痛平颗粒



左肩周炎”,此路径可解释为根痛平颗粒可以治疗部位肩,而左肩周炎的发病部位为肩;元路径2)可采样出“根痛平颗粒

肩颈疼痛

左肩周炎”,此路径可解释为根痛平颗粒可以治疗肩颈疼痛,而左肩周炎有一个典型症状为肩颈疼痛。
34.更进一步,元路径2)和元路径4)采样出的节点可以通过相同的节点“根痛平颗粒”和“左肩周炎”进行拼接以生成更长的序列,并可以通过疾病节点或者药品节点将更多不同药品或者疾病的节点拼接成一个序列。
35.2)疾病向量的输入为大量的基于知识图谱游走产生的节点序列。如前所述,这些序列中可能包含大量通过药品节点、症状节点等节点关联的疾病节点,亦即这些有关联的疾病节点更大可能被相似的药品的治疗或者包含相同的相似症状,亦即具备相近的医学表现。
36.本发明采用通用的word2vec算法来生成知识图谱中每种节点的向量表示。通过此
种方式生成的疾病向量,可以保证医学表现上越相近的疾病其向量表示的余弦相似度越大。
37.步骤三、基于疾病的向量表示来评估相似度。为了评估两种疾病的相似度,本发明先获取疾病的向量表示,并据此计算两者的余弦相似度,其数值即为疾病间的相似度。
38.疾病的向量表示为高维度向量表示,很难在一张2d的平面图形象地表示两个疾病的距离。为此本发明采用t-sne算法将疾病的高维向量降维到2维向量,并绘制在2d坐标系上。图2示出了本发明生成的相似度挖掘结果样例,可以看到左上角更多的是眼部疾病,左下角则是肺部疾病,而右侧更多的是皮肤类疾病。由此表明本发明提出的疾病相似度挖掘算法具备一定的准确性及可解释性。
39.t-sne算法:t-sne(t-distributed stochastic neighbor embedding)是用于降维的一种机器学习算法,是由 laurens van der maaten 和 geoffrey hinton在 08 年提出来。t-sne 是一种非线性降维算法,非常适用于高维数据降维到 2 维或者 3 维,进行可视化。在实际应用中,t-sne很少用于降维,主要用于可视化。
40.优选地,所述的药学知识图谱包括药品的主要成分、治疗部位、治疗疾病信息、atc编码和治疗icd10编码信息。
41.优选地,所述的疾病知识图谱包括疾病的治疗、发病部位、常见症状、icd10编码和药品与疾病的治疗关系。
42.优选地,所述的药品的主要成分、治疗部位、治疗疾病信息可通过药品的说明书获取;治疗icd10编码信息可由治疗疾病的icd10编码进行补充;atc编码可通过药品的主要成分推理得到;疾病的治疗、发病部位、常见症状、icd10编码等信息可通过疾病百科描述提取;药品与疾病的治疗关系可通过大量的电子处方获取。
43.以上描述了本发明优选实施方式,然其并非用以限定本发明。本领域技术人员对在此公开的实施方案可进行并不偏离本发明范畴和精神的改进和变化。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1