基于多源异构医疗知识图谱的图表示学习方法及装置

文档序号:30756525发布日期:2022-07-13 11:38阅读:109来源:国知局
基于多源异构医疗知识图谱的图表示学习方法及装置

1.本发明涉及数据处理技术领域,特别涉及一种基于多源异构医疗知识图谱的图表示学习方法及装置。


背景技术:

2.随着信息技术的飞速发展,医疗领域内的信息数据量越来越多,大规模的医疗数据往往可基于样本间的不同角度的关联关系建立联系,进而构成多源异构医疗知识图谱,通过分析多源异构医疗知识图谱可实现智能诊断、智能推荐及预后评测等功能,从而提高诊断效率和诊断进度。然而,要实现上述功能的一大技术难点便是如何得到多源异构知识图谱的图表示。
3.现有的图表示学习方法通常为单视图方法,无法用于分析多源异构医疗知识图谱;另一方面,多视图的图表示学习方法依赖于大量样本标签进行有监督学习,但标签标注工作往往耗时过长。


技术实现要素:

4.本发明的目的在于至少解决现有技术中存在的技术问题之一,提供一种基于多源异构医疗知识图谱的图表示学习方法及装置,所述方法能够通过基于对比学习的无监督图表示学习方法构建模型,从而更高效地获取多源异构知识图谱的图表示。
5.第一方面,本发明提供一种模型训练方法,包括:
6.将所接收的多视图图数据作为正样本,并基于所述多视图图数据生成对应负样本;
7.将所述正样本及负样本输入至预设初始模型的编码器,得到正样本的多视图节点表示矩阵以及负样本的多视图节点表示矩阵;
8.对所述正样本的多视图节点表示矩阵进行加权融合,得到图节点表示矩阵,并根据所述图节点表示矩阵确定全局图表示;
9.根据所述全局图表示、所述正样本的多视图节点表示矩阵以及所述负样本的多视图节点表示矩阵对所述预设初始模型进行二分类迭代训练,直至达到训练停止条件。
10.作为进一步改进,将所接收的多视图图数据作为正样本之前,还包括:
11.获取初始图数据,所述初始图数据包括邻接矩阵和特征矩阵;
12.分别计算所述特征矩阵中两两节点之间的相似度;
13.根据相似度计算结果将各节点与其最相似的n个节点进行连接,以构建新的特征矩阵;
14.基于所述邻接矩阵以及所述新的特征矩阵确定多视图图数据。
15.作为进一步改进,所述基于所述多视图图数据生成对应负样本,具体为:
16.将多视图图数据中的特征矩阵进行随机置乱,根据置乱后的特征矩阵和所述多视图图数据的邻接矩阵确定负样本。
17.作为进一步改进,所述对所述正样本的多视图节点表示矩阵进行加权融合,得到图节点表示矩阵,具体为:
18.通过注意力机制确定各视图的节点表示矩阵的权重值;
19.根据所述权重值对各视图的节点表示矩阵进行加权求和,得到图节点表示矩阵。
20.作为进一步改进,所述根据所述图节点表示矩阵确定全局图表示,包括:
21.对所述图节点表示矩阵进行池化操作,生成包含全局信息的全局图表示。
22.作为进一步改进,所述编码器具体为图注意力网络。
23.第二方面,本发明还提供一种基于多源异构医疗知识图谱的图表示学习方法,包括:
24.获取多源异构医疗知识图谱;
25.将所述多源异构医疗知识图谱输入至多视图图表示学习模型,得到所述多源异构医疗知识图谱的图表示;其中,
26.所述多视图图表示学习模型为采用第一方面所述的模型训练方法训练出的模型。
27.第三方面,本发明还提供一种模型训练装置,包括:
28.处理模块,用于将所接收的多视图图数据作为正样本,并基于所述多视图图数据生成对应负样本;
29.编码模块,用于将所述正样本及负样本输入至预设初始模型的编码器,得到正样本的多视图节点表示矩阵以及负样本的多视图节点表示矩阵;
30.融合模块,用于对所述正样本的多视图节点表示矩阵进行加权融合,得到图节点表示矩阵,并根据所述图节点表示矩阵确定全局图表示;
31.训练模块,用于根据所述全局图表示、所述正样本的多视图节点表示矩阵以及所述负样本的多视图节点表示矩阵对所述预设初始模型进行二分类迭代训练,直至达到训练停止条件。
32.本发明提供一种数据处理设备,包括处理器,所述处理器和存储器耦合,所述存储器存储有程序,所述程序由所述处理器执行,使得所述数据处理设备执行第一方面所述的模型训练方法,或第二方面所述的基于多源异构医疗知识图谱的图表示学习方法。
33.本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述第一方面所述的模型训练方法,或第二方面所述的基于多源异构医疗知识图谱的图表示学习方法。
34.相较于现有技术,本发明提供的一种基于多源异构医疗知识图谱的图表示学习方法至少具有如下的有益效果:
35.本发明提供的基于多源异构医疗知识图谱的图表示学习方法利用预先构建的多视图图表示学习模型可得到多源异构医疗知识图谱的图表示结果,为后续的医疗诊断应用提供更全面有效的数据基础。
36.其中,多视图图表示学习模型通过使用对比学习来无监督训练,能够省去数据标注过程,提高模型构建效率;同时,通过利用全局图表示进行对比学习,还可使学习得到的图表示包含更多的全局信息,进而提升模型性能。
附图说明
37.为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
38.图1是本发明实施例提供的模型训练方法的流程示意图;
39.图2是本发明实施例提供的多视图图表示学习模型结构示意图。
具体实施方式
40.本部分将详细描述本发明的具体实施例,本发明之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案,但其不能理解为对本发明保护范围的限制。
41.如图1所示,第一方面,本发明一个实施例提供一种模型训练方法,包括下述步骤s1至s4。
42.s1:将所接收的多视图图数据作为正样本,并基于所述多视图图数据生成对应负样本。
43.在本实施例中,多视图图数据的生成方法包括:获取初始图数据,所述初始图数据包括邻接矩阵和特征矩阵;分别计算特征矩阵中两两节点之间的相似度;根据相似度计算结果将各节点与其最相似的n个节点进行连接,以构建新的特征矩阵;基于所述邻接矩阵以及所述新的特征矩阵确定多视图图数据。
44.需要说明的是,本实施例具体可将多视图图数据中的特征矩阵进行随机置乱,根据置乱后的特征矩阵和所述多视图图数据的邻接矩阵确定负样本。
45.s2:将所述正样本及负样本输入至预设初始模型的编码器,得到正样本的多视图节点表示矩阵以及负样本的多视图节点表示矩阵。
46.具体地,所述编码器设置为图注意力网络,通过图注意力网络可提取更符合特征内在联系的数据,得到正负样本的多视图节点表示矩阵。
47.s3:对所述正样本的多视图节点表示矩阵进行加权融合,得到图节点表示矩阵,并根据所述图节点表示矩阵确定全局图表示。
48.具体地,可通过注意力机制确定各视图的节点表示矩阵的权重值;再根据对应权重值对各视图的节点表示矩阵进行加权求和,得到图节点表示矩阵。
49.进一步地,可对图节点表示矩阵进行池化操作,生成包含全局信息的全局图表示。
50.s4:根据所述全局图表示、所述正样本的多视图节点表示矩阵以及所述负样本的多视图节点表示矩阵对所述预设初始模型进行二分类迭代训练,直至达到训练停止条件。
51.可以理解的是,所述训练停止条件可为:迭代次数达到预设次数阈值,或预训练模型的损失函数达到预设收敛条件。
52.第二方面,本发明一个实施例还提供一种基于多源异构医疗知识图谱的图表示学习方法,具体包括:获取多源异构医疗知识图谱;将所述多源异构医疗知识图谱输入至多视图图表示学习模型,得到所述多源异构医疗知识图谱的图表示。
53.其中,所述多视图图表示学习模型可通过第一方面所述的模型训练方法训练得到,其具体结构请参阅图2。
54.以下将通过一个具体实施例描述所述多视图图表示学习模型的训练过程。
55.当接收到初始图数据g时,g={av,xv},v=1,2,...,k,根据初始图数据g对应的邻接矩阵a1和特征矩阵x1,计算特征矩阵x1中两两节点间的相似度,并将每个节点与其最相似的q个节点连接起来,构建出该初始图数据k个视图的多视图图数据。
56.具体地,q可取值为15。
57.可以理解的是,特征矩阵x1用于表征初始图数据g中的节点信息,邻接矩阵a1用于表征各节点间的关联关系。
58.进一步地,将所构建的多视图图数据作为正样本,同时,通过将该图数据中的特征矩阵进行随机置乱,邻接矩阵保持不变,以得到该图数据g的负样本g
(-)
,g
(-)
={av,x
v(-)
},v=1,2,...,k。
59.进一步地,基于预设的初始模型构建初始多视图图表示学习模型,并对初始模型中参数进行随机初始化。
60.具体地,将正、负样本的邻接矩阵和特征矩阵输入到预设的初始模型的编码器εv中,分别得到正样本的节点表示矩阵hv,以及负样本的节点表示矩阵h
v(-)

61.在本实施例中,编码器εv具体为图注意力网络。
62.进一步地,将正样本多个视图的节点表示矩阵h1,h2,...,hk输入至预设初始模型中的聚合器通过加权融合处理得到与视图无关的图节点表示矩阵h。
63.其中,hi表示每个节点的节点表示,n表示节点数量。
64.需要说明的是,本实施例具体通过自注意力机制来融合多个视图的节点表示矩阵,即:通过自注意力机制为每个节点在多个视图中所对应的节点表示分配一个权重系数,再通过加权求和得到与视图无关的图节点表示矩阵h:
[0065][0066][0067]
其中,表示第v个视图中第i个节点的节点表示的权重系数,具体通过一个可学习的向量b得到。
[0068]
相比传统的多视图图表示学习方法直接将各个视图的节点表示矩阵进行按行拼接或者求和取平均,本实施例上述基于自注意力机制的加权融合方法可有效降低特征维度,同时避免重要信息被掩盖,确保得到效果更佳的模型。
[0069]
进一步地,利用读出函数r从图节点表示矩阵h获得整个图的全局图表示s。
[0070]
在本实施例中,所述读出函数r具体可通过平均池化操作得到全局图表示s:
[0071]
[0072]
式中,σ为非线性激活函数。
[0073]
本实施例在得到每个节点的节点表示hi之后,通过读出函数r从全量节点的节点表示中概括性地获得整个图的全局图表示,所述全局图表示将包含全局性信息。
[0074]
进一步地,将全局图表示s与编码器εv输出的正负样本的节点表示矩阵组成正负样本对:和)。其中,i=1,2,...,n,v=1,2,...,k,此时,正负样本对分别被给予一个伪标签1(正样本)和0(负样本)。
[0075]
对于各正负样本对,本实施例采用双线性评分函数来衡量全局图表示s与各节点表示矩阵hi之间的相似度:
[0076][0077]
其中,p表示一个可学习的投影矩阵,用于确保节点表示矩阵hi和全局图表示s之间的方差。
[0078]
本实施例通过以全局图表示s为靶点,能够使得最终学习得到的表示包含更多的全局信息,以提升模型性能效果。
[0079]
得到相似度计算结果后,通过基于正负样本对的二分类任务迭代更新预设初始模型参数,直至模型的损失函数收敛或到达指定迭代次数,得到最终的多视图图表示学习模型。
[0080]
当接收到多源异构医疗知识图谱时,将该多源异构医疗知识图谱输入至训练得到的多视图图表示学习模型中,得到知识图谱各节点的节点表示,所得到的节点表示可用于后续的节点分类或者边预测等任务。
[0081]
本发明上述实施例通过利用多视图图表示学习模型得到多源异构医疗知识图谱的图表示,可为后续的医疗诊断应用提供更全面准确的数据基础。
[0082]
具体地,通过使用对比学习来无监督训练多视图图表示学习模型,能够省去数据标注过程,提高模型构建效率;同时,通过利用全局图表示进行对比学习,还可使学习得到的图表示包含更多的全局信息,进而提升模型性能。
[0083]
第三方面,本发明另一个实施例还提供一种模型训练装置,包括处理模块、编码模块、融合模块和训练模块。
[0084]
其中,处理模块用于将所接收的多视图图数据作为正样本,并基于所述多视图图数据生成对应负样本。
[0085]
编码模块用于将所述正样本及负样本输入至预设初始模型的编码器,得到正样本的多视图节点表示矩阵以及负样本的多视图节点表示矩阵。
[0086]
融合模块用于对所述正样本的多视图节点表示矩阵进行加权融合,得到图节点表示矩阵,并根据所述图节点表示矩阵确定全局图表示。
[0087]
训练模块用于根据所述全局图表示、所述正样本的多视图节点表示矩阵以及所述负样本的多视图节点表示矩阵对所述预设初始模型进行二分类迭代训练,直至达到训练停止条件。
[0088]
上述装置内的各模块之间信息交互、执行过程等内容,由于与本发明上述模型训练方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
[0089]
第四方面,本发明提供一种数据处理设备,包括处理器,所述处理器和存储器耦
合,所述存储器存储有程序,所述程序由所述处理器执行,使得所述数据处理设备执行第一方面所述的模型训练方法,或第二方面所述的基于多源异构医疗知识图谱的图表示学习方法。
[0090]
第五方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述第一方面所述的模型训练方法,或第二方面所述的基于多源异构医疗知识图谱的图表示学习方法。
[0091]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可监听存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等。
[0092]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1