离散对象数据关联性预测方法及系统与存储介质

文档序号:34053679发布日期:2023-05-05 16:09阅读:41来源:国知局
离散对象数据关联性预测方法及系统与存储介质

本发明涉及离散对象关联关系预测领域,涉及一种离散对象数据关联性预测方法及系统与存储介质,特别涉及一种基于图卷积多头注意力的离散对象数据关联性预测方法及系统与存储介质。


背景技术:

1、随着计算机技术和互联网络的发展,越来越多的离散数据的积累为预测离散对象之间的关联关系打下坚实的基础,提供了广阔的平台。用户通过搜索多元的离散信息来挖掘离散对象之间的潜在关联关系。例如,商品a和商品b是某顾客曾经同时购买的商品,则可以利用离散对象关联关系预测方法,对与与商品a具有相似功能的商品c,预测顾客是否会同时购买商品c和商品b。又如:药品a可以治疗疾病b,则可以利用离散对象关联关系预测方法,对于与药品a具有相似化学结构的药品b,预测药品b是否对疾病b具有治疗作用。再如:词语a和词语b被多次用于同一句子,则可以利用离散对象关联关系预测方法,对于与词语a具有相似含义的词语b,预测词语b和词语c是否会出现在同一句子中。

2、目前对于离散对象关联关系预测的方法中,通过构建离散对象之间的异构信息网络,并对异构信息网络进行分析,获得多个离散对象之间关联关系预测结果。例如,采用矩阵分解法对异构信息网络进行分析,容易忽略非线性的关联关系;采用随机游走方法构建基于异构信息网络的过渡矩阵,经过多次迭代使得概率分布趋于收敛,但是容易陷入局部最优;采用神经网络的方法分析异构信息网络,容易忽略异构网络中图的拓扑信息特征。

3、具体的,如离散对象微生物与疾病的关联预测,专利文献cn112151191a公开的微生物与疾病关联关系预测方法及系统,主要引入元路径随机游走获得疾病和微生物的多源信息表示,实现多源数据融合多方面信息预测微生物—疾病的关联关系。基于元路径的随机游走算法能够有效提取来自不同数据源的微生物和疾病的信息,尤其能够有效获取异构网络信息。但是随机游走算法只关注相邻节点,容易陷入局部最优,使得最终的预测结果不准确。

4、因此,采用现有的离散对象关联关系预测方法,所获得的预测结果准确率还有较大提升空间。


技术实现思路

1、本发明要解决的技术问题是:提供一种离散对象数据关联性预测方法及系统与存储介质,其能充分捕捉离散对象之间的潜在关联关系,捕获不同卷积层的异构网络拓扑信息,减小离散对象之间已知关联数据的稀疏性带来的决策偏差,以提升离散对象关联关系预测中预测精度。

2、为了解决上述技术问题,本发明采用以下技术方案:

3、第一方面,本发明提供一种离散对象数据关联性预测方法,具体包括如下步骤:

4、s1、分别计算每种离散对象的相似性,并与不同离散对象之间的已知关联关系构建异构网络;

5、s2、在异构网络上使用图卷积神经网络编码器组合离散对象的节点相似性和节点关联信息,对异构网络中包含的多种离散对象进行编码;

6、s3、使用多头注意力机制对每个卷积层的离散对象节点学习其特征嵌入,获得包含多种离散对象的最终嵌入;

7、s4、使用线性解码器对获得的包含多种离散对象的特征进行解码使得输出矩阵与输入矩阵维度相同,得到离散对象关联预测分数;

8、s5、采用最小化加权二元交叉熵作为损失函数学习参数,降低数据集的稀疏特性带来的决策偏差。

9、进一步地,步骤s1具体包括:

10、根据离散对象的数据特点,采用相似度计算模型分别计算得到离散对象m和离散对象d的相似性;将离散对象m的相似性用矩阵表示,离散对象d的相似性用矩阵表示;

11、将离散对象m和离散对象d之间的已知关联描述为二进制矩阵,其中m、n分别表示离散对象m、d的数量,当离散对象数据 m i和离散对象数据 d j之间存在已知关联,那么 a ij =1,否则, a ij =0;i为1-m之间的整数(包含1和m),j为1-n之间的整数(包含1和n);

12、基于离散对象m和离散对象d的关联矩阵a、离散对象m的相似性矩阵 s m和离散对象d的相似性矩阵 s d构建异构网络,用如下式(1)的邻接矩阵表示:

13、(1)

14、其中,和分别是对离散对象m的相似性矩阵 s m和离散对象d的相似性矩阵 s d进行规格化处理;,,其中表示离散对象m中数据和的相似性,其中表示离散对象d中数据和的相似性;其中表示离散对象d中数据和的相似性;diag为矩阵计算公式,含义为取矩阵的主对角线元素。

15、进一步地,步骤s2具体包括:

16、通过在异构网络上部署图卷积神经网络编码器(gcn)来组合节点相似性与节点关联信息,输入设定采用如下式(2):

17、(2)

18、其中,为惩罚因子,能对gcn传播过程中相似性贡献进行控制,表示矩阵a的转置;图卷积神经网络传播公式采用如下式(3):

19、 (3)

20、其中:其中: h (l), h (l+1)分别是第、层节点的特征;,是矩阵g的度,gij表示矩阵g第i行第j列的元素; w (l)是第层到第层训练时用到的权重矩阵,是非线性激活函数;是对邻接矩阵g进行规格化处理,传播公式初始化如下式:

21、

22、根据以上的设置,第一层gcn编码器进一步被描述为如下式(4):

23、  (4)

24、其中:,是输入层到隐藏层的一个训练权重矩阵;,是隐藏层的特征矩阵,是特征的维度数;g为邻接矩阵,在公式(2)中定义。

25、进一步地,步骤s3具体包括:通过在每一图卷积层中加入多头注意力分数来捕捉离散对象m和离散对象d的特定表示,每一层的注意力分数用如下式(5)表示:

26、 (5)

27、其中:是参数函数,是第层的训练权重矩阵,和分别表示第层的离散对象m、离散对象d的节点输出,使用softmax函数对所有注意力得分进行规范化,softmax函数如下式(6):

28、 (6)

29、其中:、分别表示节点i、j的邻居节点集合,exp为指数函数;通过组合不同卷积层的嵌入捕获异构网络的结构信息,图卷积神经网络编码注意力机制的最终嵌入用如下式(7)表示:

30、 (7)

31、其中:是离散对象m编码后的特征;是离散对象d编码后的特征;为神经网络自动学习的参数,是第层网络自动学习的参数;初始化为 ,l为迭代次数。

32、进一步地,步骤s4具体包括:采用线性解码器对结果进行解码,离散对象m和离散对象d之间的关联预测分数p用如下式(8)表示:

33、 (8)

34、其中:是隐藏层到输出层的训练权重矩阵, sigmoid函数为非线性激活函数,使预测结果都处于0~1的范围之间;表示hd的转置矩阵。

35、进一步地,步骤s5具体包括:最小化加权二元交叉熵作为损失函数的计算公式如下式(9):

36、 (9)

37、其中: (i,j)表示离散对象数据和离散对象数据; p(i,j)表示离散对象和离散对象之间预测的关联分数;影响因子,用于降低和数据不平衡的影响,表示所有离散对象m和离散对象d已知关联对的集合的数量,表示未发现的离散对象m和离散对象d关联对的集合的数量(p+表示正实例集合,p-表示负实例集合)。

38、进一步地,所述离散对象数据关联性包括:微生物-人类疾病关联性,已知药物-疾病关联性,不同商品的关联性等。

39、进一步地,相似度计算模型包括有向无环图相似性计算模型、余弦相似性计算模型。

40、如:疾病的语义描述具有层次结构,所以可选用有向无环图计算相似性,并不局限于有向无环图;药物包含结构、作用靶点等多种特征,所以可选用余弦相似性计算,也不局限于余弦相似性计算模型。

41、第二方面,本发明还提供一种离散对象数据关联性预测系统,其采用上述的离散对象数据关联性预测方法,具体包括:

42、离散对象数据相似性计算模块,用于利用相似性计算模型计算各个离散对象的相似性;

43、异构网络构建模块,用于利用离散对象相似性和离散对象之间已知的关联关系构建异构网络;

44、多头注意力模型搭建模块,包括图卷积神经网络编码器模块、多头注意力机制模块和线性解码器模块,其中:图卷积神经网络编码器模块,用于在异构网络上使用图卷积神经网络编码器组合节点相似性和节点关联信息,对离散对象m和离散对象d进行编码;多头注意力机制模块,用于使用多头注意力对每层图卷积的节点特征进行捕获,计算注意力分数,组合每层的多头注意力获得离散对象m和离散对象d的最终嵌入;线性解码器模块,用于使用线性解码器对获得的离散对象m和离散对象d的特征进行解码使得输出矩阵与输入矩阵维度相同,得到离散对象之间关联预测分数;

45、优化模块,用于采用最小化加权二元交叉熵作为损失函数学习参数,降低数据集的稀疏的特性带来的决策偏差。

46、本发明还提供一种计算机存储介质,其上存储有计算机程序,其中所述计算机程序被执行器执行时实现上述的离散对象数据关联性预测方法。

47、本发明提供一种离散对象数据关联性预测方法及系统,其基于图卷积多头注意力机制,针对现有离散对象数据关联关系预测方法的优缺点,利用多种离散对象的相似性和离散对象之间已知的关联关系构建异构网络,利用相似性数据有效增强发现离散对象之间潜在关联关系的适用性;利用图卷积神经网络能够有效捕获非线离散对象之间的关联关系;使用多头注意力对每层图卷积离散对象的节点特征进行捕获,计算并组合每层多头注意力分数,从而挖掘到更多离散对象的节点特征嵌入,并且能够有效弥补图卷积神经网络受稀疏关联的影响;利用最小化加权二元交叉熵作为损失函数能够有效弥补离散对象之间已知关联数据的稀疏性而导致的决策偏差;本发明提供的一种图卷积多头注意力的离散对象关联性预测方法得到的离散对象关联关系预测结果通过评估,具有较高的预测精度;本发明预测方法对于离散对象的关联关系预测能够应用于多种离散对象数据,具有较强泛化性。

48、与已有的方法相比,本发明提供的离散对象数据关联性预测方法及系统具有以下优点:

49、(1)本发明使用多种离散对象的相似性信息和离散对象之间已知关联关系构建异构网络,能够充分利用各个离散对象的数据特征。

50、(2)本发明使用图卷积神经网络编码器和线性解码器完成离散对象之间关联关系预测。图卷积神经网络能够捕获非线性关联关系,采用半监督训练方法,对于训练数据中含有少量已知的离散对象之间关联关系和大量的未知的或离散对象之间关联关系具有更好的表现效果。

51、(3)本发明提出多头注意力机制来捕捉更多的离散对象的信息,多头注意力能够捕获每一层卷积层离散对象的节点特征,根据每一层的邻居节点权重可以得到当前节点的增强特征表示,多头注意力机制捕捉异构网络不同结构信息,可以对不同卷积层中包含不同的节点特征嵌入导致的贡献不一致问题得到有效缓解,引入注意力机制能够减小在图卷积神经网络中传播性会受到稀疏的离散对象之间关联关系的影响。

52、(4)本发明使用最小化加权二元交叉熵作为损失函数来减小离散对象之间已知关联关系数据稀疏的特性而导致的决策偏差,从而强化正样本的影响。

53、(5)本发明预测方法对于离散对象的关联关系预测适用于多种离散对象数据,具有较强泛化性。

54、经过实验验证,本发明的方法能够显著提升离散对象关联关系预测的精度;能够有效减小数据集关于稀疏的离散对象之间已知关联造成的决策偏差。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1