一种用于自注意力神经网络的归一化方案的制作方法

文档序号：35662025发布日期：2023-10-06 16:54阅读：来源：国知局

技术特征：

1.一种数据处理设备(700)，其特征在于，用于对图神经网络执行基于注意力的操作，所述设备(700)用于接收一个或多个输入图，每个输入图具有多个节点(201、202、203、204、205、206)，并且对于所述输入图中的至少一个，还用于执行以下操作：

2.根据权利要求1所述的数据处理设备(700)，其特征在于，所述得分函数被归一化，使得所述归一化得分函数的元素总和为1。

3.根据上述权利要求中任一项所述的数据处理设备(700)，其特征在于，所述图神经网络的注意力机制具有利普希茨连续性。

4.根据上述权利要求中任一项所述的数据处理设备(700)，其特征在于，对所述归一化得分函数应用softmax函数。

5.根据权利要求4所述的数据处理设备(700)，其特征在于，对所述图的每个节点和每个相应节点的相邻节点的所述得分函数应用所述softmax函数，使得每个邻域的一组得分函数值总和为1。

6.根据上述权利要求中任一项所述的数据处理设备(700)，其特征在于，所述输入节点表示给出关于所述相应节点的上下文信息。

7.根据权利要求6所述的数据处理设备(700)，其特征在于，所述上下文信息采用张量的形式。

8.根据上述权利要求中任一项所述的数据处理设备(700)，其特征在于，对于每个节点(206)，使用点积将所述归一化得分函数的所述相应元素与所述相应节点的所述输入表示相结合，以基于其相邻节点(201、202、203、204、205)的加权表示来形成所述节点的所述加权节点表示。

9.根据上述权利要求中任一项所述的数据处理设备(700)，其特征在于，所述图神经网络是图注意力网络或图转换器。

10.根据上述权利要求中任一项所述的数据处理设备(700)，其特征在于，所述图神经网络的所述注意力机制包括多头注意力机制。

11.根据上述权利要求中任一项所述的数据处理设备(700)，其特征在于，所述得分函数针对所述多头注意力机制中的每个注意力头进行归一化。

12.根据上述权利要求中任一项所述的数据处理设备(700)，其特征在于，系统用于学习所述注意力参数。

13.一种方法(600)，其特征在于，用于对数据处理设备(700)中的图神经网络执行基于注意力的操作，所述设备用于接收一个或多个输入图，每个输入图具有多个节点(201、202、203、204、205、206)，对于所述输入图中的至少一个，所述方法(600)包括：

14.根据权利要求13所述的方法(600)，其特征在于，所述得分函数被归一化，使得所述归一化得分函数的元素总和为1。

15.根据权利要求13或14所述的方法(600)，其特征在于，所述图神经网络的注意力机制具有利普希茨连续性。

16.一种计算机程序，其特征在于，当所述计算机程序由计算机(700)执行时，使得所述计算机执行根据权利要求13至15中任一项所述的方法(600)。

技术总结
描述了一种数据处理设备(700)，用于对图神经网络执行基于注意力的操作。所述设备用于接收一个或多个输入图，每个输入图具有多个节点(201、202、203、204、205、206)，并且对于所述输入图中的至少一个，还用于执行以下操作：形成(601)所述相应输入图中的每个节点的输入节点表示，其中，可以为每个输入节点表示定义相应的范数；形成(602)一组注意力参数；将所述输入节点表示中的每一个与所述一组注意力参数相乘(603)，以形成所述相应输入图的得分函数；基于所述输入节点表示的范数中的最大值，对所述得分函数进行归一化(604)，以形成归一化得分函数；通过所述归一化得分函数的相应元素对所述相应输入图中的每个节点进行加权，来形成(605)加权节点表示。所述得分函数的所述归一化可以通过加强利普希茨连续性使得基于注意力的深度神经网络表现更好。

技术研发人员：阿拉丁·维尔莫,乔治·达苏拉斯,凯文·斯卡曼
受保护的技术使用者：华为技术有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

当前第2页1 2