一种图神经网络特征产生方法与流程

文档序号:27127270发布日期:2021-10-27 20:22阅读:405来源:国知局
一种图神经网络特征产生方法与流程

1.本发明涉及神经网络技术领域,具体涉及一种图神经网络特征产生方法。


背景技术:

2.目前推荐和分类算法常用的方法包括:逻辑回归、线性回归、决策树及其衍生版extreme gradient boosting decision tree(xgbdt)或light gradient boosting decision tree,gradient boosting classifier、随机森林、向量机(support vector machine)。
3.此类算法的输入多为结构化的数据,例如附图2通常在做此类的分类时,都需要从已有的维度(附图2中的field栏位),再制作衍生维度。例如在附图2中是用户在网上商城购物时所留下的日志,记载了访问过/购买/点击/保存过商家的信息。例如一个衍生维度即为每一用户对某一商家的访问次数。这样的产生衍生维度,也一般被称为特征工程。
4.特征工程设计是一难题,不容易找到通用的方法。往往需要靠工程师对数据的个人独特的观察,也有一些随机成分存在。特征工程的好坏可以大大影响上述算法的结果,如何产生有用的特征成为算法结果优劣的关键。


技术实现要素:

5.为此,本发明提供一种图神经网络特征产生方法,以解决现有特征工程具有不确定性和随机性的问题。
6.为了实现上述目的,本发明提供如下技术方案:
7.本发明公开了一种图神经网络特征产生方法,所述方法为:
8.从已有的维度制作衍生维度,通过图形理论将样本用于数据值表征为图中的节点,相关节点用边进行连接;
9.可先将多个维度的数值分箱或分桶成有限的数量;
10.一个维度在处理后可能值为n个值,每个值为图中的一个节点,对每一样本产生对应的边;
11.产生图后,通过图神经网络产生每一节点的高维度坐标;
12.相似的节点会被映射到空间中相临近的位置,产生独特的特征。
13.进一步地,所述图形理论以图为研究对象,图形理论中的图是由若干给定的点及连接两点的线所构成的图形,图形通常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点的线表示相应两个事物间具有的特定关系。
14.进一步地,所述图形理论将x维度处理后,具有{x_1,

,x_n}n个值,x维度中每个值对应图中的一个节点。
15.进一步地,所述多个维度进行同样的处理,m个维度,则每一维度各有{k_1,

,k_m}个独一值,产生k个节点,
16.k=k_1+k_2

+k_m
17.每个样本本身为一个节点,样本总数为n,则图的总节点数为v=k+n。
18.进一步地,所述图中的边产生方式为:对样本y,x维度共有x_1,x_2,

,x_n个节点,样本y与x维度之间产生的边为:(y,x_1),

,(y,x_n)。
19.进一步地,所述图中的边加入额外的边y_0,y_1两样本某一维度具有同一值,即(y_0,v),(y_1,v)两个边同时存在,为使y_0,y_1关系更紧密,则增加一个边(y_0,y_1)。
20.进一步地,所述图神经网络在图产生后,产生每一节点的高维度坐标,将图中的节点映射到高度空间中,图神经网络所产生的映射具有独特的特征。
21.进一步地,所述图中相似的节点为彼此连接较多的节点,相似的节点被映射到空间中相邻近的位置。
22.本发明具有如下优点:
23.本发明公开了一种图神经网络特征产生方法,产生的特征具有良好的区分性质,具有一定的通用性,针对不同的数据,无需重新设计特征,可以用于任何数据集,不需要依据不同数据集设计其相关特征。
附图说明
24.为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。
25.本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
26.图1为本发明实施例提供的一种图神经网络特征产生方法的边与节点连接示意图;
27.图2为本发明实施例提供的现有结构化数据分类示意图;
具体实施方式
28.以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
29.实施例
30.本实施例公开了一种图神经网络特征产生方法,所述方法为:
31.从已有的维度制作衍生维度,通过图形理论将样本与数据值表征为图中的节点,相关节点用边进行连接;
32.可先将多个维度的数值分箱或分桶成有限的数量;
33.一个维度在处理后可能值为n个值,每个值为图中的一个节点,对每一样本产生对应的边;
34.产生图后,通过图神经网络产生每一节点的高维度坐标;
35.相似的节点会被映射到空间中相临近的位置,产生独特的特征。
36.图一般视为一种由节点组成的抽象网络,网络中的各顶点可以通过边实现彼此的连接,表示两节点有关联。节点表示表示某个事物或对象,边表示事物与事物之间的关系。
37.图形理论以图为研究对象,图形理论中的图是由若干给定的点及连接两点的线所构成的图形,图形通常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点的线表示相应两个事物间具有的特定关系。
38.为了能提供有效的方法,本发明独有的结合了图形理论和图神经网络来产生新的特征。在机器学习算法上,所需要的是找出区分样本的单一维度或数个维度组合。也就是借由维度来判定样本之间的相似度。例如两客户如果拥有多个维度/特征为同一值或同一区间,例如两男性客户均为25

30岁之间,且有相同的商户访问相近点击次数,则两人可能都是此商户的潜在购买者。但是维度或可制作的特征众多,其组合也众多,不能一一列举。
39.本实施例中将客户或数据值表征为图中的节点,相关的节点用边进行连接,两节点如果连接的相邻节点均相同,则表明两节点有相近的性质。
40.将x维度处理后,具有{x_1,

,x_n}n个值,x维度中每个值对应图中的一个节点;对每一维度做同样处理,m个维度,则每一维度各有{k_1,

,k_m}个独一值,产生k个节点,
41.k=k_1+k_2

+k_m
42.每个样本本身为一个节点,样本总数为n,则图的总节点数为v=k+n。
43.图中的边产生方式为:对样本y,x维度共有x_1,x_2,

,x_n个节点,样本y与x维度之间产生的边为:(y,x_1),

,(y,x_n)。
44.在此基础上,图中的边加入额外的边y_0,y_1两样本某一维度具有同一值,即(y_0,v),(y_1,v)两个边同时存在,为使y_0,y_1关系更紧密,则增加一个边(y_0,y_1)。有诸多衍生方法加入边,本实施例不再赘述,或者可以根据实际情况,适量减少边也可以。
45.参考图1,本实施例中,样本包括x和y,则对应两个节点,职业类为“0”,则只有一个节点,性别包括男和女,则对应两个节点,年龄包括25

29和30

34两个阶段,则对应两个节点。样本与职业类、性别和年龄这些节点之间连接构成边,连接的相同节点越多,表示样本关联度越大,越相似。
46.图神经网络的研究与图嵌入或网络嵌入密切相关。图嵌入旨在通过保留图的网络拓扑结构和节点内容信息,将图中顶点表示为低维向量,以便使用简单的机器学习算法(例如,支持向量机分类)进行处理。许多图嵌入算法通常是无监督的算法,它们可以大致可以划分为三个类别,即矩阵分解、随机游走和深度学习方法。同时图嵌入的深度学习方法也属于图神经网络,包括基于图自动编码器的算法(如dngr和sdne)和无监督训练的图卷积神经网络(如graphsage)。
47.图神经网络划分为五大类别,分别是:图卷积网络(graph convolution networks,gcn)、图注意力网络(graph attention networks)、图自编码器(graph autoencoders)、图生成网络(graph generative networks)和图时空网络(graph spatial

temporal networks)。
48.产生图后,通过图神经网络产生每一节点的高维度坐标,将图中的节点映射到高度空间中,图神经网络所产生的映射具有独特的特征。图中相似的节点为彼此连接较多的
节点,相似的节点被映射到空间中相邻近的位置,即为有较多较短的路径可以从一节点访问到达另一节点。
49.本实施例公开的一种图神经网络特征产生方法,产生的特征具有良好的区分性质,具有一定的通用性,针对不同的数据,无需重新设计特征,可以用于任何数据集,不需要依据不同数据集设计其相关特征。
50.虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1