一种半监督图不平衡学习方法

文档序号:35748675发布日期:2023-10-16 14:29阅读:29来源:国知局
一种半监督图不平衡学习方法

本发明涉及一种基于图神经网络的半监督图不平衡学习方法


背景技术:

1、在图神经网络(graph neural networks,gnn)的研究中,不平衡问题是一个备受关注的挑战。不平衡数据指的是在图数据中存在样本类别分布不均衡的情况,其中少数类别的样本数量远远少于多数类别。这种不平衡性会对模型的训练和预测产生负面影响,导致模型在少数类别上表现不佳。

2、为了解决图神经网络中的不平衡问题,学术界提出了多种方法和技术。一种常见的方法是重新采样技术,包括欠采样和过采样。欠采样通过减少多数类别的样本数量来平衡数据,而过采样则通过增加少数类别的样本数量来达到平衡。另外,类别加权方法可以赋予少数类别更高的权重,以提高模型对少数类别的关注度。

3、然而现有的方法都没有关注过,现有的数据集分割方法中,训练集的数量极少,因此训练集已经发生了过拟合时,测试集依然无法有效的划分分类边界。而这个问题再不平衡情况下更为严重。


技术实现思路

1、针对这个问题,本发明提供一种半监督图不平衡学习方法,该方法先利用不平衡的训练集训练出一个有偏分类器,再根据分类器对未标记节点的预测结果获取分类边界,并在边界处过采样一系列伪标签的方式构建平衡的数据集,并每五十轮重新采样一次。提升分类准确度。

2、一种半监督图不平衡学习方法,其特征在于,具体步骤如下:

3、步骤101,获取不平衡的图神经网络数据;

4、步骤102,搭建图神经网络分类网络;

5、步骤103,确定分类边界;

6、步骤104,选定边界样本并分配伪标签;

7、步骤105,迭代训练分类器。

8、进一步的,一种半监督图不平衡学习方法,其特征在于,所述步骤102中搭建图神经网络分类网络的具体步骤如下:

9、步骤201,使用两层gcn网络作为图数据的嵌入网络,其输出特征维度为256,128,64,层与层之间使用relu激活函数和dropout随机放弃部分连接,其中dropout设置为0.3;每一层可以表示为:,其中是权重矩阵,输出图节点的低维向量表示;

10、步骤202,使用线性分类器作为图数据的分类器,利用两层gcn网络得到的低维向量表示作为输入,输出每个类别的分类概率。

11、进一步的,一种半监督图不平衡学习方法,其特征在于,所述步骤103中确定分类边界的具体步骤如下:

12、步骤301,计算数据的低维向量表示中每一个样本之间的距离;

13、步骤302,找出每个样本距离最近的前5个样本;

14、步骤303,利用得到的分类概率通过argmax获取由分类器预测的样本类别;

15、步骤304,计算每个样本和最近的前5个样本是否是同一标签,若不则加入边界样本集中,若是则不加入。

16、进一步的,一种半监督图不平衡学习方法,其特征在于,所述步骤104中选定边界样本并分配伪标签的具体步骤如下:

17、步骤401,计算少数类对多数类的样本数量差,其中i表示第i个类别;

18、步骤402,对于每个少数类,获取该类别在边界的样本;

19、步骤403,通过该样本点由分类器输出的样本的分类概率,获取分类概率最高的前两个类和;

20、步骤404,使用和计算样本趋近于边界的程度,其具体过程可以表示为:,其中fit为样本趋近于边界的程度,为求绝对值;

21、步骤405,获取的数量,若等于0,则直接将该类中的有标签样本的k近邻样本置该类别的伪标签,放入训练集,若小于等于,则将样本全部放入训练集置该类别的伪标签,若大于,则根据从大到小选取前个样本,入训练集置该类别的伪标签。

22、进一步的,一种半监督图不平衡学习方法,其特征在于,所述步骤105中迭代训练分类器的具体步骤如下:

23、步骤501,若迭代次数小于200且对五十取余数不等于0,则跳转到步骤503,否则跳转到步骤502;

24、步骤502,通过神经网络得到的数据执行步骤3和步骤4,为不平衡的数据集添加新的伪标签样本,构建平衡的训练数据集,

25、步骤503,将训练集输入到神经网络中迭代;

26、步骤504,使用交叉熵计算分类损失,并利用交叉熵损失更新分类器网络参数;

27、步骤505,将adam作为优化器,不设置迭代次数,若一千迭代无更优的结果产生则停止训练,开始训练。



技术特征:

1.一种半监督图不平衡学习方法,其特征在于,具体步骤如下:

2.根据权利要求1所述的一种半监督图不平衡学习方法,其特征在于,所述步骤102中搭建图神经网络分类网络的具体步骤如下:

3.根据权利要求1所述的一种半监督图不平衡学习方法,其特征在于,所述步骤103中确定分类边界的具体步骤如下:

4.根据权利要求1所述的一种半监督图不平衡学习方法,其特征在于,所述步骤104中选定边界样本并分配伪标签的具体步骤如下:

5.根据权利要求1所述的一种半监督图不平衡学习方法,其特征在于,所述步骤105中迭代训练分类器的具体步骤如下:


技术总结
一种半监督图不平衡学习方法,用于处理不平衡的图神经网络数据。具体步骤包括获取数据、搭建分类网络、确定分类边界、选定边界样本并分配伪标签,以及迭代训练分类器。分类网络使用两层GCN网络进行图数据嵌入,并使用线性分类器输出分类概率。根据样本距离和分类器预测,将不同标签样本加入边界样本集。根据样本趋近于边界的程度,计算分类概率并分配伪标签。先训练有偏分类器,后每50轮选取伪标签构建平衡训练数据集,使用交叉熵损失更新分类器参数。最后,采用ADAM优化器训练,停止条件为一千次迭代没有更优结果。该方法有效处理半监督图不平衡学习问题,适用于各种图数据处理场景。

技术研发人员:董明刚,武天昊
受保护的技术使用者:桂林理工大学
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1