本发明涉及一种基于图神经网络的半监督图不平衡学习方法
背景技术:
1、在图神经网络(graph neural networks,gnn)的研究中,不平衡问题是一个备受关注的挑战。不平衡数据指的是在图数据中存在样本类别分布不均衡的情况,其中少数类别的样本数量远远少于多数类别。这种不平衡性会对模型的训练和预测产生负面影响,导致模型在少数类别上表现不佳。
2、为了解决图神经网络中的不平衡问题,学术界提出了多种方法和技术。一种常见的方法是重新采样技术,包括欠采样和过采样。欠采样通过减少多数类别的样本数量来平衡数据,而过采样则通过增加少数类别的样本数量来达到平衡。另外,类别加权方法可以赋予少数类别更高的权重,以提高模型对少数类别的关注度。
3、然而现有的方法都没有关注过,现有的数据集分割方法中,训练集的数量极少,因此训练集已经发生了过拟合时,测试集依然无法有效的划分分类边界。而这个问题再不平衡情况下更为严重。
技术实现思路
1、针对这个问题,本发明提供一种半监督图不平衡学习方法,该方法先利用不平衡的训练集训练出一个有偏分类器,再根据分类器对未标记节点的预测结果获取分类边界,并在边界处过采样一系列伪标签的方式构建平衡的数据集,并每五十轮重新采样一次。提升分类准确度。
2、一种半监督图不平衡学习方法,其特征在于,具体步骤如下:
3、步骤101,获取不平衡的图神经网络数据;
4、步骤102,搭建图神经网络分类网络;
5、步骤103,确定分类边界;
6、步骤104,选定边界样本并分配伪标签;
7、步骤105,迭代训练分类器。
8、进一步的,一种半监督图不平衡学习方法,其特征在于,所述步骤102中搭建图神经网络分类网络的具体步骤如下:
9、步骤201,使用两层gcn网络作为图数据的嵌入网络,其输出特征维度为256,128,64,层与层之间使用relu激活函数和dropout随机放弃部分连接,其中dropout设置为0.3;每一层可以表示为:,其中是权重矩阵,输出图节点的低维向量表示;
10、步骤202,使用线性分类器作为图数据的分类器,利用两层gcn网络得到的低维向量表示作为输入,输出每个类别的分类概率。
11、进一步的,一种半监督图不平衡学习方法,其特征在于,所述步骤103中确定分类边界的具体步骤如下:
12、步骤301,计算数据的低维向量表示中每一个样本之间的距离;
13、步骤302,找出每个样本距离最近的前5个样本;
14、步骤303,利用得到的分类概率通过argmax获取由分类器预测的样本类别;
15、步骤304,计算每个样本和最近的前5个样本是否是同一标签,若不则加入边界样本集中,若是则不加入。
16、进一步的,一种半监督图不平衡学习方法,其特征在于,所述步骤104中选定边界样本并分配伪标签的具体步骤如下:
17、步骤401,计算少数类对多数类的样本数量差,其中i表示第i个类别;
18、步骤402,对于每个少数类,获取该类别在边界的样本;
19、步骤403,通过该样本点由分类器输出的样本的分类概率,获取分类概率最高的前两个类和;
20、步骤404,使用和计算样本趋近于边界的程度,其具体过程可以表示为:,其中fit为样本趋近于边界的程度,为求绝对值;
21、步骤405,获取的数量,若等于0,则直接将该类中的有标签样本的k近邻样本置该类别的伪标签,放入训练集,若小于等于,则将样本全部放入训练集置该类别的伪标签,若大于,则根据从大到小选取前个样本,入训练集置该类别的伪标签。
22、进一步的,一种半监督图不平衡学习方法,其特征在于,所述步骤105中迭代训练分类器的具体步骤如下:
23、步骤501,若迭代次数小于200且对五十取余数不等于0,则跳转到步骤503,否则跳转到步骤502;
24、步骤502,通过神经网络得到的数据执行步骤3和步骤4,为不平衡的数据集添加新的伪标签样本,构建平衡的训练数据集,
25、步骤503,将训练集输入到神经网络中迭代;
26、步骤504,使用交叉熵计算分类损失,并利用交叉熵损失更新分类器网络参数;
27、步骤505,将adam作为优化器,不设置迭代次数,若一千迭代无更优的结果产生则停止训练,开始训练。
1.一种半监督图不平衡学习方法,其特征在于,具体步骤如下:
2.根据权利要求1所述的一种半监督图不平衡学习方法,其特征在于,所述步骤102中搭建图神经网络分类网络的具体步骤如下:
3.根据权利要求1所述的一种半监督图不平衡学习方法,其特征在于,所述步骤103中确定分类边界的具体步骤如下:
4.根据权利要求1所述的一种半监督图不平衡学习方法,其特征在于,所述步骤104中选定边界样本并分配伪标签的具体步骤如下:
5.根据权利要求1所述的一种半监督图不平衡学习方法,其特征在于,所述步骤105中迭代训练分类器的具体步骤如下: