面向图数据的挖掘方法、装置、电子设备及可读存储介质

文档序号:30981487发布日期:2022-08-03 00:46阅读:89来源:国知局
面向图数据的挖掘方法、装置、电子设备及可读存储介质

1.本技术涉及数据处理技术领域,特别是涉及一种面向图数据的挖掘方法、装置、电子设备及可读存储介质。


背景技术:

2.随着人工智能技术的发展,深度学习方法在图像、文本等数据上的智能应用取得了巨大的成功。但现实中存在许多具备图结构的数据,例如社交网络分析、智能电网分析和分子药物合成等等。研究人员为此提出了各种针对图结构数据的图卷积神经网络模型(graph convolutional network,简称gcn),在搜索、推荐、药物研发等领域都进行了广泛的应用。
3.然而,gcn虽然能够在面向图结构数据的任务中发挥巨大的作用,但是在超大规模的图结构数据的背景之下,gcn为了达到较好的模型性能需要较多的标注数据集进行学习和训练,然而人为地进行图结构数据集的全量标注以供gcn更好的进行模型训练,在人力、物力以及时间开销等方面都是极大的。
4.因此,目前亟需一种针对图结构数据的数据挖掘方法,能够在开发成本有限的前提下,在海量图结构数据中高效快速地挖掘出价值量高、信息量多的待标注数据子集,并交由人工进行标注后作为gcn的训练数据集,为gcn实现更好的训练效果提供有效的数据支撑。


技术实现要素:

5.本技术提供一种面向图数据的挖掘方法、装置、电子设备及可读存储介质,以解决难以高效快速地从海量图结构数据中挖掘出价值量高、信息量多的待标注数据子集的问题。
6.为了解决上述问题,本技术采用了以下的技术方案:
7.第一方面,本技术实施例提供了一种面向图数据的挖掘方法,所述方法包括:
8.将图结构原始数据集输入简化图卷积神经网络,以输出待标注数据子集;
9.其中,所述简化图卷积神经网络用于执行以下步骤:
10.对所述图结构原始数据集进行预处理,得到特征融合后的图结构数据;
11.计算所述图结构数据中每个图节点的中心度指标;
12.对所述图结构数据中的所有图节点进行聚类,得到多个聚类簇,并计算每个图节点在所属聚类簇中的代表性指标;
13.计算所述图结构数据中每个图节点的信息熵指标;
14.根据所述中心度指标、所述代表性指标和所述信息熵指标,得到每个图节点的价值得分;
15.将所述价值得分最高的n个图节点作为所述待标注数据子集。
16.在本技术一实施例中,对所述图结构原始数据集进行预处理,得到特征融合后的
图结构数据,包括:
17.对所述图结构原始数据集进行预处理,得到图结构数据的特征矩阵、度矩阵和邻接矩阵;
18.针对所述图结构数据中的任一图节点,根据该图节点的k跳近邻内的所有图节点的所述特征矩阵、所述度矩阵和所述邻接矩阵进行特征融合,得到特征融合后的图结构数据。
19.在本技术一实施例中,计算所述图结构数据中每个图节点的中心度指标,包括:
20.根据以下公式,计算所述图结构数据中每个图节点的中心度指标:
[0021][0022]
其中:vi表示所述图结构数据中的第i个图节点;表示vi节点的中心度指标;vj表示所述图结构数据中的第j个图节点;表示所述第j个图节点的中心度指标;∑
kajk
表示所述第j个图节点的度;a
ij
表示0或1,当vi图节点和vj图节点无连接关系时,a
ij
取0,当vi图节点和vj图节点有连接关系时,a
ij
取1;ρ为坍塌因子;n为所述图结构数据中所有图节点的个数。
[0023]
在本技术一实施例中,计算每个图节点在所属聚类簇中的代表性指标,包括:
[0024]
根据以下公式,计算每个图节点在所属聚类簇中的代表性指标:
[0025][0026]
其中:vi表示所述图结构数据中的第i个图节点;表示vi图节点的在所属聚类簇中的代表性指标;表示的是vi图节点所属聚类簇中的中心节点;是vi图节点在所属聚类簇中的向量表示;表示和之间的欧氏距离。
[0027]
在本技术一实施例中,根据所述中心度指标、所述代表性指标和所述信息熵指标,得到每个图节点的价值得分,包括:
[0028]
基于贝塔分布,进行时间敏感性系数的采样,得到所述中心度指标的第一采样权重、所述代表性指标的第二采样权重和所述信息熵指标的第三采样权重;其中,所述中心度指标的第一采样权重随时间推移而减小,所述代表性指标的第二采样权重和所述信息熵指标的第三采样权重随随时间推移而增大;
[0029]
将所述第一采样权重、所述第二采样权重和所述第三采样权重进行归一化,对应得到所述中心度指标的第一实际计算权重、所述代表性指标的第二实际计算权重和所述信息熵指标的第三实际计算权重;
[0030]
根据所述中心度指标与所述第一实际计算权重的第一乘积、所述代表性指标与所述第二实际计算权重的第二乘积以及所述信息熵指标与所述第三实际计算权重的第三乘积之间的和,得到每个图节点的价值得分。
[0031]
在本技术一实施例中,其中,所述图结构原始数据集包括已标注的初始训练数据集,所述方法还包括:
[0032]
获取已标注数据子集;其中,所述已标注数据子集是对所述待标注数据子集进行人工标注后得到的;
[0033]
将所述已标注数据子集加入所述初始训练数据集,并将加入所述已标注数据子集后的所述初始训练数据集输入所述简化图卷积神经网络进行训练,得到更新后的简化图卷积神经网络;
[0034]
将所述图结构原始数据集中除所述待标注数据子集外的未标注的图结构数据,输入所述更新后的简化图卷积神经网络中,以将输出得到的n个图节点再加入所述待标注数据子集;
[0035]
重复以上迭代过程,直到所述待标注数据子集中的图节点的数量达到预设数量。
[0036]
在本技术一实施例中,直到所述待标注数据子集中的图节点的数量达到预设数量之后,所述方法还包括:
[0037]
获取目标已标注数据集;其中,所述目标已标注数据集是由所述待标注数据子集经过人工标注后得到的;
[0038]
将所述目标已标注数据集输入初始图卷积神经网络进行训练,得到目标图卷积神经网络;
[0039]
通过预设测试数据集对所述目标图卷积神经网络对进行性能评估,以得到准确率指标、宏平均f1指标和微平均f1指标;
[0040]
在所述准确率指标、所述宏平均f1指标和所述微平均f1指标均满足对应的指标要求的情况下,确定所述待标注数据子集有效。
[0041]
第二方面,基于相同发明构思,本技术实施例提供了一种面向图数据的挖掘装置,所述装置包括:
[0042]
数据挖掘模块,用于将图结构原始数据集输入简化图卷积神经网络,以输出待标注数据子集;
[0043]
其中,所述数据挖掘模块包括:
[0044]
预处理子模块,用于对所述图结构原始数据集进行预处理,得到特征融合后的图结构数据;
[0045]
中心度计算子模块,用于计算所述图结构数据中每个图节点的中心度指标;
[0046]
代表性计算子模块,用于对所述图结构数据中的所有图节点进行聚类,得到多个聚类簇,并计算每个图节点在所属聚类簇中的代表性指标;
[0047]
信息熵计算子模块,用于计算所述图结构数据中每个图节点的信息熵指标;
[0048]
价值得分计算子模块,用于根据所述中心度指标、所述代表性指标和所述信息熵指标,得到每个图节点的价值得分;
[0049]
筛选子模块,用于将所述价值得分最高的n个图节点作为所述待标注数据子集。
[0050]
在本技术一实施例中,所述预处理子模块包括:
[0051]
矩阵获取子模块,用于对所述图结构原始数据集进行预处理,得到图结构数据的特征矩阵、度矩阵和邻接矩阵;
[0052]
特征融合子模块,用于针对所述图结构数据中的任一图节点,根据该图节点的k跳近邻内的所有图节点的所述特征矩阵、所述度矩阵和所述邻接矩阵进行特征融合,得到特征融合后的图结构数据。
[0053]
在本技术一实施例中,所述中心度计算子模块具体用于根据以下公式,计算所述图结构数据中每个图节点的中心度指标:
[0054][0055]
其中:vi表示所述图结构数据中的第i个图节点;表示vi节点的中心度指标;vj表示所述图结构数据中的第j个图节点;表示所述第j个图节点的中心度指标;∑
kajk
表示所述第j个图节点的度;a
ij
表示0或1,当vi图节点和vj图节点无连接关系时,a
ij
取0,当vi图节点和vj图节点有连接关系时,a
ij
取1;ρ为坍塌因子;n为所述图结构数据中所有图节点的个数。
[0056]
在本技术一实施例中,所述代表性计算子模块具体用于根据以下公式,计算每个图节点在所属聚类簇中的代表性指标:
[0057][0058]
其中:vi表示所述图结构数据中的第i个图节点;表示vi图节点的在所属聚类簇中的代表性指标;表示的是vi图节点所属聚类簇中的中心节点;是在vi图节点在所属聚类簇中的向量表示;图节点在所属聚类簇中的向量表示;表示和之间的欧氏距离。
[0059]
在本技术一实施例中,所述价值得分计算子模块包括:
[0060]
时间采样子模块,用于基于贝塔分布,进行时间敏感性系数的采样,得到所述中心度指标的第一采样权重、所述代表性指标的第二采样权重和所述信息熵指标的第三采样权重;其中,所述中心度指标的第一采样权重随时间推移而减小,所述代表性指标的第二采样权重和所述信息熵指标的第三采样权重随随时间推移而增大;
[0061]
归一化子模块,用于将所述第一采样权重、所述第二采样权重和所述第三采样权重进行归一化,对应得到所述中心度指标的第一实际计算权重、所述代表性指标的第二实际计算权重和所述信息熵指标的第三实际计算权重;
[0062]
价值得分计算子模块,用于根据所述中心度指标与所述第一实际计算权重的第一乘积、所述代表性指标与所述第二实际计算权重的第二乘积以及所述信息熵指标与所述第三实际计算权重的第三乘积之间的和,得到每个图节点的价值得分。
[0063]
在本技术一实施例中,所述装置还包括:
[0064]
第一获取模块,用于获取已标注数据子集;其中,所述已标注数据子集是对所述待标注数据子集进行人工标注后得到的;
[0065]
迭代更新模块,用于将所述已标注数据子集加入所述初始训练数据集,并将加入所述已标注数据子集后的所述初始训练数据集输入所述简化图卷积神经网络进行训练,得到更新后的简化图卷积神经网络;
[0066]
迭代挖掘模块,用于将将所述图结构原始数据集中除所述待标注数据子集外的未标注的图结构数据,输入所述更新后的简化图卷积神经网络中,以将输出得到的n个图节点
再加入所述待标注数据子集;
[0067]
迭代输出模块,用于重复以上迭代过程,直到所述待标注数据子集中的图节点的数量达到预设数量。
[0068]
在本技术一实施例中,所述装置还包括:
[0069]
第二获取模块,用于获取目标已标注数据集;其中,所述目标已标注数据集是由所述待标注数据子集经过人工标注后得到的;
[0070]
训练模块,用于将所述目标已标注数据集输入初始图卷积神经网络进行训练,得到目标图卷积神经网络;
[0071]
性能指标获取模块,用于通过预设测试数据集对所述目标图卷积神经网络对进行性能评估,以得到准确率指标、宏平均f1指标和微平均f1指标;
[0072]
确定模块,用于在所述准确率指标、所述宏平均f1指标和所述微平均f1指标均满足对应的指标要求的情况下,确定所述待标注数据子集有效。
[0073]
第三方面,基于相同发明构思,本技术实施例提供了一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器用于执行机器可执行指令,以实现本技术第一方面所述的面向图数据的挖掘方法。
[0074]
第四方面,基于相同发明构思,本技术实施例提供了一种可读存储介质,所述可读存储介质内存储有机器可执行指令,所述机器可执行指令被处理器执行时实现本技术第一方面所述的面向图数据的挖掘方法。
[0075]
与现有技术相比,本技术包括以下优点:
[0076]
本技术实施例提供的一种面向图数据的挖掘方法,通过简化图卷积神经网络,以主动学习的方式对图结构数据中每个图节点的中心度指标、代表性指标和信息熵指标进行综合计算,以得到每个图节点的价值得分,将所述价值得分最高的n个图节点作为主动学习本次迭代所挖掘出的待标注数据子集。本技术实施例基于简化图卷积神经网络,能够快速高效的在大规模海量图结构数据中挑选出价值量高、信息量多的待标注数据子集,与此同时对价值量较低、信息量较少且相互冗余的图节点数据进行剔除,使得挖掘出的待标注数据子集能够协助图结构数据领域内的分析人员进行下游的数据分析工作,避免了数据分析人员直接对海量大数据的全量分析操作,节省了计算和存储资源并降低了人力成本。
附图说明
[0077]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0078]
图1是本技术一实施例中一种面向图数据的挖掘方法的步骤流程图。
[0079]
图2是本技术一实施例中一种面向图数据的挖掘方法的具体步骤流程图。
[0080]
图3是本技术一实施例中一种面向图数据的挖掘方法中的框架示意图。
[0081]
图4是本技术一实施例中的一种面向图数据的挖掘装置的功能模块示意图。
[0082]
图5是本技术一实施例中的一种面向图数据的挖掘装置的具体功能模块示意图。
[0083]
附图标记:400-面向图数据的挖掘装置;401-数据挖掘模块;4011-预处理子模块;
4012-中心度计算子模块;4013-代表性计算子模块;4014-信息熵计算子模块;4015-价值得分计算子模块;4016-筛选子模块。
具体实施方式
[0084]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0085]
需要说明的是,深度神经网络模型在图像,语音,自然语言处理,社交网络分析等领域大放异彩,但是,在这些有监督学习的领域之中,深度神经网络模型能够大放异彩的前提是,需要充足的有标注数据对模型进行训练。然而在工业实践之中,充足的有标注数据样本集的获取是一件十分耗费人力物力的任务:以语音识别为例,获取有标注的语音数据需要进行人工参与,但是语音数据的内容时长与人为手工标注的时间成本比例约为1:10。在医学图像领域、自动驾驶领域亦是如此,想要得到质量较高的有标注数据的样本集,必须通过人工对这些数据进行标注,然而对数据进行人为的标注是一件十分耗费财力、物力的任务。
[0086]
主动学习在上述的背景之下就此诞生,主动学习算法通过迭代的方式由模型本身主动地进行未标注数据的挑选,在挑选得到未标注的数据子集后交由人工进行标注,然后将新加入的已标记数据子集汇入到已标注的样本数据池中进行下一次的迭代。主动学习的提出意在解决在有限的人工标注成本之下,如何使得最终挖掘出的数据样本的质量最高的问题。
[0087]
然而,现存的主动学习被广泛应用在图像、语音、文本等领域,但是在图结构数据领域,主动学习的应用仍然还有很大的挑战:图结构数据中的节点并非是处于独立同分布的,即相邻的节点更倾向于共享相同的标签。由于图结构数据的节点之间存在相互关联的特性,所以传统的主动学习算法并不能直接迁移运用到图结构数据领域之中进行图节点数据的挖掘任务。
[0088]
研究人员为此提出了各种针对图结构数据的图卷积神经网络模型(graph convolutional network,简称gcn),在搜索、推荐、药物研发等领域都进行了广泛的应用。然而,在gcn本身结构比较复杂的情况下,为了达到较好的模型性能需要较多的标注数据集进行学习和训练,人为地进行图结构数据集的全量标注以供gcn更好的进行模型训练,在人力、物力以及时间开销等方面都是极大的。
[0089]
本技术针对现有技术存在的难以高效快速地从海量图结构数据中挖掘出价值量高、信息量多的待标注数据子集的问题,旨在提供一种面向图数据的挖掘方法,能够在开发成本有限的前提下,在海量图结构数据中高效快速地挖掘出价值量高、信息量多的数据,在为gcn实现更好的训练效果提供有效的数据支撑的同时,协助图结构数据领域内的分析人员进行下游的数据分析工作,避免了数据分析人员直接对海量大数据的全量分析操作,节省了计算和存储资源并降低了人力成本。
[0090]
参照图1,示出了本技术一种面向图数据的挖掘方法的步骤流程图,方法可以包括以下步骤:
[0091]
s101:将图结构原始数据集输入简化图卷积神经网络,以输出待标注数据子集。
[0092]
需要说明的是,图(graph)结构是一种非线性的数据结构,图结构在实际生活中有很多例子,比如交通运输网,地铁网络,社交网络,计算机中的状态执行(自动机)等等都可以抽象成图结构。图结构是比树结构复杂的非线性结构。其中,所有的顶点构成一个顶点集合,所有的边构成边的集合,一个完整的图结构就是由顶点集合和边集合组成。
[0093]
在本实施方式,为便于理解与描述,用图节点表示顶点,以作为图结构数据中的最小单位组成。图结构数据中的图节点并非是处于独立同分布的,而通常是存在相互关联,即相邻的图节点更倾向于共享相同的标签。
[0094]
需要说明的是,简化图卷积神经网络是图卷积神经网络的简化模型,该模型通过k次近邻的图节点的数据特征的聚合操作,消除了原本图卷积神经网络中隐藏层神经元对图节点特征的非线性映射,进而在模型的特征学习过程中消除了网络中隐藏层中非线性部分的参数更新的过程,从而大大降低了整个模型的复杂度。
[0095]
在本实施方式中,可以先通过少量的经过人工标注的初始训练集训练得到简化图卷积神经网络,并且每当简化图卷积神经网络迭代输出所要挖掘的价值量高、信息量多的待标注数据子集后,还可将待标注数据子集进行人工标注后,加入到初始训练集中对简化图卷积神经网络进行进一步训练,以不断提高简化图卷积神经网络的模型性能。
[0096]
在本实施方式中,通过该简化图卷积神经网络替代复杂的图卷积神经网络模型对图结构原始数据集进行数据挖掘,能够在有效降低图节点挖掘过程的复杂度的同时,最大化的实现所挖掘到的待标注数据子集的信息量和代表性的无损。
[0097]
在本实施方式中,参照图2和图3,通过简化图卷积神经网络挖掘待标注数据子集的过程,具体可以通过以下步骤实现:
[0098]
s101-1:对图结构原始数据集进行预处理,得到特征融合后的图结构数据。
[0099]
在本实施方式中,考虑到在图结构数据中,不同节点之间,尤其是相邻节点之间存在相互关联,即相邻的图节点更倾向于共享相同的标签。如在社交网络领域,可以将社交用户视为一个图节点,该社交用户的好友则是相邻图节点,则该社交用户及其好友则通常共享相同的标签,如年龄段、职业等标签。
[0100]
因此,可以通过将每个图节点的k跳近邻图节点的特征进行融合,使得特征融合后的图结构数据,彼此之间消除了图结构的依赖,进而使得图结构数据的所有图节点不再处于独立同分布的状态,以便于下游任务中对图节点数据的进一步计算。
[0101]
在本实施方式中,s101-1具体可以包括以下子步骤:
[0102]
s101-1-1:对图结构原始数据集进行预处理,得到图结构数据的特征矩阵、度矩阵和邻接矩阵。
[0103]
s101-1-2:针对所述图结构数据中的任一图节点,根据该图节点的k跳近邻内的所有图节点的所述特征矩阵、所述度矩阵和所述邻接矩阵进行特征融合,得到特征融合后的图结构数据。
[0104]
需要说明的是,图数据的特征矩阵用于表征图数据中每个图节点本身所具有的特征;图数据的度矩阵用于表征图数据中每个图节点相关联的其他图节点的数量;图数据的邻接矩阵用于表征图数据中每个图节点与其他图节点之间的邻接关系。
[0105]
在本实施方式中,根据图数据的特征矩阵、度矩阵和邻接矩阵,对图节点进行特征
融合处理,使得图节点能够在彼此之间消除了图结构的依赖,进而使得所有图节点不再处于独立同分布的状态,以便于下游任务中对图节点数据的进一步计算,能够大大降低了整个模型的复杂度,提高后续数据挖掘的效率。
[0106]
s101-2:计算图结构数据中每个图节点的中心度指标。
[0107]
在本实施方式中,可以采用pagerank中心度指标衡量当前图节点在整张图结构数据之中的重要程度以及对图结构数据中其余图节点的影响度程度。即某个图节点的pagerank中心度指标值越大,代表当前图节点对于图数据中的其余图节点的影响力越大,亦该图节点在图节点数据中的重要程度越高。
[0108]
具体地,可以根据以下公式,计算图结构数据中每个图节点的中心度指标:
[0109][0110]
其中:vi表示图结构数据中的第i个图节点;表示vi节点的中心度指标;vj表示图结构数据中的第j个图节点;表示第j个图节点的中心度指标;∑
kajk
表示第j个图节点的度;a
ij
表示0或1,当vi图节点和vj图节点无连接关系时,a
ij
取0,当vi图节点和vj图节点有连接关系时,a
ij
取1;ρ为坍塌因子;n为图结构数据中所有图节点的个数。
[0111]
需要说明的是,当前图节点的pagerank中心度指标值(以下简称pr值)是由除当前图节点外的其他图节点的pr值计算得到。经过迭代重复计算每个图节点的pr值。初始化时给每个图节点分配一个初始pr值(非0),那么经过不断的重复计算,所有的图节点的pr值会趋向于稳定,进而达到收敛状态。
[0112]
s101-3:对图结构数据中的所有图节点进行聚类,得到多个聚类簇,并计算每个图节点在所属聚类簇中的代表性指标。
[0113]
在本实施方式中,作为其中的一个优选方案,可以采用k-means聚类算法,对所有图节点进行聚类,其中,将聚类类别数k作为该算法的超参数,在本实施方式中,可以将选定图结构数据的总类别数量作为超参数k的值,示例性的,在社交网络领域下分析社交用户时,可以选定的社交用户的总职业类别数量作为参数k的值。
[0114]
需要说明的是,k-means聚类算法是一种基本的已知聚类类别数的划分算法。它是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。它是使用欧氏距离度量的。它可以处理大数据集,且高效。聚类结果是划分为k类的k个聚类簇。
[0115]
具体地,根据以下公式,计算每个图节点在所属聚类簇中的代表性指标:
[0116][0117]
其中:vi表示图结构数据中的第i个图节点;表示vi图节点的在所属聚类簇中的代表性指标;表示的是vi图节点所属聚类簇中的中心节点;是在vi图节点在所属聚类簇中的向量表示;表示和之间的欧
氏距离。
[0118]
需要说明的是,代表性指标用于表征当前图节点数据是否在其所属的聚类簇中的代表性的大小。代表性指标越大,表明该图节点更能够代表其自身所属的特定类别;反之代表性指标越小,表明该图节点代表其所属特定类别的能力越差。
[0119]
s101-4:计算图结构数据中每个图节点的信息熵指标。
[0120]
在本实施方式中,图节点的信息量使用信息熵来衡量。具体而言,信息熵衡量的是当前的简化图卷积神经网络对于某一图节点做分类任务时的难易程度。信息熵指标得分越高,表明该图节点的信息量越多,对于简化图卷积神经网络而言分类的难度越大,正是需要挖掘的图节点数据。因此,将信息量多的图节点在下一次主动学习的迭代过程中加入到初始训练数据集中,用于对简化图卷积神经网络进行进一步地训练,以不断提升简化图卷积神经网络的模型性能。
[0121]
s101-5:根据中心度指标、代表性指标和信息熵指标,得到每个图节点的价值得分。
[0122]
在本实施方式中,考虑到在主动学习算法的迭代初期,用于训练简化图卷积神经网络的已标注的初始训练集数量比较少,所以依赖初始训练集训练得到的简化图卷积神经网络的性能相对较差,因此,简化图卷积神经网络在计算代表性指标和信息熵指标的时候,会出现一定的偏差;而相比之下,pagerank中心度指标不会因为模型的性能的不足而出现偏差。因此,为使得图节点的价值得分更加合理,还需要进行时间敏感性系数的采样,使得随着时间推移,图节点的pagerank中心度指标的计算权重会渐渐的降低,而图节点的代表性指标和信息熵指标的计算指标权重会逐渐增大,最终趋于平衡。
[0123]
具体地,s101-5可以具体包括以下子步骤:
[0124]
s101-5-1:基于贝塔分布,进行时间敏感性系数的采样,得到中心度指标的第一采样权重、代表性指标的第二采样权重和信息熵指标的第三采样权重;其中,中心度指标的第一采样权重随时间推移而减小,代表性指标的第二采样权重和信息熵指标的第三采样权重随随时间推移而增大。
[0125]
需要说明的是,贝塔分布,也称b分布,是指一组定义在(0,1)区间的连续概率分布。在本实施方式中,中心度指标的第一采样权重为γt~beta(1,n
t
'),代表性指标的第二采样权重为α
t
~beta(1,n
t
);信息熵指标的第三采样权重为β
t
~beta(1,nt),并满足:α
t

t

t
=1,n
t
+n
t
'=n。其中,n表示基于主动学习的数据挖掘过程中为简化图卷积神经网络设置的总迭代次数,需要说明的是,简化图卷积神经网络的每次迭代,都将输出n个图节点,并将这n个图节点加入最开始生成的待标注数据子集;n
t
则表示当前迭代次数,该值随时间推移而增加;n
t
'表示剩余迭代次数,该值随时间推移而减小。
[0126]
s101-5-2:将第一采样权重、第二采样权重和第三采样权重进行归一化,对应得到中心度指标的第一实际计算权重、代表性指标的第二实际计算权重和信息熵指标的第三实际计算权重。
[0127]
s101-5-3:根据中心度指标与第一实际计算权重的第一乘积、代表性指标与第二实际计算权重的第二乘积以及信息熵指标与第三实际计算权重的第三乘积之间的和,得到每个图节点的价值得分。
[0128]
在本实施方式中,在综合考虑图节点的中心度指标、代表性指标和信息熵指标的
基础上,对这三种指标进行时间敏感度的加权求和,进而得到图节点的最终得分,保证了所挖掘出的图节点数据兼备信息量和代表性。
[0129]
s101-6:将价值得分最高的n个图节点作为待标注数据子集。
[0130]
在本实施方式中,根据每个图节点的价值得分进行排序,从而挑选出得分最高的n个节点,作为本次迭代过程中所要挖掘的待标注数据子集。由于该待标注数据子集中的图节点价值量高、信息量多,因此,可以为gcn实现更好的训练效果提供有效的数据支撑,同时协助图结构数据领域内的分析人员进行下游的数据分析工作,避免了数据分析人员直接对海量大数据的全量分析操作,节省了计算和存储资源并降低了人力成本。
[0131]
在一个可行的实施方式中,图结构原始数据集包括已标注的初始训练数据集,方法还可以包括以下步骤:
[0132]
s102:获取已标注数据子集;其中,已标注数据子集是对待标注数据子集进行人工标注后得到的。
[0133]
s103:将已标注数据子集加入初始训练数据集,并将加入已标注数据子集后的初始训练数据集输入简化图卷积神经网络进行训练,得到更新后的简化图卷积神经网络。
[0134]
s104:将图结构原始数据集中除待标注数据子集外的未标注的图结构数据,输入更新后的简化图卷积神经网络中,以将输出得到的n个图节点再加入待标注数据子集。
[0135]
s105:重复以上s101-s104的迭代过程,直到待标注数据子集中的图节点的数量达到预设数量。
[0136]
需要说明的是,初始训练集用于训练得到简化图卷积神经网络,该初始训练集由少量的经过人工标注的图节点数据构成。
[0137]
在本实施方式中,在训练得到简化图卷积神经网络之后,可以将初始训练集加入图结构原始数据集中,以便简化图卷积神经网络在第一次迭代过程中挖掘出未标注的高质量的图节点数据。而在挖掘出n个图节点之后,将这n个图节点进行人工标注后再加入到初始训练数据集中,对简化图卷积神经网络进行第二轮的训练,并利用更新后的简化图卷积神经网络进行第二次的迭代挖掘,从图结构原始数据集中除待标注数据子集外的未标注的图结构数据中继续挖掘出n个高质量的图节点,并将这n个高质量的图节点加入待标注数据子集中,直到经过预设的迭代次数,待标注数据子集中的图节点的数量达到预设数量后,停止迭代。
[0138]
示例性的,在一个数据挖掘任务中需要在一个包含30000个图节点的图结构原始数据集(该图结构原始数据集中包含有由5个已标注的图节点数据组成的初始训练数据集)中挖掘出100个高质量的图节点子集,即最终得到由100个高质量的未标注图节点组成的待标注数据子集。首先利用由5个已标注的图节点数据组成的初始训练数据集训练得到简化图卷积神经网络。在简化图卷积神经网络第一次迭代过程中,输出价值得分最高的10个未标注图节点作为待标注数据子集(此时待标注数据子集中的图节点数据的数量为10个);将10个未标注图节点进行人工标注后,加入初始训练数据集,再利用由这15个已标注的图节点数据组成的训练集对简化图卷积神经网络进行进一步训练,得到更新后的简化图卷积神经网络;再利用更新后的简化图卷积神经网络,对剩余的29985个未标注图节点进行数据挖掘,再次得到10个价值得分最高的未标注的图节点,并将其加入待标注数据子集中(此时待标注数据子集中的图节点数据的数量为20个)。如此经过十次迭代,待标注数据子集中的图
节点数据的数量将达到所需的100个。
[0139]
需要说明的是,可以结合实际情况,如所要达到的精度要求、人工标注的成本要求以及所需的高质量的图节点的数量要求对n的取值进行设置,本实施方式不对n的取值做出任何限制。
[0140]
在本实施方式中,即使在初始训练集的样本有限的情况下,随着迭代次数的增加,简化图卷积神经网络的模型性能可以不断得到提高,使得在人工标注成本有限的情况下,也能够快速高效的在大规模海量图结构数据中挑选出价值量高、信息量多的待标注数据子集。
[0141]
在一个可行的实施方式中,在整个主动学习迭代结束的时候,需要对本次主动学习迭代过程所得到的所有图节点数据集,即待标注数据子集进行有效性的验证,因此,在s105之后,继续参照图3,方法还可以包括以下步骤:
[0142]
s106:获取目标已标注数据集;其中,目标已标注数据集是由待标注数据子集经过人工标注后得到的。
[0143]
s107:将目标已标注数据集输入初始图卷积神经网络进行训练,得到目标图卷积神经网络。
[0144]
s108:通过预设测试数据集对目标图卷积神经网络对进行性能评估,以得到准确率指标、宏平均f1指标和微平均f1指标。
[0145]
s109:在准确率指标、宏平均f1指标和微平均f1指标均满足对应的指标要求的情况下,确定待标注数据子集有效。
[0146]
需要说明的是,相较于简化图卷积神经网络,目标图卷积神经网络是结构更为复杂的图卷积神经网络。通过将由待标注数据子集经过人工标注后得到的目标已标注数据集训练得到该目标图卷积神经网络,再通过该目标图卷积神经网络对预设测试数据集进行性能评估,进而可以根据性能评估得到的各项指标数据判断待标注数据子集是否有效。也就是说,若目标图卷积神经网络能成功识别预设测试数据集,则说明由简化图卷积神经网络所挖掘出得到的待标注数据子集中的图节点数据正是所需的价值量高、信息量多的图节点数据。
[0147]
在本实施方式中,通过采用准确率指标(accuracy)、宏平均f1指标(macrof1)和微平均f1指标f1(microf1),作为衡量目标图卷积神经网络的性能的指标,能够对图节点分类任务下的模型性能进行全面有效的评估,进而准确判断所挖掘出的数据子集的有效性。
[0148]
在一个可行的实施方式中,可以将本技术实施例中的面向图数据的挖掘方法运用到社交网络分析领域中。在社交网络分析领域中,社交数据分析人员需要在海量社交用户所构成的关系网中快速挖掘出最具备影响力的部分用户集,以供后续对这些部分用户进行年龄、职业等在社交影响力方面因素的分析。在这样的需求背景之下,社交数据分析人员将社交关系网中的特征数据矩阵、度矩阵、邻接矩阵以及所要挖掘的目标用户集的总数(即标注成本)作为输入,期望获得一个社交用户子集作为输出,该子集包含的用户在整张关系网中能够具备很好的代表性以及信息量,以供社交分析人员做进一步的社交分析任务。
[0149]
在本实施方式中,社交用户子集的挖掘具体过程,可参照图3,首先输入社交网络数据;再通过简化图卷积神经网络对社交用户近邻特征进行特征融合;随后进行社交用户节点信息熵指标的计算、社交用户节点代表性指标的计算和社交用户节点中心度指标的计
算;再基于贝塔分布,进行时间敏感性系数的采样,对三个指标进行加权求和,得到社交用户的价值得分;筛选出价值得分最高的n个社交用户,作为社交用户子集;进行迭代挖掘,并将每次挖掘得到的n个社交用户再次加入到该社交用户子集,直到社交用户子集中的用户数量达到预设数量;最后,再对整个主动学习迭代过程所得到的社交用户子集中所有社交用户节点数据进行有效性的验证,并将通过验证的社交用户子集作为最终所要挖掘的社交用户数据进行输出。
[0150]
本实施方式需要说明的是,社交用户节点中心度指标衡量的是当前社交用户节点在整张关系网之中的重要程度以及对关系网中其余用户节点的影响度程度,即中心度指标值越大,代表当前用户节点对于关系网中的其余用户的影响力越大,亦该用户在整个社交关系网中的重要程度越高;社交用户节点代表性指标代表的是当前用户是否在其所属的聚类簇之中具备代表性,代表性得分越大,表明当前用户更能够代表其自身所属的特定用户类别,反之代表性得分越小,表明当前用户节点代表其所属特定类别的能力越差;社交用户节点信息熵指标衡量的是简化图卷积神经网络对于此用户节点做分类任务的难易程度,社交用户节点信息熵指标得分越高,表明当前的用户节点对于简化图卷积神经网络而言分类的难度越大,其包含的信息量就越丰富。
[0151]
在本实施方式中,采用的简化图卷积神经网络代替复杂的目标图卷积神经网络进行数据挖掘,可以实现较大的速度提升,可以更加快速的完成对社交用户子集的挖掘工作,并且由于在挖掘过程中采用了三种计算指标进行挖掘(即社交用户节点信息熵指标、社交用户节点代表性指标和社交用户节点中心度指标),所以挖掘的过程能保证所挖掘出的社交用户子集具备很好的代表性以及信息量,供社交分析人员做进一步的社交分析任务。
[0152]
第二方面,基于相同发明构思,参照图4,示出了本技术实施例提供的面向图数据的挖掘装置400,面向图数据的挖掘装置400可以包括:
[0153]
数据挖掘模块401,用于将图结构原始数据集输入简化图卷积神经网络,以输出待标注数据子集;
[0154]
其中,参照图5,数据挖掘模块401具体可以包括:
[0155]
预处理子模块4011,用于对图结构原始数据集进行预处理,得到特征融合后的图结构数据;
[0156]
中心度计算子模块4012,用于计算图结构数据中每个图节点的中心度指标;
[0157]
代表性计算子模块4013,用于对图结构数据中的所有图节点进行聚类,得到多个聚类簇,并计算每个图节点在所属聚类簇中的代表性指标;
[0158]
信息熵计算子模块4014,用于计算图结构数据中每个图节点的信息熵指标;
[0159]
价值得分计算子模块4015,用于根据中心度指标、代表性指标和信息熵指标,得到每个图节点的价值得分;
[0160]
筛选子模块4016,用于将价值得分最高的n个图节点作为待标注数据子集。
[0161]
在一个可行的实施方式中,预处理子模块4011包括:
[0162]
矩阵获取子模块,用于对图结构原始数据集进行预处理,得到图结构数据的特征矩阵、度矩阵和邻接矩阵;
[0163]
特征融合子模块,用于针对图结构数据中的任一图节点,根据该图节点的k跳近邻内的所有图节点的特征矩阵、度矩阵和邻接矩阵进行特征融合,得到特征融合后的图结构
数据。
[0164]
在一个可行的实施方式中,中心度计算子模块4012具体用于根据以下公式,计算图结构数据中每个图节点的中心度指标:
[0165][0166]
其中:vi表示图结构数据中的第i个图节点;表示vi节点的中心度指标;vj表示图结构数据中的第j个图节点;表示第j个图节点的中心度指标;∑
kajk
表示第j个图节点的度;a
ij
表示0或1,当vi图节点和vj图节点无连接关系时,a
ij
取0,当vi图节点和vj图节点有连接关系时,a
ij
取1;ρ为坍塌因子;n为图结构数据中所有图节点的个数。
[0167]
在一个可行的实施方式中,代表性计算子模块4013具体用于根据以下公式,计算每个图节点在所属聚类簇中的代表性指标:
[0168][0169]
其中:vi表示图结构数据中的第i个图节点;表示vi图节点的在所属聚类簇中的代表性指标;表示的是vi图节点所属聚类簇中的中心节点;是在vi图节点在所属聚类簇中的向量表示;表示和之间的欧氏距离。
[0170]
在一个可行的实施方式中,价值得分计算子模块4015包括:
[0171]
时间采样子模块,用于基于贝塔分布,进行时间敏感性系数的采样,得到中心度指标的第一采样权重、代表性指标的第二采样权重和信息熵指标的第三采样权重;其中,中心度指标的第一采样权重随时间推移而减小,代表性指标的第二采样权重和信息熵指标的第三采样权重随随时间推移而增大;
[0172]
归一化子模块,用于将第一采样权重、第二采样权重和第三采样权重进行归一化,对应得到中心度指标的第一实际计算权重、代表性指标的第二实际计算权重和信息熵指标的第三实际计算权重;
[0173]
价值得分计算子模块4015,用于根据中心度指标与第一实际计算权重的第一乘积、代表性指标与第二实际计算权重的第二乘积以及信息熵指标与第三实际计算权重的第三乘积之间的和,得到每个图节点的价值得分。
[0174]
在一个可行的实施方式中,面向图数据的挖掘装置400还包括:
[0175]
第一获取模块,用于获取已标注数据子集;其中,已标注数据子集是对待标注数据子集进行人工标注后得到的;
[0176]
迭代更新模块,用于将已标注数据子集加入初始训练数据集,并将加入已标注数据子集后的初始训练数据集输入简化图卷积神经网络进行训练,得到更新后的简化图卷积神经网络;
[0177]
迭代挖掘模块,用于将图结构原始数据集中除待标注数据子集外的未标注的图结构数据,输入更新后的简化图卷积神经网络中,以将输出得到的n个图节点再加入待标注数
据子集;
[0178]
迭代输出模块,用于重复以上迭代过程,直到待标注数据子集中的图节点的数量达到预设数量。
[0179]
在一个可行的实施方式中,面向图数据的挖掘装置400还包括:
[0180]
第二获取模块,用于获取目标已标注数据集;其中,目标已标注数据集是由待标注数据子集经过人工标注后得到的;
[0181]
训练模块,用于将目标已标注数据集输入初始图卷积神经网络进行训练,得到目标图卷积神经网络;
[0182]
性能指标获取模块,用于通过预设测试数据集对目标图卷积神经网络对进行性能评估,以得到准确率指标、宏平均f1指标和微平均f1指标;
[0183]
确定模块,用于在准确率指标、宏平均f1指标和微平均f1指标均满足对应的指标要求的情况下,确定待标注数据子集有效。
[0184]
需要说明的是,本技术实施例的面向图数据的挖掘装置400的具体实施方式参照前述本技术实施例第一方面提出的面向图数据的挖掘方法的具体实施方式,在此不再赘述。
[0185]
第三方面,基于相同发明构思,本技术实施例提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的机器可执行指令,处理器用于执行机器可执行指令,以实现本技术第一方面的面向图数据的挖掘方法。
[0186]
需要说明的是,本技术实施例的电子设备的具体实施方式参照前述本技术实施例第一方面提出的面向图数据的挖掘方法的具体实施方式,在此不再赘述。
[0187]
第四方面,基于相同发明构思,本技术实施例提供了一种可读存储介质,可读存储介质内存储有机器可执行指令,机器可执行指令被处理器执行时实现本技术第一方面提出的面向图数据的挖掘方法。
[0188]
需要说明的是,本技术实施例的可读存储介质的具体实施方式参照前述本技术实施例第一方面提出的面向图数据的挖掘方法的具体实施方式,在此不再赘述。
[0189]
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0190]
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0191]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包
括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0192]
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0193]
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
[0194]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0195]
以上对本发明所提供的一种面向图数据的挖掘方法、装置、电子设备及可读存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1