图数据分析速度的评估方法和装置

文档序号:27139343发布日期:2021-10-30 00:13阅读:234来源:国知局
图数据分析速度的评估方法和装置

1.本技术涉及图数据处理技术领域,尤其涉及一种图数据分析速度的评估方法和装置。


背景技术:

2.随着信息技术的飞速发展,人们迈入了海量信息时代,产生了来自不同场景下的信号数据,如复杂环境下传感器采集到的数据、app记录的网络社交数据、移动和交通模式数据、购物的喜好数据等,这些数据往往具有高维度、离散性、不规则等拓扑结构特点。对这些信号数据的分析和处理不但要考虑数据值本身,而且要考虑数据之间的复杂结构关系与精细化信息。传统的信号处理方法由于未能充分考虑信号数据之间的拓扑特性,因而在处理具有上述特点的数据时有一定的局限性。因此,如何选择合适的数据信号表征方式,从而可以通过利用数据信号本身所具有的拓扑特性,提出新颖的信号数据分析和处理方法是现代信号处理领域的重要研究方向之一。
3.图可以用来描述这种信号的几何形状和拓扑结构,因此成为信号表示的一种重要形式。近年来,一些基本的信号处理方法已经扩展到图数据,产生了基于图的变换方法,例如gft(graph fourier transform,图傅立叶变换)、sgfrft(spectral graph fractional fourier transform,谱图分数阶傅里叶变换)、wgft(windowed graph fourier transform,加窗图傅里叶变换)等。这些变换在图数据的处理和分析中起着至关重要的作用,已应用于社交网络、传感器网络,并扩展到解决出现在机器学习和深度神经网络中的任务。用图数据处理的手段,科学家能够揭示网络中的高阶结构,提取数据中包括形状特征在内的有效信息,其对数据高阶信息的提取和推断是其他传统数据方法难以企及的。在新兴的图机器学习领域,图数据处理可以实现图聚类和图分类等机器学习的任务。gsp(graph signal processing,图数据处理)主要包括两个基本框架:(i)起源自代数信号处理并使用图邻接矩阵作为其基本构造块;(ii)起源自谱图理论并使用图拉普拉斯矩阵作为其基本构造块。第二种构造框架研究图拉普拉斯矩阵的特征值和特征向量,其特征基用于定义图数据的频谱。与无法捕捉时频性质的经典傅立叶变换类似,gft也无法捕捉点频信息。wgft的提出很好地解决了上述问题,它可以在点频平面表示信号。因此,wgft成为一种可以用于提取基于加权图的信号中的信息的有用工具,并且可以说明隐藏在顶点域中的数据的结构特性。
4.但是,在提取图数据所包含的信息时,现有变换方法不能够有效提取信号的局部特征,同时计算复杂度高,耗时长,不利于进一步的分析与处理。应用wgft处理图数据时通常会遇到以下问题:
5.i)复杂度高:高复杂度的特征使得wgft无法应用到大型真实世界网络。在最糟糕的情形,空间复杂度随着维数是指数增长的,处理这一类网络数据需要耗费较多时间。
6.ii)数据规模大:大规模真实世界网络的顶点数量常常达到百万甚至更高。斯坦福网络分析工程平台收集了五十多个大型真实世界网络,最大的网络是微软即时通讯网络,
其顶点数达到两亿,边数达到十亿,这个规模显然远超现在图数据处理的范畴。
7.因此,在图数据的顶点数量超过千级别的时候,亟需一种快速的图数据处理算法来解决上述复杂度高、耗时长和数据规模大的问题,同时对该图数据处理算法的速度进行有效评估。


技术实现要素:

8.本技术的目的旨在至少在一定程度上解决上述的技术问题之一。
9.为此,本技术的第一个目的在于提出一种图数据分析速度的评估方法,能够有效地评估出图数据的分析速度。
10.本技术的第二个目的在于提出一种图数据分析速度的评估装置。
11.本技术的第三个目的在于提出一种计算机设备。
12.本技术的第四个目的在于提出一种计算机可读存储介质。
13.为了实现上述目的,本技术第一方面实施例中提出一种图数据分析速度的评估方法,包括:
14.获取图数据,所述图数据对应的图具有n个顶点;
15.计算所述图数据的矩阵,所述矩阵为n*n;
16.根据所述矩阵计算所述图数据的图分数阶傅里叶变换域;
17.对所述图数据的图分数阶傅里叶变换域进行离散化,并获取离散化后的图分数阶傅里叶变换域的计算复杂度。
18.可选的,计算所述图数据的矩阵,包括:
19.根据公式一计算所述图数据的矩阵,
20.公式一:
21.其中,n为图的顶点数,和为图分数阶拉普拉斯算子的特征向量。
22.可选的,所述图数据的矩阵用公式二表达,
23.公式二:
24.其中,表示hadamard乘法,
·
表示标准矩阵乘法,f为所述图数据的矩阵,κ为图分数基,κ
h
为图分数基的复共轭。
25.可选的,根据所述矩阵计算所述图数据的图分数阶傅里叶变换域,包括:
26.根据公式三计算所述图数据的图分数阶傅里叶变换域,
27.公式三:
28.其中,θ为图分数阶傅里叶变换域,n
α
为n的α次方,ψ
α
为窗函数的谱图分数阶傅里叶变换,*为共轭。
29.可选的,窗函数的谱图分数阶傅里叶变换用公式四表达,
30.公式四:
31.其中,ψ
α
为窗函数的谱图分数阶傅里叶变换,r为图分数阶拉普拉斯算子的谱。
32.可选的,对所述图数据的图分数阶傅里叶变换域进行离散化,包括:
33.对所述图数据的图分数阶傅里叶变换域应用逆谱图分数阶傅里叶变换,用公式五表达,
34.公式五:w
ψ,α
f=κ
·
θ,
35.其中,w
ψ,α
f表示所述图数据的图分数阶傅里叶变换域应用逆谱图分数阶傅里叶变换,κ为图分数基,θ为图分数阶傅里叶变换域。
36.本技术实施例的图数据分析速度的评估方法,通过对图数据的图分数阶傅里叶变换域进行离散化,并获取离散化后的图分数阶傅里叶变换域的计算复杂度,能够有效降低算法计算复杂度,并能够有效地评估出图数据的分析速度。
37.为了实现上述目的,本技术第二方面实施例中提出了一种图数据分析速度的评估装置,包括:
38.第一获取模块,用于获取图数据,所述图数据对应的图具有n个顶点;
39.第一计算模块,用于计算所述图数据的矩阵,所述矩阵为n*n;
40.第二计算模块,用于根据所述矩阵计算所述图数据的图分数阶傅里叶变换域;
41.第二获取模块,用于对所述图数据的图分数阶傅里叶变换域进行离散化,并获取离散化后的图分数阶傅里叶变换域的计算复杂度。
42.可选的,所述第一计算模块,用于:
43.根据公式一计算所述图数据的矩阵,
44.公式一:
45.其中,n为图的顶点数,和为图分数阶拉普拉斯算子的特征向量。
46.可选的,所述图数据的矩阵用公式二表达,
47.公式二:
48.其中,ο表示hadamard乘法,
·
表示标准矩阵乘法,f为所述图数据的矩阵,κ为图分数基,κ
h
为图分数基的复共轭。
49.可选的,所述第二计算模块,用于:
50.根据公式三计算所述图数据的图分数阶傅里叶变换域,
51.公式三:
52.其中,θ为图分数阶傅里叶变换域,n
α
为n的α次方,ψ
α
为窗函数的谱图分数阶傅里叶变换,*为共轭。
53.可选的,窗函数的谱图分数阶傅里叶变换用公式四表达,
54.公式四:
55.其中,ψ
α
为窗函数的谱图分数阶傅里叶变换,r为图分数阶拉普拉斯算子的谱。
56.可选的,所述第二获取模块,用于:
57.对所述图数据的图分数阶傅里叶变换域应用逆谱图分数阶傅里叶变换,用公式五表达,
58.公式五:w
ψ,α
f=κ
·
θ,
59.其中,w
ψ,α
f表示所述图数据的图分数阶傅里叶变换域应用逆谱图分数阶傅里叶变换,κ为图分数基,θ为图分数阶傅里叶变换域。
60.本技术实施例的图数据分析速度的评估装置,通过对图数据的图分数阶傅里叶变换域进行离散化,并获取离散化后的图分数阶傅里叶变换域的计算复杂度,能够有效降低算法计算复杂度,并能够有效地评估出图数据的分析速度。
61.为实现上述目的,本技术第三方面实施例提出一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如第一方面实施例所述的图数据分析速度的评估方法。
62.为了实现上述目的,本技术第四方面实施例还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如第一方面实施例所述的图数据分析速度的评估方法。
63.本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。
附图说明
64.构成本技术的一部分的说明书附图用来提供对本技术的进一步理解,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
65.图1是本技术一个实施例的图数据分析速度的评估方法的流程图;
66.图2是本技术一个实施例的顶点时间对数图;
67.图3是本技术一个实施例的图数据分析速度的评估装置的结构示意图。
具体实施方式
68.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
69.以下结合具体实施例对本技术作进一步详细描述,这些实施例不能理解为限制本技术所要求保护的范围。
70.为了获得图数据更详细的结构性质,分数阶的概念被引入了gsp。分数阶图数据处理是一个新兴领域,它能够描述信号的局部特征。图分数傅里叶变换域是分数傅里叶变换域与图谱域的结合,图分数阶傅里叶变换在揭示图形信号的局部特征方面表现出优势。为了在点频域分析图数据,本技术提出了一种新的变换,并为这种新变换提出了一种快速算
法及其对应的分析速度评估方法。该快速算法显著降低了变换的计算复杂度,提高了变换的鲁棒性。本技术在信号处理过程中减少了计算能耗,进一步促进了信息领域发展。
71.在详细描述本技术的技术方案之前,先简单介绍一下当前的图数据分析算法。
72.首先,针对一个无向信号图其中,表示图中的顶点,表示顶点数量,ε表示图的边的集合,表示图g的加权邻接矩阵。
73.定义在图g上的信号f可以看作一个映射:f:其中r为实数集。
74.f也可以写作实值向量:
75.f=[f(0),f(1),

,f(n

1)]
t
∈r
n
,其中,t表示转置。
[0076]
图g的拉普拉斯算子定义为其中d表示g的度数矩阵、表示加权邻接矩阵。假定相关的拉普拉斯特征值λ
i
有如下的表示及排列方式:
[0077]
0=λ0<λ
t
≤λ2≤

≤λ
n
‑1=λ
max
[0078]
那么可以表示为其中,λ=diag([λ0

λ1,

,λ
n
‑1]),h表示hermitian转置,χ表示拉普拉斯矩阵的特征向量矩阵,χ=[χ0,χ1,

,χ
n
‑1]。
[0079]
图分数阶拉普拉斯算子的定义为
[0080]
其中:κ=[κ0,κ1,

,κ
n
‑1]=χ
α
,r=diag(r0,r1,

,r
n
‑1)=λα,
[0081]
定义一个信号f,一个窗函数ψ∈l2(r),则f的谱图分数阶傅里叶变换(sgfrft)定义为:
[0082]
其中表示f的谱图分数阶傅里叶变换
[0083]
同时,其逆变换定义为:
[0084][0085]
f的加窗图分数阶傅里叶变换(wgfrft)可以表示为:
[0086][0087]
其中,(w
ψ,α
f)(i,l)表示f的加窗图分数阶傅里叶变换,f(d)表示图数据,n
α
是n的α次方,使用的计算方法为matlab里面的矩阵幂计算,n表示图的顶点数量。是窗函数ψ取共轭之后再做谱图分数阶傅里叶变换,后面的κ
m
、等都是图分数阶拉普拉斯算子的特征向量。
[0088]
从加窗图分数阶傅里叶变换的定义不难看出,其需要很高的计算复杂度。首先对于具有n个顶点的图,如果要计算(w
ψ,a
f)(i,l),需要两重复杂度为o(n)的求和,所以需要o(n2)次操作。而(w
ψ,α
f)(i,l)中有n2个元素,最终完整的计算复杂度为o(n4),如此高的计算复杂度在应用中是不可取的,因此本技术提出的基于加窗图分数阶傅里叶变换的快速算法,可以有效缩短计算时间。本技术提出的快速算法,通过改变运算次序,能在理论上将算
法的计算复杂度降低。通过使用矩阵的存储格式和矩阵运算方法,能在matlab中进一步加速算法的速度,最大程度地优化原本的计算。
[0089]
下面参考附图描述本技术实施例的图数据分析速度的评估方法和装置。
[0090]
图1是本技术一个实施例的图数据分析速度的评估方法的流程图。
[0091]
如图1所示,该方法包括以下步骤:
[0092]
s1,获取图数据。
[0093]
其中,所述图数据对应的图具有n个顶点。
[0094]
s2,计算所述图数据的矩阵。
[0095]
其中,所述矩阵为n*n的矩阵。
[0096]
具体地,可根据公式一计算所述图数据的矩阵,
[0097]
公式一:
[0098]
其中,n为图的顶点数,和为图分数阶拉普拉斯算子的特征向量。
[0099]
所述图数据的矩阵用公式二表达,
[0100]
公式二:
[0101]
其中,ο表示hadamard乘法,
·
表示标准矩阵乘法,f为所述图数据的矩阵,κ为图分数基,κ
h
为图分数基的复共轭。
[0102]
s3,根据所述矩阵计算所述图数据的图分数阶傅里叶变换域。
[0103]
具体地,可根据公式三计算所述图数据的图分数阶傅里叶变换域,
[0104]
公式三:
[0105]
其中,θ为图分数阶傅里叶变换域,n
α
为n的α次方,ψ
α
为窗函数的谱图分数阶傅里叶变换,*为共轭。
[0106]
其中,窗函数的谱图分数阶傅里叶变换用公式四表达,
[0107]
公式四:
[0108]
其中,ψ
α
为窗函数的谱图分数阶傅里叶变换,r为图分数阶拉普拉斯算子的谱。
[0109]
s4,对所述图数据的图分数阶傅里叶变换域进行离散化,并获取离散化后的图分数阶傅里叶变换域的计算复杂度。
[0110]
具体地,可对所述图数据的图分数阶傅里叶变换域应用逆谱图分数阶傅里叶变换,用公式五表达,
[0111]
公式五:(w
ψ,a
f)=k
·
θ,
[0112]
其中,w
ψ,α
f表示所述图数据的图分数阶傅里叶变换域应用逆谱图分数阶傅里叶变换,κ为图分数基,θ为图分数阶傅里叶变换域。
[0113]
关于计算复杂度:
[0114]
步骤s2中利用公式一计算所述图数据的矩阵时,由于矩阵中每个元素的计算
都需要一次复杂度为o(n)的求和,而矩阵有n2个元素,所以步骤s2时的计算复杂度是o(n3)。
[0115]
步骤s3的计算复杂度是矩阵乘法的复杂度。举例说明,对于矩阵a(n*m),b(m*n),a(n*m)表示a是n行乘m列的矩阵。如果a*b,那么复杂度为o(n*m*n)。所以步骤s3的计算复杂度相当于两个n
×
n矩阵相乘,因此计算复杂度为o(n3)。
[0116]
步骤s4的计算复杂度与步骤s3相同,同样为矩阵乘积的复杂度,也是o(n3)。
[0117]
通过计算得出本技术采用的算法的计算复杂度为o(n3),而现有的计算复杂度为o(n4)。n越大,本技术采用的算法的改进体现越明显。同时,在每个步骤中,输入输出结果均为矩阵,计算方式均为矩阵运算,利用matlab对矩阵存储和运算的优化,最大限度地加快了算法在实际应用中的速度。
[0118]
为了更清楚地展示快速算法的时间优势,可通过绘制顶点时间对数图明显看出。设置分数阶α=0.9。在瑞士卷图上采样20

320点并使用信号来绘制顶点时间对数图。其中,x轴表示顶点数的对数,y轴表示计算时间的对数(单位:秒)。是瑞士卷图swiss roll图分数阶拉普拉斯算子的特征向量,表示取实部。如图2所示,图中多个圆点形成的拟合斜率为4的线段,与现有算法的计算复杂度一致;多个五角星形成的拟合斜率为3的线段,与本技术的计算复杂度一致。可以看出,本技术的快速算法计算复杂度低,效率更高,所需时间更少,鲁棒性高。
[0119]
本技术实施例的图数据分析速度的评估方法,通过对图数据的图分数阶傅里叶变换域进行离散化,并获取离散化后的图分数阶傅里叶变换域的计算复杂度,能够有效降低算法计算复杂度,并能够有效地评估出图数据的分析速度。
[0120]
为了实现上述实施例,本技术还提出了一种图数据分析速度的评估装置。
[0121]
图3是本技术一个实施例的图数据分析速度的评估装置的结构示意图。
[0122]
如图3所示,该装置包括第一获取模块310、第一计算模块320、第二计算模块330和第二获取模块340。
[0123]
第一获取模块310,用于获取图数据,所述图数据对应的图具有n个顶点。
[0124]
第一计算模块320,用于计算所述图数据的矩阵,所述矩阵为n*n。
[0125]
所述第一计算模块320,用于:
[0126]
根据公式一计算所述图数据的矩阵,
[0127]
公式一:
[0128]
其中,n为图的顶点数,和为图分数阶拉普拉斯算子的特征向量。
[0129]
所述图数据的矩阵用公式二表达,
[0130]
公式二:
[0131]
其中,ο表示hadamard乘法,
·
表示标准矩阵乘法,f为所述图数据的矩阵,κ为图分数基,κ
h
为图分数基的复共轭。
[0132]
第二计算模块330,用于根据所述矩阵计算所述图数据的图分数阶傅里叶变换域。
[0133]
所述第二计算模块330,用于:
[0134]
根据公式三计算所述图数据的图分数阶傅里叶变换域,
[0135]
公式三:
[0136]
其中,θ为图分数阶傅里叶变换域,n
α
为n的α次方,ψ
α
为窗函数的谱图分数阶傅里叶变换,*为共轭。
[0137]
窗函数的谱图分数阶傅里叶变换用公式四表达,
[0138]
公式四:
[0139]
其中,ψ
α
为窗函数的谱图分数阶傅里叶变换,r为图分数阶拉普拉斯算子的谱。
[0140]
第二获取模块340,用于对所述图数据的图分数阶傅里叶变换域进行离散化,并获取离散化后的图分数阶傅里叶变换域的计算复杂度。
[0141]
所述第二获取模块340,用于:
[0142]
对所述图数据的图分数阶傅里叶变换域应用逆谱图分数阶傅里叶变换,用公式五表达,
[0143]
公式五:w
ψ,α
f=κ
·
θ,
[0144]
其中,w
ψ,α
f表示所述图数据的图分数阶傅里叶变换域应用逆谱图分数阶傅里叶变换,κ为图分数基,θ为图分数阶傅里叶变换域。
[0145]
应当理解的是,本实施例的图数据分析速度的评估装置与上一实施例的图数据分析速度的评估方法描述一致,此处不再赘述。
[0146]
本技术实施例的图数据分析速度的评估装置,通过对图数据的图分数阶傅里叶变换域进行离散化,并获取离散化后的图分数阶傅里叶变换域的计算复杂度,能够有效地评估出图数据的分析速度。
[0147]
为了实现上述实施例,本技术还提出了一种计算机设备。
[0148]
该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现如第一方面实施例的图数据分析速度的评估方法。
[0149]
为了实现上述实施例,本技术还提出了一种非临时性计算机可读存储介质。
[0150]
该非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如第一方面实施例的图数据分析速度的评估方法。
[0151]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0152]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执
行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
[0153]
应当理解,本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0154]
需要说明的是,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1