一种大区域滑坡危险性评价的并行支持向量机分类方法与流程

文档序号:26644152发布日期:2021-09-15 01:33阅读:188来源:国知局
一种大区域滑坡危险性评价的并行支持向量机分类方法与流程

1.本发明涉及大数据挖掘和gis领域,尤其涉及一种大区域滑坡危险性评价的并行支持向量机分类方法。


背景技术:

2.滑坡是世界上最具破坏性的常见地质灾害之一,它常常摧毁建筑,堵塞交通,造成人员伤亡,对人类生命安全、环境、资源和财产构成很大的威胁。滑坡的发生是由地质、地貌及各种诱发因素造成的,其中降雨和人类工程活动是滑坡的两大诱发因素。随着人类工程活动规模和范围日益扩大,当雨季来临,降雨和人类工程活动诱发了滑坡在许多点上同时或相续发生,其危害足以严重影响当地社会与经济发展,便称为区域滑坡地质灾害。而区域滑坡危险性评价是在一定时期内,给定区域在一定条件下发生滑坡灾害的可能性,它是滑坡风险评价的重要基础,也是防治工程评价的核心。
3.随着gis技术及人工智能的发展,许多研究者采用这些技术开展了大区域滑坡预测研究。2006和2007年,nadim等人和hong等人采用加权线性组合的方法进行全球危险性评价;2010年,cepeda等人也使用加权线性组合的方法对印度尼西亚地区进行危险性评价;2013年,liu等采用9个滑坡影响因子(坡度、坡向、曲率等)输入到神经网络算法中,进行中国地区滑坡危险性评价;2014年,gunther等人考虑坡度、地形、地质和土地覆盖为滑坡影响因子,采用层次分析法进行欧洲地区的危险性评价;kirschbaum和stanley等人分别于2016和2017年使用了不同的滑坡影响因子预测了中美洲和加勒比地区滑坡发生的可能性并描绘其危险性评价图。
4.综上所述,大区域滑坡危险性评价技术已经取得了许多成果,但是这些方法的主要问题是:提取地质、地貌斜坡单元时,采用1
×
1km2的分辨率提取数据,这显然不符合斜坡单元的地质、地貌特征,评价精确度会不高;如果采用高分辨率提取数据会导致产生数千万甚至更多的栅格单元数据,单一服务器的计算性能无法满足需求的响应速度,因此如何设计有效的方法既能提高大区域滑坡危险性评价的预测精度,同时其计算性能满足实际应用需求具有重大意义。
5.支持向量机(support vector machine,svm)是一种基于统计学习理论和风险最小化理论的分类算法,具有良好的泛化能力,能够很好地克服维数灾难、非线性以及过拟合等问题,被广泛应用于面部识别、故障分类、文本分类、情感分析、医学诊断等各个领域。但是它的计算复杂度会随着数据量的增长呈指数级增加,且训练速度以及各种算法性能也会严重降低。因此,设计适用于处理大数据的svm方法才能适用于大区域滑坡危险性评价需求。


技术实现要素:

6.本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种大区域滑坡危险性评价的并行支持向量机分类方法。
7.为了实现本发明的上述目的,本发明提供了一种大区域滑坡危险性评价的并行支持向量机分类方法,包括以下步骤:
8.s1,根据样本的分布情况,建立分割平面,迅速筛选无用的数据,获取删减冗余数据后的样本集;
9.s2,利用iw

bnaw算法对svm进行参数寻优,获取局部最优参数对和支持向量子集;
10.s3,参数寻优结束后,通过基于时间反馈tfb的任务调度策略,均衡reduce节点负载,利用reduce合并各个节点上的局部最优参数,求出全局最优参数对,获得全局并行svm模型;
11.s4,将研究区栅格单元输入全局并行svm模型中,进行滑坡危险性评价。
12.进一步地,所述s1包括:
13.分割平面γ计算如下:
14.γ
i
=ω
t
o
i i=

1,1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
15.其中,数据点的fisher投影方向为ω,.t表示转置;o
‑1、o1分别表示负类数据集的簇中心和正类数据集的簇中心,γ
‑1、γ1分别表示过负类簇中心作的分割平面和过正类簇中心作的分割平面;
16.平移因子η的计算如下:
[0017][0018]
其中,r为分割平面γ间的距离,γ为数据簇的密度比,τ表示属于(0,0.5)的常数。
[0019]
进一步地,所述s2包括:
[0020]
s2

1,设置参数:设置鲸鱼种群规模n,最大迭代次数t
max
,最小、最大惯性权重w
min
、w
max
,并行svm的惩罚参数c的取值范围[c
min
,c
max
],rbf参数σ的取值范围[σ
min

max
];
[0021]
s2

2,初始化鲸鱼种群:每头鲸鱼代表并行svm的参数对(c,σ),在参数的取值范围内随机初始化鲸鱼;
[0022]
s2

3,计算鲸鱼的适应度:每头鲸鱼位置的适应度值以并行svm当前分类结果的代价函数计算,其中,h(x
i
)为svm的预测值,y
i
为实际值,n表示处理的数据个数即鲸鱼种群规模;
[0023]
s2

4,划分种群等级:对适应度进行升序排序,将排序结果存储在f
it
集合中;根据排序结果,将种群划分为三个等级,分别为劣质种群、普通种群以及优质种群;
[0024]
s2

5,更新鲸鱼位置:计算自适应非线性收敛因子和计算自适应惯性权重w;
[0025]
s2

6,选择当前最优位置:获取更新后的鲸鱼种群位置后,比较其适应度值,适应度值最小的视为当前一代最优的位置,若最优位置发生变化,则新的最优位置取代旧的最优位置;
[0026]
s2

7,判断是否达到迭代终止条件:判断是否达到鲸鱼种群的最大迭代次数t
max
,若是,输出鲸鱼最优位置对应的<key,((c,σ),sv,fitness)>,获得并行svm的局部最优参数以及局部支持向量子集,否则,迭代次数加1,返回步骤s2

4继续循环迭代;其中key表示map节点处理过后的不同的关键值,(c,σ)表示每头鲸鱼代表并行svm的参数对,sv表示支持向量,fitness表示适应度值。
[0027]
进一步地,所述s2

4包括:
[0028]
第t代某鲸鱼的适应度为fit(t)
i
,令m=count(fit(t)
i
<fit(t)
avg0
),若第t代某鲸鱼的适应度值有fit(t)
min
<fit(t)
i
<fit(t)
avg1
,则认定该鲸鱼属于优质种群;若fit(t)
avg1
<fit(t)
i
<fit(t)
avg2
,认定该鲸鱼属于普通种群;若fit(t)
avg2
<fit(t)
i
<fit(t)
max
,认定该鲸鱼属于劣质种群;其中,i表示第i个鲸鱼,fit(t)
avg0
表示全体鲸鱼适应度的平均值,fit(t)
avg1
表示所有适应度小于fit(t)
avg0
的鲸鱼适应度的平均值,fit(t)
avg2
示所有适应度大于fit(t)
avg0
的鲸鱼适应度的平均值;n表示鲸鱼种群规模,m表示第t代鲸鱼的适应度小于平均适应度的个数,fit(t)
min
、fit(t)
max
分别为第t代种群的最小、最大适应度。
[0029]
进一步地,所述s2

5包括:
[0030]
改进后的鲸鱼位置的更新方程如下:
[0031][0032][0033][0034][0035]
其中,表示第t+1代的鲸鱼位置,ω为fisher投影方向,表示第t代鲸鱼的最佳位置,为扰动鲸鱼的位置更新中的系数向量,表示当前鲸鱼与猎物之间的距离,p表示鲸鱼狩猎方式的概率,表示鲸鱼的随机位置,e为自然基数,b表示对数螺旋形状函数,l表示[

1,1]之间的随机数,为自适应非线性收敛因子,r属于[0,1]之间的随机数。
[0036]
进一步地,所述自适应非线性收敛因子包括:
[0037][0038]
其中,为自适应非线性收敛因子,t代表种群当前迭代次数,t
max
表示最大迭代次数,b(α,β)表示贝塔分布。
[0039]
进一步地,所述计算自适应惯性权重w包括:
[0040]
自适应惯性权重以下式更新:
[0041]
优质种群位置更新的权重计算为:
[0042][0043]
普通种群位置更新的权重计算为:
[0044][0045]
劣质种群位置更新的权重计算为:
[0046][0047]
其中,第t代种群的最小最大适应度为fit(t)
min
、fit(t)
max
,w
min
和w
max
分别为设定的初始最小权重和最大权重,t
max
表示最大迭代次数,第t代某鲸鱼的适应度为fit(t)
i
,fit(t)
avg1
表示所有适应度小于fit(t)
avg0
的鲸鱼适应度的平均值,fit(t)
avg2
示所有适应度大于fit(t)
avg0
的鲸鱼适应度的平均值,fit(t)
avg0
表示全体鲸鱼适应度的平均值。
[0048]
进一步地,所述tfb策略,包括如下步骤:
[0049]
s

a,判断reduce节点负载情况:估算reduce完成任务所需时间rtime,对key按其rtime降序排序,以<key,rtime>形式保存至队列ktime中;
[0050]
s

b,处理大负载节点:取队首元素,若key的则认为处理该key的reduce节点负载过大;对大负载节点计算出要迁移数据量,把迁移数据量dm分配给处于队列尾端的小负载节点;
[0051]
s

c,更新rtime:小负载节点的rtime与处理迁移数据所需时间的和作为该节点更新后的rtime,大负载节点的rtime以rtime

rtime

μ*rtime
avg
,μ∈1,2,

作为更新后的rtime值;
[0052]
s

d,更新队列ktime:判断原来小负载节点更新之后的rtime是否满足rtime
avg

rtime

0,若是,将该节点从队尾删除;否则,将其节点信息重新插入队列中;
[0053]
和/或判断原来大负载节点更新之后的rtime是否满足rtime

rtime
avg
≤r_dt,若满足则认为该节点不再需要迁移数据量,将此节点在队列中删除;否则,继续计算dm,将数据迁移到下一个队尾节点,直到该大负载的rtime满足rtime

rtime
avg
≤r_dt,并将该节点信息从队列中删除;
[0054]
s

e,重复执行步骤s

b~s

d,直至队列中不再出现大于rtime
avg
的节点;然后调用reduce函数,合并各节点的局部最优<key,((c,σ),sv,fitness)>,获得全局并行svm模型;
[0055]
其中rtime为reduce完成任务所需时间,key表示map节点处理过后的不同的关键值,ktime为队列的名称,rtime
avg
表示reduce完成任务所需时间的平均值,μ表示mapreduce中并行的节点个数,dm为迁移数据量,

表示赋值,

表示趋近于;r_dt为节点的数据传输所用时间,(c,σ)表示每头鲸鱼代表并行svm的参数对,sv表示支持向量,fitness表示适应度值。
[0056]
进一步地,所述迁移数据量dm,包括:
[0057]
当rtime
i

rtime
avg
>rtime
avg
时,
[0058]
dm=(rtime
avg

rtime
j

r_dt
i
)*rv
j i≠j
ꢀꢀꢀꢀꢀ
(11)
[0059]
当rtime
i

rtime
avg
<rtime
avg

rtime
j
时,
[0060]
dm=(rtime
i

rtime
avg

r_dt
i
)*rv
j
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0061]
当rtime
i

rtime
avg
>rtime
avg

rtime
j
时,
[0062]
dm=(rtime
avg

rtime
j

r_dt
i
)*rv
j
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
[0063]
其中,rtime
avg
表示reduce完成任务所需时间的平均值,rtime
i
表示第i个节点reduce完成任务所需时间,rtime
j
表示第j个节点reduce完成任务所需时间,r_dt
i
为节点的
数据传输所用时间,rv
j
为节点执行任务的速度。
[0064]
进一步地,所述研究区栅格单元包括:
[0065]
采用arcgis软件对研究区进行栅格化,获取网格单元。
[0066]
综上所述,由于采用了上述技术方案,本发明的有益效果是:原理简单且易于实现,无论是在并行效率上还是预测精确度上都有显著的性能表现,因此可应用于大区域滑坡危险性评价,提高其评价预测精确度。
[0067]
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
[0068]
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0069]
图1是本发明beta分布函数示意图;
[0070]
图2是本发明算法在两个数据集上的加速比示意图;
[0071]
图3是本发明算法在两个数据集上的f

measure值示意图。
具体实施方式
[0072]
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0073]
由于训练样本中冗余数据的存在增加了求解svm的计算量,大大降低了svm的训练效率,为有效识别并删除冗余数据,本发明提出基于k

means算法和fisher投影的kf策略,kf策略的主要实现过程如下:
[0074]
(1)划分数据集。调用mapreduce默认的数据划分策略,对原始数据集进行分割,获得若干数据块chunk1,chunk2,

,chunk
p

[0075]
(2)获取数据簇。在每一个子数据集上,利用k

means算法形成两个数据簇,获得数据簇的中心点o
i
,簇的密度ρ0和ρ1,以及划分到每个簇的样本。
[0076]
(3)计算fisher投影方向ω。获取数据簇中心以及划分到每个簇的样本之后,根据公式(1)、(2)计算簇内离散度、整个数据集的离散度,根据公式(3)计算样本的fisher投影方向ω。
[0077]
(4)剔除冗余数据。提出分割平面γ和平移因子η,首先过数据簇中心o
i
作垂直于ω的初始的分割平面γ,然后根据数据簇的密度比γ=max{ρ0,ρ1}/min{ρ0,ρ1},以及初始分割平面γ间的距离计算平移因子η,用平移因子η确定分割平面γ的最终具体位置,以此来识别冗余数据。最后删除处于分割平面γ外侧的数据,保留分割平面γ内侧的数据,得到删减冗余数据后的样本d。
[0078]
定理1(分割平面γ)假设数据集中的数据簇中心为o
i
,数据点的fisher投影方向为ω,那么分割平面γ计算如下:
[0079]
γ
i
=ω
t
o
i i=

1,1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0080]
证明:令svm决策平面为f,∵ω

f,又分割平面γ是过簇中心o
i
垂直于ω的平面,
即γ

ω,∴γ//f,因为冗余数据有远离svm决策平面的特点,所以位于两分割平面外侧的数据一定为冗余数据,因此该分割平面可以用来识别冗余数据。证毕。
[0081]
定理2(平移因子η)假设分割平面γ间的距离为r,γ为数据簇的密度比,则平移因子η的计算如下:
[0082][0083]
证明:∵γ∈[1,1+ξ),又τ∈(0,0.5),当ξ

0时,η

0,分割平面不需要平移,当ξ

+∞时,有即使在两类数据量极端不平衡时,也不会导致一类数据量完全删除,另一类数据量完全保留的情况,所以此平移因子适用。证毕。其中ξ表示任意的常数。
[0084]
2.并行svm参数寻优
[0085]
选择合适的参数能有效改善并行svm的算法性能,而在大数据环境下,并行svm寻找最佳参数的时间花销过大,参数寻优困难,严重制约了并行svm的参数寻优能力。为提升并行svm的参数寻优能力,本发明提出基于自适应非线性收敛因子和自适应惯性权重w的woa算法即鲸鱼优化算法(iw

bnaw),将iw

bnaw算法运行在mapreduce集群环境中,并行搜索svm的局部最优参数。iw

bnaw算法具体过程如下:
[0086]
(1)设置参数。设置鲸鱼种群规模n,最大迭代次数t
max
,最小、最大惯性权重w
min
、w
max
,并行svm的惩罚参数c的取值范围[c
min
,c
max
],rbf参数σ的取值范围[σ
min

max
]。其中c
min
为最小惩罚参数,c
max
为最大惩罚参数;σ
min
为最小rbf参数,σ
max
为最大rbf参数。
[0087]
(2)初始化鲸鱼种群。每头鲸鱼代表并行svm的参数对(c,σ),在参数的取值范围内随机初始化鲸鱼。
[0088]
(3)计算鲸鱼的适应度。每头鲸鱼位置的适应度值以并行svm当前分类结果的代价函数计算,其中,h(x
i
)为svm的预测值,y
i
为实际值,m表示样本数量。值越小,说明寻找的参数表现越优越。
[0089]
(4)划分种群等级。对适应度进行升序排序,将排序结果存储在fit集合中。根据排序结果,将种群划分为三个等级,分别为劣质种群、普通种群以及优质种群。具体划分的过程为:假设第t代某鲸鱼的适应度为fit(t)
i
,令m=count(fit(t)
i
<fit(t)
avg0
),若第t代某鲸鱼的适应度值有fit(t)
min
<fit(t)
i
<fit(t)
avg1
,则认定该鲸鱼属于优质种群;若fit(t)
avg1
<fit(t)
i
<fit(t)
avg2
,认定该鲸鱼属于普通种群;若fit(t)
avg2
<fit(t)
i
<fit(t)
max
,认定该鲸鱼属于劣质种群。
[0090]
(5)更新鲸鱼位置。提出自适应非线性收敛因子自适应惯性权重w,计算自适应非线性收敛因子根据式(6)扰动鲸鱼的位置更新中的系数向量帮助鲸鱼跳出局部最优。计算自适应惯性权重w,对不同等级的鲸鱼的位置给予不同的权重,根据式(3)~(5)
更新鲸鱼位置。改进后的鲸鱼位置的更新方程如下:
[0091][0092][0093][0094][0095]
定理3(自适应非线性收敛因子)令t代表种群当前迭代次数,t
max
表示最大迭代次数,b(α,β)表示贝塔分布,则非线性收敛因子计算如下:
[0096][0097]
证明:标准woa算法的收敛因子a是在[2,0]范围内线性递减的,由于b(α,β)分布函数可以描述[0,1]区间内的各种形状,合适用于对收敛因子的扰动。对求导,得到t
max
表示鲸鱼种群的最大迭代次数;其中,所以有即满足递减性。当迭代次数t=1时,取得最大值2,当迭代次数t

t
max
时,所以具有非负性。由于具有非负性,且随着迭代次数的增加逐渐非线性从2减少到0,因此可以用作woa算法的收敛因子。证毕。
[0098]
定理4(自适应惯性权重w)假设第t代种群的最小最大适应度为fit(t)
min
、fit(t)
max
,w
min
和w
max
分别为设定的初始最小权重和最大权重,则自适应惯性权重以下式更新:
[0099]
优质种群位置更新的权重计算为:
[0100][0101]
普通种群位置更新的权重计算为:
[0102][0103]
劣质种群位置更新的权重计算为:
[0104][0105]
证明:随着鲸鱼个体越靠近最优位置,其位置更新时所需要的权重会越来越小。由于t是逐渐增大的,则有因为fit(t)
avg1

fit(t)
min
>fit(t)
i

fit(t)
min
,故所以w1随t的增大逐渐变小,符合优质种群位置更新的权重需求。因为w2‑
w1>0,所以恒有w2>w1,普通种群的鲸鱼离最优位置较远一些,需要较大的惯性权重来加快其寻优速度,所以w2适用于普通种群的位置更新。同理,有w3>w2>w1,劣质种群需要更大的权重快速接近最优位置。证毕。其中t代表种群当前迭代次数,w3、w2、w1分别为优质种群位置的权重、普通种群位置的权重、劣质种群位置的权重。
[0106]
(6)选择当前最优位置。获取更新后的鲸鱼种群位置后,比较其适应度值,适应度值最小的视为当前一代最优的位置,若最优位置发生变化,则新的最优位置取代旧的最优位置。
[0107]
(7)判断是否达到迭代终止条件。判断是否达到鲸鱼种群的最大迭代次数t
max
,若是,输出鲸鱼最优位置对应的<key,((c,σ),sv,fitness)>,获得并行svm的局部最优参数以及局部支持向量子集,否则,迭代次数加1,返回步骤(4)继续循环迭代。
[0108]
3.全局并行svm模型构建
[0109]
参数寻优结束后,需要将各map节点获取的最优<key,((c,σ),sv,fitness)>传送给reduce节点,构建全局并行svm分类模型。而mapreduce的调度方案默认将相同的key值分配到同一个reduce节点上,这会使每个reduce节点处理数据的时间产生较大差异,导致reduce节点出现负载不均衡现象。为解决构建并行svm过程中出现的负载不均衡问题,提出tfb策略,具体tfb策略描述如下:
[0110]
(1)判断reduce节点负载情况。估算reduce完成任务所需时间rtime,对key按其rtime降序排序,以<key,rtime>形式保存至队列ktime中。
[0111]
(2)处理大负载节点。取队首元素,若key的则认为处理该key的reduce节点负载过大。为均衡reduce节点的负载,提出迁移数据量dm,对大负载节点计算出要迁移数据量,把dm分配给处于队列尾端的小负载节点。
[0112]
定理5(迁移数据量dm)假设节点的数据传输所用时间为r_dt
i
,节点执行任务的速度为rv
j
,则需要迁移的数据量分为以下情况计算:
[0113]
当rtime
i

rtime
avg
>rtime
avg
时,
[0114]
dm=(rtime
avg

rtime
j

r_dt
i
)*rv
j i≠j
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0115]
当rtime
i

rtime
avg
<rtime
avg

rtime
j
时,
[0116]
dm=(rtime
i

rtime
avg

r_dt
i
)*rv
j
ꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0117]
当rtime
i

rtime
avg
>rtime
avg

rtime
j
时,
[0118]
dm=(rtime
avg

rtime
j

r_dt
i
)*rv
j
ꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
[0119]
证明:若训练并行svm的最终时间表示为mr
time
,map阶段所用时间为m
time
,则有mr
time
=m
time
+max{rtime
i
},即mapreduce的并行效率是由执行的最慢的reduce节点的时间决定的,而异构环境下节点处理数据的时间往往会有rtime>rtime
avg
的关系,所以迁移数据量dm的计算可以让负载过重的节点将一部分数据迁移至负载较小的节点上处理,让所有节点的数据处理时间满足rtime
i

rtime
avg
,以实现reduce节点负载均衡的目的。证毕。
[0120]
(3)更新rtime。小负载节点的rtime与处理迁移数据所需时间的和作为该节点更新后的rtime,大负载节点的rtime以rtime

rtime

μ*rtime
avg
,μ∈1,2,

作为更新后的rtime值。
[0121]
(4)更新队列ktime。判断原来小负载节点更新之后的rtime是否满足rtime
avg

rtime

0,若是,将该节点从队尾删除;否则,将其节点信息重新插入队列中。判断原来大负载节点更新之后的rtime是否满足rtime

rtime
avg
≤r_dt,若满足则认为该节点不再需要迁移数据量,将此节点在队列中删除;否则,继续计算dm,将数据迁移到下一个队尾节点,直到该大负载的rtime满足rtime

rtime
avg
≤r_dt,并将该节点信息从队列中删除。
[0122]
(5)重复执行步骤(2)~(4),直至队列中不再出现大于rtime
avg
的节点。此时,mapreduce集群环境达到负载均衡状态,调用reduce函数,合并各节点的局部最优<key,((c,σ),sv,fitness)>,获得全局并行svm模型。
[0123]
4.具体实施方式
[0124]
首先,以25
×
25m2的分辨率,采用arcgis软件对研究区(如延安市、延安宝塔区)进行栅格化,获取网格单元,选取坡高、坡度、坡型、坡向、植被分布、岩土类型为滑坡评价因子,归一化上述数据,构建滑坡空间数据库;接着划分样本集,取其30%作为训练集,70%作为测试集;最后,输入训练集构建并行的支持向量机算法(mr

kwsvm)的大区域滑坡危险性模型,再输入研究区栅格单元于模型中,进行研究区危险性评价。
[0125]
5.mr

kwsvm方法的有效性验证
[0126]
为了验证mr

kwsvm算法的各种性能,对延安市、延安宝塔区进行栅格化,分别获得59,085,492和5,672,922个栅格单元(也称为记录),每个栅格单元有7个影响因子(维度),分别称它们为延安市和延安宝塔区数据集,将mr

kwsvm方法应用于上述两个数据集进行算法的性能验证。
[0127]
5.1mr

kwsvm方法的并行性分析
[0128]
为了验证mr

kwsvm算法在大数据环境下训练svm的可行性,以加速比作为评价指标,在延安市和延安宝塔区这2个数据集中进行实验,为了进一步保证实验的准确性,以运行10次后的平均结果计算加速比。实验结果如图1所示。
[0129]
由图2可以看出,算法在延安市数据集和延安市宝塔区数据集上的加速比都是随着节点数的增加而提升。算法在两个节点运行时的加速比攀升幅度较小这是因为分配到各节点的数据量较大,其并行性能没有得到明显的提升,随着节点数的增加,加速比呈直线上升的状态。尤其当节点数达到6时,算法在处理延安市数据集时,加速比达到了3.43,比单个节点提升了2.43;在处理延安市宝塔区数据集时,加速比高达3.77,比单个节点提升了2.77。这时因为mr

kwsvm算法在参数寻优阶段,通过改进的woa算法并行搜寻svm最佳参数,一定程度上提升了svm的并行能力,且算法在mapreduce计算框架上运行时,通过tfb策略减少总体mapreduce框架处理任务的时间开销的优点被放大,并行能力得到进一步的加强,因此算法在利用延安市数据集进行大区域滑坡危险性评价的实验中,其加速比得到了明显的提升,说明算法的并行效果十分显著。
[0130]
5.2 mr

kwsvm方法的分类精确度分析
[0131]
为了分析mr

kwsvm算法分类精确度,在延安市和延安宝塔区两个数据集上分别作了实验,算法的准确度f

measure的结果如图3所示。
[0132]
从图3可以看出,mr

kwsvm算法在两个数据集上的分类精确度都达到了85%以上。在延安市数据集上,算法的f

measure值达到了88.9%;在延安市宝塔区数据集上,算法的f

measure值达到86.2%。首先这是因为mr

kwsvm算法的kf策略能够有效的筛除冗余数据,降低冗余数据对并行svm分类精度的不良影响,算法在对延安市数据集进行大区域滑坡危险性评价时,能够首先去除数据集中的冗余数据,从而保障并行svm的分类精度不会因冗余数据的存在而降低;其次用于svm参数寻优的iw

bnaw算法能够更加精准的寻找到最佳参数对,进一步保证svm的分类精度,即便算法在处理海量数据集时,也能够在可接受的时间范围内找到适用于算法的最优参数。因此,算法在对延安市数据集进行大区域滑坡危险性评
价时,其算法分类精确度具有优越的表现。
[0133]
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1