本发明涉及数据挖掘,特别涉及一种恐怖袭击事件记录数据的量化分析方法。
背景技术:
1、数据挖掘是计算机领域的热点问题,随着计算机硬件的发展使得解决大数据问题成为可能。使用数据挖掘技术对恐怖袭击事件的记录数据进行量化分析可以从中挖掘出有用信息,确定恐怖袭击的等级,为全球反恐提供指导。但是现有技术中对恐怖袭击事件的数据挖掘取决于专家的经验分析,存在自动化程度不高,恐怖袭击定级需要专家的经验分析等问题。对此,本发明提供了一种基于数据驱动的恐怖袭击危害程度评估和分级方法,通过提取历史恐怖袭击事件数据的主要特征进而计算综合危害,通过改进k-means聚类算法,将危害程度进行聚类,可有快速实现恐怖袭击事件的危害程度量化评估和定级。
技术实现思路
1、针对上述存在的问题,本发明提出了恐怖袭击事件记录数据的量化分析方法,本发明所采用的技术方案如下:
2、一种恐怖袭击事件记录数据的量化分析方法,其特征在于,包括以下步骤:
3、步骤1:历史数据获取
4、步骤101:获取历史恐怖袭击事件的记录数据,并对得到的记录数据进行预处理,删除信息不完整数据,得到若干个信息完备历史数据点,每个历史数据点对应一个历史事件且具有唯一的编号i;
5、步骤2:选取量化指标
6、步骤201:基于历史恐怖袭击事件的记录数据,选取若干个量化指标,用于衡量恐怖袭击事件的危害程度;
7、步骤3:使用主成分分析法将历史恐怖袭击事件记录数据的若干个量化指标转换成线性无关的指标,并计算线性无关指标的信息贡献率,得到综合得分公式;
8、步骤4:根据综合得分公式计算待分级袭击事件危害程度的综合危害结果,再利用改进的k-means聚类算法对所得综合结果聚类再进行等级划分;
9、步骤5:根据步骤4的计算结果输出待测恐怖袭击事件的危害等级。
10、进一步地,步骤201所述选取的量化指标包括恐怖袭击事件发生的时机危害指标x1、恐怖事件发生的地域危害指标x2、恐怖袭击的持续时间危害指标x3、恐怖袭击的环境危害指标x4、恐怖袭击的对象危害指标x5、恐怖袭击的死亡人数指标x6、恐怖袭击的受伤人数指标x7、恐怖袭击的经济损失指标x8、恐怖袭击的人质/绑架受害者人数指标x9。
11、进一步地,所述量化指标基于以下假设选取:
12、假设1:相同条件下,恐怖袭击发生在节假日、举办大型社会活动时的社会危害程度比平时的危害程度大;
13、假设2:相同条件下,恐怖袭击发生在人口越密集的地方其社会危害程度越大;
14、假设3:恐怖袭击事件的环境危害主要由恐怖分子使用的武器类别造成的;
15、假设4:只考虑恐怖袭击的当前实际的具体的影响,不考虑长远的深层影响;
16、假设5:共同特征越多的事件越可能是同一组织或个人制造的;
17、假设6:事件发生的次数随时间的变化是连续的;
18、假设7:事件制造者对某类事件制造的次数越多,则其对该类事件的嫌疑度越大。
19、进一步地,步骤3的具体操作步骤包括:
20、步骤301:以x={x1,x2,...,xn}为主成分分析的指标变量集,且指标变量集的个数n取值为9,得到的历史恐怖袭击事件样本数为m,若第i个样本对应的第j个指标的取值为xij,通过公式(1)将xij标准化后得到
21、
22、其中,第j个指标的均值样本标准差为
23、步骤302:定义标准化指标变量为
24、
25、步骤303:通过公式(3)计算相关系统矩阵r=(rij)n×n:
26、
27、其中,rjj=1,rij=rji,rij是第i个指标与第j个指标的相关系数;
28、步骤304:根据特征方程|λi-r|=0,计算相关系数矩阵r的特征值,将得到的特征值按大小排列为λ1≥λ2≥...≥λn≥0,则由特征向量u1,u2,...,un组成的n个新的线性不相关指标变量为:
29、
30、其中,uj=(u1j,u2j,...,unj)t;y1为第1主成分,y2为第二主成分,…,yn为第n主成分;
31、步骤305:计算特征值λj(j=1,2,…,n)的信息贡献率以及主成分y1,y2,…,yn的累积贡献率,所述信息贡献率的计算公式为:
32、
33、所述主成分y1,y2,…,yp的累积贡献率为:
34、
35、步骤306:判断αp的值,若αp接近1时,则选择前p个指标变量y1,y2,…,yp作为p个主成分,代替原来n个指标变量,并通过综合得分公式对p个主成分进行综合分析,计算综合得分,且所述综合得分公式为:
36、
37、其中,bj为第j个主成分的信息贡献率。
38、进一步地,步骤4的具体操作步骤包括:
39、步骤401:基于所有恐怖袭击事件集合c={ci|i=1,2,...,m},根据式(7)得到恐怖袭击事件ci的影响程度值zi,将恐怖袭击事件ca和cb的影响程度值za和zb的绝对值距离表示为:
40、d(a,b)=||za-zb|| (11)
41、步骤402:c包含k个聚类子集c=c1∪c2∪,...,∪ck,各个聚类子集的聚类中心分别为o1,o2,…,ok,假定聚类中心值的大小顺序为o1>o2>…>ok,则根据聚类中心的序号将其对应聚类子集危害程度等级依次划分为一级、二级,……k级,从输入的数据点集合中随机选择一个点作为第k个聚类中心ok,且k∈{1,2,…,k};
42、步骤403:对于数据集中的每一个点ci∈c,计算它与最近聚类中心的距离dmin(ci),
43、dmin(ci)=min{d(ci,o1),d(ci,o2),...,d(ci,ok)} (12)
44、其中min{·}表示取最小值函数;
45、步骤404:根据dmin(ci)的值,重新选择一个新的数据点作为新的聚类中心;
46、步骤405:重复步骤403-404,直至选出k个聚类中心;
47、步骤406:根据k个聚类中心和就近原则将数据集合中的样本分成k个簇;
48、步骤407:以公式(13)所示的误差平方和准则函数作为聚类准则函数,设置阈值δ=10-4:
49、
50、步骤408:判断所述聚类准则函数的计算结果是否满足阈值e<δ,若满足则使用公式(14)得到ci对应的聚类中心序号k(ci),按照步骤402中危害等级的定义确定ci对应的危害等级,并结束聚类;若不满足则返回步骤406继续分簇;
51、
52、本发明的有益效果是:
53、第一,本发明提出衡量恐怖袭击事件危害程度的9个定量指标,通过这些定量指标能够从各个方面反映恐怖袭击对社会的危害程度,同时各个指标值越大,恐怖袭击事件的危害程度越高,为恐怖袭击事件的危害程度评价提供了便利。
54、第二,通过主成分分析法对原始数据进行处理,对于具有多个变量的原始数据,通过主成分分析法进行数据降维,将原始指标转换为线性无关的特征,一方面消除了各个指标之间的量纲的影响,另一方面有利于突出主要指标的影响,从而得到各事件危害程度的综合结果;
55、第三,采用k-means算法对得到的各事件危害程度的综合结果进行聚类,从而将危害等级相近的恐怖袭击事件分为同一个等级,充分利用了恐怖袭击事件危害程度分布特点进行等级划分,避免了人工划分等级的盲目性和主观性,实现了自动化的恐怖袭击事件定级。