本发明涉及复杂网络技术领域,尤其涉及一种电话通信网络中节点敏感性排序的方法。
背景技术:
随着移动终端设备的发展,手机已成为人们日常生活交流的重要通信设备,每天有大量的通信数据产生,包括短信和电话记录,如果把通信的双方看成节点,一次通信看作一条连边,那整个通信网络就是一个巨大且复杂的网络系统。如何定量分析通信网络中节点的重要程度仍然是一个待解决的问题。
网络节点重要性的评价主要有基于网络拓扑结构和基于节点属性两个方面。基于网络拓扑结构的方法有:局部网络结构、全局网络结构以及基于网络位置属性等指标。基于节点属性的重要性排序方法有基于个体行为特征,个体基本信息特征等。
局部网络结构主要从节点自身和其邻居属性如度来分析,分析局部结构属性计算复杂度较低,适用于大型网络。
基于个体基本信息特征的有如facebook上用户的年龄、性别等属性,这些属性左右着用户的影响力。
在犯罪网络的研究方法中,有根据罪犯的通信行为建立社会网络,通过行为动力学分析来判断和挖掘罪犯;也有对已知罪犯进行标记,根据边权计算其余节点的相对重要性,来挖掘犯罪可疑分子。
通过以上研究分析发现,目前已经有很多关于网络节点重要性的研究,但是如何提取节点特征,如何准确而又高效地提升计算方法,还有待进一步研究。
技术实现要素:
本发明的目的在于解决现有技术存在的缺陷,提供一种电话通信网络中节点敏感性排序的方法,有效挖掘敏感节点,大大提升了灵活性。
为实现上述发明目的,本发明采用如下方案:
一种电话通信网络中节点敏感性排序的方法,包括以下步骤:
(1)建立手机机身码与号码映射关系,同时统计每个机身码的通话总次数,用于后续基于结构的分析和号码间的相似度计算;
(2)构建重点关注手机号码、重点关注区域、重点关注时间的三张表,表名分别为focusnumberlist、focusarealist、focustimelist,为后续计算号码敏感指数做准备;
(3)基于结构的敏感性指数计算方法,分别计算一机多号敏感指数、一号多机敏感指数、重点关注号码敏感指数、重点关注时间敏感指数、重点关注区域敏感指数、本国通话强度敏感指数、主叫国外通话强度敏感指数、接听国外通话强度敏感指数和号码伴随敏感指数,具体计算方法如下:
①一机多号敏感指数计算
对一个手机使用多个号码的机身码进行建模,通过模型计算得到一机多号敏感指数,计算公式如下:
其中i为当前机身码对应的第i个号码,call_sumi为第i个号码的通话次数总和,mobilenum_sumi为第i个号码使用过的手机数量,k为该机身码使用过的号码总数,β为0到1的调节参数,取0.5;
②一号多机敏感指数计算
对多个手机使用同一号码的号码进行敏感指数分析建模,通过模型计算得到一号多机敏感指数,具体的计算公式如下:
其中imei_sum为使用过该号码的手机数量,call_sum为该号码的所有通话次数,β为0到1的调节参数,取0.5;
③重点关注区域敏感指数计算
首先添加区域以及关注指数,通过对通话详单进行分析,统计该区域内的通话记录,对出现在关注区域内的通话进行建模,通过模型计算得到重点关注区域敏感指数,计算公式如下:
其中contact_sumi为第i个区域内的通话次数,importancei为该关注区域的重要性值,k为关注区域数。
对数值进行平滑处理,使importancearea介于0至1之间,最终的计算公式如下:
其中importancefocusarea为平滑处理后的重点关注区域敏感指数,α、β为一个小于1并且大于0的调节参数,α取0.2,β为10-5;
④重点关注时间敏感指数计算
首先添加时间区间以及对应的敏感值,通过分析通话详单,统计该时间段内的通话记录,对出现在关注时间内的通话进行敏感指数分析建模,通过模型计算得到重点关注时间敏感指数,具体的计算公式如下:
其中contact_sumi为第i个时间区间内的通话次数,importancei为该关注时间段的敏感值,k为关注时间区间个数;
对数值进行平滑处理,使importancetime介于0至1之间,最终的计算公式如下,
其中importancefocustime平滑处理后的重点关注时间敏感指数,α、β为一个小于1并且大于0的小数,α取0.2,β为10-5;
⑤重点关注号码敏感指数计算
在构建全局重点关注号码集后,使用相对重要性计算模型分析重点关注号码的敏感性对其他号码的影响;
⑥本国通话强度敏感指数计算;
通过对通话详单进行分析,统计每个号码的国内通话次数以及国内通话联系人数,进而利用国内通话强度敏感指数模型进行计算,得到这个号码的国内通话强度敏感指数;
具体的计算公式如下:
其中domesticcontact_sum为该号码的国内联系人数量,domesticcall_sum为该号码的所有通话次数,β为0到1的调节参数,这里取0.5;
⑦主叫国外通话强度敏感指数计算
通过对通话详单进行分析,统计每个号码的主叫国外通话次数以及主叫国外的通话联系人数,进而利用主叫国外通话强度敏感指数模型进行计算,得到这个号码的主叫国外通话强度敏感指数;
具体的计算公式如下:
其中callforeigncontact_sum为该号码主叫国外联系人数量,callforeign_sum为该号码的所有主叫国外的通话次数,β为0到1的调节参数,取0.5;
⑧接听国外通话强度敏感指数计算
通过对通话详单进行分析,统计每个号码的被叫国外通话次数以及被叫国外的通话联系人数,进而利用被叫国外通话强度敏感指数模型进行计算,得到这个号码的接听国外通话强度敏感指数;
具体的计算公式如下:
其中calledforeigncontact_sum为该号码被叫国外联系人数量,callforeign_sum为该号码的所有被叫国外的通话次数,β为0到1的调节参数,取0.5;
⑨号码伴随敏感指数计算
包括普通号码伴随和重点关注号码伴随,通过对通话详单进行分析,统计总是与当前号码在同一时间范围、同一地点范围出现的其他号码,利用伴随敏感指数模型进行计算,得到号码的伴随敏感指数;
具体的计算公式如下:
其中accompany_sumi为该号码与第i个号码伴随的次数,call_sum为该号码通话次数总和,β为0到1的调节参数,取0.5,k为伴随号码数量;
(4)设置权重,计算敏感值
根据需要设置不同权重系数,将步骤(3)中所求得的各项敏感指数值进行加权求和得到最终的敏感值,计算出各个号码的敏感值,并对各个号码的敏感值进行排序。由于敏感值与号码重要性呈正相关,所以敏感值越高,号码的重要性越高。
进一步,步骤(3)中重点关注号码敏感值计算过程中,重点关注号码集的敏感值计算方法如下:
首先,定义关注指数值大于0的号码为关注号码,初始关注号码具有两种来源:
1)手动配置参与计算的重点关注号码集,此类型号码敏感值在扩散过程中不会改变,可定义为importantseednumber;
2)通过关注区域和关注时间计算得到的重点关注号码集,此类型号码重要性在扩散过程中会受到其邻居节点的敏感值变化而改变,初始敏感值取关注区域和关注时间敏感值的算术平均数,计算公式如下:
importancefocusnumber
=(importancefocusarea+importancefocustime)/2
扩散过程中除种子号码外,其余号码的敏感值随着其邻居节点敏感值改变,直至扩散到一个极大连通子图,具体扩散过程如下:
(i)初始,除了标记的重点关注号码集importantseednumber,还有通过关注区域和关注时间计算得到的;
(ii)由关注号码进行扩散,其邻居敏感值的计算公式为:
其中contact_sumi为与第i个关注号码的通话次数,importancei为该号码的敏感值,k为与号码i通话的号码数;
对其进行平滑处理,得到如下公式:
受邻居节点重要性影响,平滑以后的重要性计算公式为:
公式(1)与(2)中α、β为一个小于1并且大于0的小数,而β通常接近于0;公式(2)中k为号码邻居中关注号码系数大于0.7的个数;
(iii)更新重要性,取公式(1)、(2)中最大值为该号码新的敏感值;
importancefocusnumber
=max(importancefocusnumber_1,importancefocusnumber_2)
若无增加新的关注号码,则退出,否则回到步骤(ii)。
进一步,通过统计分析整个通话详单,建立机身码与号码映射关系。
进一步,步骤(3)中,在进行一机多号敏感指数计算前,通过对通话详单进行分析,统计分析每个号码的通话次数以及在此手机上使用过的号码个数,如果手机使用的号码个数超过1个,则认为此手机为一机多号,进而利用一机多号敏感指数模型进行计算。
进一步,步骤(3)中,在进行一号多机敏感指数计算前,通过对通话详单进行分析,统计分析每个号码的通话次数以及所持有的手机数量,进而利用一号多机敏感指数模型进行计算。
进一步,步骤(1)中,建立手机机身码与号码映射关系,包括一个机身码对应多个号码和一个号码对应多个机身码两种情况。
本发明的电话通信网络中节点敏感性排序的方法,通过对用户通信的详单、基站等数据,从结构和属性两方面进行建模,对每个号码统计其一阶、二阶邻居、通话时间序列、基站通话次数等属性,从结构和属性层面分析号码相应的敏感指数值;对已经标注的重点关注号码,将其敏感值扩散至其邻居节点中,直至影响到整个连通子图;对多个参数进行建模,对电话通信网络中节点的属性值进行加权求和,得到最终敏感指数值。这样不仅从结构上分析敏感节点的通信传播,还考虑了各个节点的通话属性。这样,能有效地挖掘敏感节点,大大提升了灵活性。
附图说明
图1是本发明计算节点敏感性的流程图。
图2是本发明计算重点号码敏感值流程图。
具体实施方式
下面结合附图对本发明的具体实施流程进行描述,特别注意的是,敏感数据将用变量名代替。
参考图1和图2,本发明电话通信网络中节点敏感性排序的方法,具体步骤如下:
(1)建立手机机身码与号码映射关系(机身码可能对应多个号码,号码也可能对应多个机身码),同时统计每个机身码的通话总次数,用于后续基于结构的分析和号码间的相似度计算;
(2)构建重点关注手机号码、重点关注区域、重点关注时间的三张表,表名分别为focusnumberlist、focusarealist、focustimelist,为后续计算号码敏感指数做准备;
(3)基于结构的敏感性指数计算方法,分别计算一机多号敏感指数、一号多机敏感指数、重点关注号码敏感指数、重点关注时间敏感指数、重点关注区域敏感指数、本国通话强度敏感指数、主叫国外通话强度敏感指数、接听国外通话强度敏感指数和号码伴随敏感指数,具体计算方法如下:
①一机多号敏感指数计算
对一个手机使用多个号码的机身码进行建模,通过模型计算得到一机多号敏感指数,计算公式如下:
其中i为当前机身码对应的第i个号码,call_sumi为第i个号码的通话次数总和,mobilenum_sumi为第i个号码使用过的手机数量,k为该机身码使用过的号码总数,β为0到1的调节参数,本发明中β取0.5;
②一号多机敏感指数计算
对多个手机使用同一号码的号码进行敏感指数分析建模,通过模型计算得到一号多机敏感指数,具体的计算公式如下:
其中imei_sum为使用过该号码的手机数量,call_sum为该号码的所有通话次数,β为0到1的调节参数,本发明中β取0.5;
③重点关注区域敏感指数计算
首先添加区域以及关注指数,通过对通话详单进行分析,统计该区域内的通话记录,对出现在关注区域内的通话进行建模,通过模型计算得到重点关注区域敏感指数,计算公式如下:
其中contact_sumi为第i个区域内的通话次数,importancei为该关注区域的重要性值,k为关注区域数。
对数值进行平滑处理,使importancearea介于0至1之间,最终的计算公式如下:
其中importancefocusarea为平滑处理后的重点关注区域敏感指数,α、β为一个小于1并且大于0的调节参数,α取0.2,β为10-5;
④重点关注时间敏感指数计算
首先添加时间区间以及对应的敏感值,通过分析通话详单,统计该时间段内的通话记录,对出现在关注时间内的通话进行敏感指数分析建模,通过模型计算得到重点关注时间敏感指数,具体的计算公式如下:
其中contact_sumi为第i个时间区间内的通话次数,importancei为该关注时间段的敏感值,k为关注时间区间个数;
对数值进行平滑处理,使importancetime介于0至1之间,最终的计算公式如下,
其中importancefocustime平滑处理后的重点关注时间敏感指数,α、β为一个小于1并且大于0的小数,α取0.2,β为10-5;
⑤重点关注号码敏感指数计算
在构建全局重点关注号码集后,使用相对重要性计算模型分析重点关注号码的敏感性对其他号码的影响,具体计算方法见权利要求说明第2部分;
⑥本国通话强度敏感指数计算;
通过对通话详单进行分析,统计每个号码的国内通话次数以及国内通话联系人数,进而利用国内通话强度敏感指数模型进行计算,得到这个号码的国内通话强度敏感指数;
具体的计算公式如下:
其中domesticcontact_sum为该号码的国内联系人数量,domesticcall_sum为该号码的所有通话次数,β为0到1的调节参数,这里取0.5;
⑦主叫国外通话强度敏感指数计算
通过对通话详单进行分析,统计每个号码的主叫国外通话次数以及主叫国外的通话联系人数,进而利用主叫国外通话强度敏感指数模型进行计算,得到这个号码的主叫国外通话强度敏感指数;
具体的计算公式如下:
其中callforeigncontact_sum为该号码主叫国外联系人数量,callforeign_sum为该号码的所有主叫国外的通话次数,β的取值同上;
⑧接听国外通话强度敏感指数计算
通过对通话详单进行分析,统计每个号码的被叫国外通话次数以及被叫国外的通话联系人数,进而利用被叫国外通话强度敏感指数模型进行计算,得到这个号码的接听国外通话强度敏感指数;
具体的计算公式如下:
其中calledforeigncontact_sum为该号码被叫国外联系人数量,callforeign_sum为该号码的所有被叫国外的通话次数,β的取值同上;
⑨号码伴随敏感指数计算
包括普通号码伴随和重点关注号码伴随,通过对通话详单进行分析,统计总是与当前号码在同一时间范围、同一地点范围出现的其他号码,利用伴随敏感指数模型进行计算,得到号码的伴随敏感指数;
具体的计算公式如下:
其中accompany_sumi为该号码与第i个号码伴随的次数,call_sum为该号码通话次数总和,β的取值同上,k为伴随号码数量。
(4)设置权重,计算敏感值
根据需要设置不同权重系数,将步骤(3)中所求得的各项敏感指数值进行加权求和得到最终的敏感值,计算出各个号码的敏感值,并对各个号码的敏感值进行排序。由于敏感值与号码重要性呈正相关,所以敏感值越高,号码的重要性越高。
以下通过具体实施例说明本发明方法:本实施采用的通话记录数65788条,号码总数为7787个。
(1)统计机身码(imei)与号码映射关系,统计分析整个通话详单,建立机身码与号码映射关系。映射关系可表示为“imei—numberlist”,“numberlist”为号码数组。得到6组一机多号关系。
(2)配置重点关注号码、重点关注区域、重点关注时间三张表,分别为focusnumberlist、focusarealist、focustimelist。为后续计算号码的敏感值做准备。
(3)基于结构的敏感指数计算。主要包括一机多号敏感指数、一号多机敏感指数、伴随影响敏感指数、重点关注号码敏感指数、重点关注时间敏感指数、以及重点关注区域敏感指数等。特别需注意的是,此步骤完成后,根据重点关注区域敏感指数和重点关注时间敏感指数可算出一般号码(非步骤2中配置的重点关注号码)的重点关注号码敏感指数。数据样例如表1所示。
表1结构敏感值计算结果表
(4)权重配置。将步骤(3)中所求得的各项指标值进行加权求和得到最终敏感指数值。可根据需要为各指标配置不同权重,对各个号码计算出不同敏感值如表2所示,假设各项权重标注在表头中。
表2敏感性计算结果表
最后根据实际数据,得出的结果如表3(n1~n5为已知的敏感节点)所示。
表3计算结果表
最后应说明的是:以上实施例仅用于说明本发明的技术方案流程,并非限制此方案的使用范围;对于本技术内的相关技术人员可以对方案中的参数进行替换和对方法进行适当限制。当然,这些替换或者限制若为本发明的精神和范围内,任何发明都应被保护。