基于社交网络和半马尔可夫过程的手机病毒传播建模方法
【专利摘要】本发明公开了一种基于社交网络和半马尔可夫过程的手机病毒传播建模方法。该方法的主要技术要点包括:首先将人们通过发送短信或彩信来进行社会交往的行为抽象成社交网络,再对社交网络的特征进行分析以揭示其与手机病毒传播之间的关系;其次,引入了半马尔可夫过程来对节点的状态转换进行建模,并将交互次数与状态转换概率有机地结合在一起,以有效地发现节点在遭受病毒攻击后状态变化的规律;第三,引入传染系数和抵抗系数来刻画个体差异性对病毒传播的影响;还开发了一个模拟器来进行实验验证。本发明与现有技术相比,其优点是考虑了人们的社交行为和个体差异性对病毒传播的影响,此方法简单、实用且能有效地提高预测病毒传播的速度和精度。
【专利说明】基于社交网络和半马尔可夫过程的手机病毒传播建模方法
【技术领域】
[0001]本发明涉及手机病毒传播动力学建模与分析,提供一种基于社交网络和半马尔可夫过程的手机病毒传播建模方法,属于网络与信息安全领域。
【背景技术】
[0002]随着短信(shortmessage service, SMS)和彩信(multimedia messagingservice, MMS)越来越受到人们的青睐,使得基于SMS/MMS的社交网络具有非常适合手机病毒的传播。因此,如何对基于SMS/MMS的病毒传播动力学进行建模与分析,成为了移动通信网络安全的一个重要问题。该病毒是在人们收发SMS/MMS进行社会交往时进行传播的,具有隐蔽性强、传播速度快、危害大等特点。另外,基于SMS/MMS的社交网络的节点度分布具有幂律分布的特性,根据社交网络和手机病毒传播的特点,设计一种病毒传播动力学模型来刻画人们社会交往对手机病毒传播的影响以及个体的差异性对手机病毒传播的影响。这样有利于发现手机病毒的传播规律和预测手机病毒的传播趋势,为遏制手机病毒的传播奠定基础。
[0003]目前,现有的针对手机病毒的相关研究,大部分传播模型都是采用生物病毒传播学原理来建模,不能适用于大规模网络环境,而且没有考虑人们的社交行为和个体的差异性对手机病毒传播的影响。
[0004]因此,考虑到国家、人们对网络安全的需要,作为国家自然科学基金面上项目“智能手机病毒传播动力学建模理论及分析方法研究”(61379041)的研究成果之一,我们提出了一种基于社交网络和半马尔可夫过程的手机病毒传播建模方法。该方法将人们发送SMS/MMS来进行社会交往的行为抽象成社交网络,再对社交网络的特征进行分析以揭示其与手机病毒传播之间的关系;引入半马尔可夫过程来对节点的状态转换进行建模,并将交互次数与状态转换概率有机地结合在一起;弓I入传染系数和抵抗系数来刻画个体差异性对病毒传播的影响;采用Visual C++ 6.0和MATLAB 7.0的混合编程技术开发了一个模拟器来进行实验验证。
【发明内容】
[0005]本发明的目的是提供一种基于社交网络和半马尔可夫过程的手机病毒传播建模方法。该方法考虑到病毒的复杂性及其传播过程的不确定性,能更好地刻画人们的社交行为和个体的差异性对病毒传播的影响。从而为手机病毒的防控提供一种有效的解决方案。
[0006]为了实现上述目的,本发明利用实际的短信/彩信通信数据来构建社交网络,以便发现和刻画不同个体之间的交互关系与病毒传播之间的关系。然后,对节点的异常行为及其转换规律进行分析和建模;最后,引入传染系数和抵抗系数来揭示个体的差异性与病毒传播之间的关系。主要的
【发明内容】
如下。
[0007](I)社交网络的构建它可用一个无向加权图来表不,其中:K表不顶点集合,即表不移动通信网络中的手机必为网络中节点间的有向边,表示手机用户之间发送短信的行为,边的弧头指向表示短信行为的接受方#为有向边的权重,表示发送短信的行为的值,值越大表示发送短信的数量越多。4表示顶点i的度,即手机的数量(表示链接的数量或手机拥有式.个朋友)。G7表示从i发送到J的短信和彩信的数量。另外,还引入两个函数/(i)和/(i,j)分别映射每个顶点:eF和每条边。因此,该图可以分别用/(i)和/(i,j)来确定顶点和边的权重。顶点和边的权重的映射函数表示为:/(i)=j)= Cij+Cji。
[0008]顶点和边的权重可同时用来表示手机被病毒感染的概率。从/(i)= 可以看出,顶点的权重取决于4。对于基于SMS/MMS的病毒,如果某部手机的入度大,就表示它更容易被病毒感染,而出度大表示它更容易把病毒传染给其它手机。因此,那些具有节点度大的手机,无论是它的入度大还是出度大,都应当分配一个更大的顶点权重。任意两台手机相互之间的社会交往情况可用/(i,I): ^7允^来表示。
[0009](2)节点状态分类
采用半马尔可夫过程对手机感染病毒后出现异常行为进行建模的基础是将手机划分为不同的状态。根据手机本身所表现出来的行为特性,拟把个体的状态分为以下4种。
[0010]A)易感状态S (Susc印tible),即节点未被感染,并且没有免疫力;病毒从处于易感状态^的节点出发,通过网络连接向四周传播。
[0011]B)潜伏状态A (Exposed),病毒入侵后被感染的节点处于潜伏状态万,由于不同节点自身对病毒的重视程度不同,处于潜伏期A的部分节点会进入状态I和R,另一部分则会返回状态S。
[0012]C)染病状态J (Infected),即节点已被感染,此时节点具有传染性。
[0013]D)免疫状态7? (Recovered),在病毒传播开来后,部分处于状态S的节点通过采取一些安全措施对该病毒产生预免疫,进入免疫状态/P。
[0014](3)状态之间的相互转换关系节点各状态之间的相互转换关系如下。
[0015]A)由于安装杀毒软件,一个处于易感状态的节点转换为免疫状态;由于很多原因也可使该节点转换为潜伏状态,例如:没有安装杀毒软件、从网上随意下载应用程序并进行安装。
[0016]B)如果一个处于感染状态的节点能及时地安装杀毒软件,它便能转换为免疫状态或易感状态。
[0017]C)如果一个处于潜伏状态的节点能及时地采取相应的安全措施,它便能转换为免疫状态或易感状态;但如果正处于病毒爆发时期,也可能转换为感染状态。
[0018]D)当一种新病毒出现时,一个处于免疫状态的节点能再次转换为易感节点。
[0019](4)节点异常行为建模
在半马尔可夫过程中,节点从一个状态转移到另一个状态可以用两个矩阵来表示'P =(Pij)和/7⑴=(A7⑴),其中表示节点从状态乙变为状态4的转移概率;/7"⑴节点表示从当前状态乙转移到状态&的时间分布。假定一个半马尔可夫过程ir(i),?彡0},其状态空间为r={& E, I, 及DTMC的一步转移概率矩阵产所示,当i—°o时,转移分布Pu(X)服从非格点的分布及具有极限概率&,则
π,Μ( f)
P = Ijm P (Λ = ^ V
其中,M(J)、分别表示在状态Zj'厶逗留的平均时间,且M(f) = Β{%\Ζη=ι}
,IC/)=罚?} |ZS = j](设是在状态乙的逗留时间,7)是在状态&的逗留时间);
Trj =<^.> (j e W)是的平稳分布,且?讀卢,ZjW7r/ = 1, 71J = TiieW7r^。
[0020]要计算Z77.,就需要求出和#(i)。然而,通过该式来计算Z7y也并不是一件容易的事情,因为难以确定逗留时间#(i)。因此,本发明不仅给出了基于半马尔可夫过程的节点行为模型及用来分析极限状态概率的计算表达式,而且建立了一个网络场景并提供了相应的理论分析。
[0021](5)个体差异性建模
由于病毒的传播与个体的抵抗力和病毒传染性的强弱都有关,而现有的病毒传播模型大都没有考虑个体的差异性对病毒传播的影响。因此,本发明引入了 3个参数来刻画个体的差异性对病毒传播的影响,具体描述如下。
[0022]A)传染系数:用ICji (Infect1n Coefficient, IC)表示,即节点J.对i传染性的强弱(OssI);当/?γ=ο,表示该节点没有传染性;当Icji=X,表示该节点具有极强的传染性。
[0023]B)抵抗系数:用TPC1i7(Resisted Coefficient, RC)表示,即节点i对j的抵抗能力的大小(ο < --.? I);当RcijA,表示该节点具有极强的抵抗能力。
[0024]C)感染阈值:用JT1i (Infect1n Threshold, IT)表示,即节点i的朋友节点对其影响力的总和。用来判断处于状态S的节点的状态是否会发生变化。
[0025](6)病毒传播模型
根据短信/彩信病毒传播的特点,在构建社会关系图的基础上,设计相应的状态转换算法,并利用该算法来刻画短信/彩信病毒的传播过程。状态转换算法具体为。
[0026]第I步:初始化网络。根据短信/彩信数据集来统计网络的相关信息,如节点的数量、短信发送情况等。
[0027]第2步:初始化每个节点的状态。随机地选节点J并将其状态设置为/,其它节点状态都设置为S。
[0028]第3步:统计朋友节点信息。每个节点根据与其它节点发送短信/彩信的情况,来统计各自的朋友节点信息。
[0029]第4步:设在某时刻t时访问节点j,假设T表示节点从S状态转变为E状态的阈值,则:如果J'的状态为/,则遍历J'的朋友节点,如果其朋友节点i的状态为&而且,此时J'发送短信或彩信给i,那么:A)当/ΡΓ时,则i以概率化转变成状态i?;B)当时,
则i保持状态S不变;C)当ICβ二。或%7=1时,则i以概率/?转变成状态;同时,J'以概率Pm转变成状态W ;如果J'的状态为E,则该节点以概率转变成状态/P,或该节点以概率Pei转变成状态I ;重复执行第4步,直到遍历完所有节点为止。
[0030]第5步:?=?+1,算法结束。[0031 ] (7)病毒传播分析
借鉴现有的传染病传播(如SARS、HIV、HlNl等)和有线网络病毒传播(如Code-Red、Slammer等)分析方法来确定涉及手机病毒传播的相关参数的数量以及每个参数的取值范围、初始值的大小等。对病毒传播所依赖的拓扑结构的主要形式进行分析,并设计基于有向图的Erd0s-R6nyi (ER)网络拓扑结构生成算法,其主要思想是根据ER网络拓扑结构的特点,采用随机图论对基于有向图的ER网络拓扑结构下的病毒传播进行模拟分析。
[0032]由于复杂网络领域的静态拓扑结构生成算法只考虑网络本身的特性,当应用到手机病毒传播网络生成时还需要考虑与病毒传播过程相关的条件和属性等。比如是否在两个结点之间创建边,除了满足它们各自的度值要求之外,还需要考虑个体交互是否满足给定的局部判定条件(抵抗因子和交互次数等),同时还需赋予边与交互关系相关的属性值(如交互次数、持续时间等)。采用Visual C++ 6.0和MATLAB 7.0的混合编程技术开发了一个模拟器来来验证基于有向图的ER网络拓扑结构生成算法的正确性和有效性。
【专利附图】
【附图说明】
[0033]图1为社交网络图示例。
[0034]图2为状态转换关系图。
[0035]图3为节点状态转换算法流程图。
[0036]图4为数据分析算法流程图。
[0037]图5为手机病毒传播动力学分析图。
【具体实施方式】
[0038]下面结合附图对本发明做进一步的详细说明。
[0039](I)社交网络的构建
它可用一个无向加权图来表不,其中:K表不顶点集合,即表不移动通信网络中的手机必为网络中节点间的有向边,表示手机用户之间发送短信的行为,边的弧头指向表示短信行为的接受方#为有向边的权重,表示发送短信的行为的值,值越大表示发送短信的数量越多。4表示顶点i的度,即手机的数量(表示链接的数量或手机拥有式.个朋友)。G7表示从i发送到J的短信和彩信的数量。另外,还引入两个函数/(i)和/(i,j)分别映射每个顶点I eF和每条边(iJ) eS。因此,该图可以分别用/(i)和/(i,j)来确定顶点和边的权重。顶点和边的权重的映射函数表示为:/(i)=j)= Cij+Cji。
[0040]顶点和边的权重可同时用来表示手机被病毒感染的概率。从/(i)= 可以看出,顶点的权重取决于4。对于基于SMS/MMS的病毒,如果某部手机的入度大,就表示它更容易被病毒感染,而出度大表示它更容易把病毒传染给其它手机。因此,那些具有节点度大的手机,无论是它的入度大还是出度大,都应当分配一个更大的顶点权重。任意两台手机相互之间的社会交往情况可用/(i,j)= &.允^来表示。任意两台手机不管在何时通过发送短信和彩信来进行通信,那么它们都有机会成为朋友。因此,打开并激活一条来自对方的且携带病毒的消息的概率就会很大。表明了社交网络既可以揭示任意两台手机之间是如何彼此产生联系的,也可以刻画病毒是如何利用这种社会关系来进行传播的。
[0041]本发明采用中国最大的移动通信网络运营商之一——中国电信所提供的短信和彩信记录来研究社交网络的构建。消息记录包括40万用户在2012年10月的3个星期内所发送的约2千万条的短信和彩信。为了保护用户隐私,短信和彩信的内容在提取时就被屏蔽了,提取的信息只保留了发送者和接收者的电话号码及发送时间,而且对电话号码也进行了技术处理,使用其它编号来代替。为了进一步说明社交网络的构建过程,从中抽取10部手机在I周内发送短信/彩信的数量来构建了一个社交网络(见附图1)。
[0042](2)节点状态分类
采用半马尔可夫过程对手机感染病毒后出现异常行为进行建模的基础是将手机划分为不同的状态。根据手机本身所表现出来的行为特性可把个体的状态分为以下4种。
[0043]A)易感状态S (Susc印tible),即节点未被感染,并且没有免疫力;病毒从处于易感状态^的节点出发,通过网络连接向四周传播。
[0044]B)潜伏状态A (Exposed),病毒入侵后被感染的节点处于潜伏状态万,由于不同节点自身对病毒的重视程度不同,处于潜伏期A的部分节点会进入状态I和R,另一部分则会返回状态S。
[0045]C)染病状态J (Infected),即节点已被感染,此时节点具有传染性。
[0046]D)免疫状态7? (Recovered),在病毒传播开来后,部分处于状态S的节点通过采取一些安全措施对该病毒产生预免疫,进入免疫状态/P。
[0047](3)状态之间的相互转换关系节点各状态之间的相互转换关系如下。
[0048]A)由于安装杀毒软件,一个处于易感状态的节点转换为免疫状态;由于很多原因也可使该节点转换为潜伏状态,例如:没有安装杀毒软件、从网上随意下载应用程序并进行安装。
[0049]B)如果一个处于感染状态的节点能及时地安装杀毒软件,它便能转换为免疫状态或易感状态。
[0050]C)如果一个处于潜伏状态的节点能及时地采取相应的安全措施,它便能转换为免疫状态或易感状态;但如果正处于病毒爆发时期,也可能转换为感染状态。
[0051]D)当一种新病毒出现时,一个处于免疫状态的节点能再次转换为易感节点。
[0052]由于节点在遭受病毒攻击后,其状态转换有以下特点:一是节点的未来状态仅与其当前状态有关;二是导致节点状态转换的因素很多,使状态转移的时间不是指数分布的,而是一般分布。上述特点符合半马尔可夫过程的基本性质,因此,可以采用半马尔可夫过程对手机短信/彩信病毒传播的节点异常行为进行建模。结合手机病毒传播的特性,可得基于半马尔可夫过程的节点状态转换关系图(见附图2)。
[0053]( 4 )节点异常行为建模
在半马尔可夫过程中,节点从一个状态转移到另一个状态可以用两个矩阵来表示'P =(Pij)和/7⑴=(A7⑴),其中表示节点从状态乙变为状态4的转移概率;/7"⑴节点表示从当前状态乙转移到状态&的时间分布。因此,{么}的转移概率矩阵为:
OP 觉 Psj Pss
η Pm O Pfi Pm
Ij = 4.>
O O O 1.1 O O O其中,Ai=O表示{4}中状态转换只有从一种状态转换为另一种状态;在上式中存在转移概率为零的情况,如Pie=^ /^=0,表示处于感染状态的节点不会转变成为易感状态或潜伏状态。另外,由于随机矩阵中一个状态的转移概率之和等于1,因此,/^=1,Pks=L
[0054]假定一个半马尔可夫过程ΙΤ(?),?≥0},其状态空间为r={& E, I, /?}及DTMC的一步转移概率矩阵P所示,当? —⑴时,转移分布Λ._/(?)服从非格点的分布及具有极限概率Λ.,则
【权利要求】
1.一种基于社交网络和半马尔可夫过程的手机病毒传播动力学建模与分析方法,其特征在于:首先利用人们在日常生活中进行社会交往所产生的实际短信/彩信通信数据来构建社交网络,通过该网络来刻画社会交往与病毒传播之间的关系;然后,建立节点异常行为模型以揭示节点在遭受病毒攻击后状态转换的规律,如节点在各状态逗留的时间分布、节点状态之间的相互转换关系;最后,建立个体差异性分析机制以刻画个体的差异性对病毒传播的影响。
2.根据权利要求1所述的基于短信/彩信的社交网络,其特征在于:对手机用户之间相互发送短信/彩信所表现出的社会网络行为进行分析并构建社交网络,并引入复杂网络理论来分析该社交网络的特性,刻画基于短信/彩信病毒传播的各种参数对该病毒传播的影响。
3.根据权利要求1所述的节点异常行为模型,其特征在于:对手机在感染病毒前、后所处的状态进行划分,使处于各种状态中的手机所表现的特征更加突出;该模型分析了节点状态的划分方法及其在各状态逗留的时间分布规律;并引入半马尔可夫过程来揭示节点状态之间的相互转换关系、处于各状态的极限概率及它们之间的内在联系。
4.根据权利要求1所述的个体差异性分析机制,其特征在于:引入传染系数(节点传染性的强弱)和抵抗系数(节点的抵抗能力)来刻画个体的差异性,并利用传染系数和抵抗系数来预测处于易感染状态^的节点的状态是否会发生变化。
【文档编号】H04L29/06GK104166708SQ201410390017
【公开日】2014年11月26日 申请日期:2014年8月11日 优先权日:2014年8月11日
【发明者】彭三城, 胡忠望 申请人:肇庆学院, 彭三城