一种基于强化学习的无线信道指纹方法
【技术领域】
[0001] 本发明设及无线通信网络安全,特别是设及一种基于强化学习的无线信道指纹方 法。
【背景技术】
[0002] 随着无线通信技术的高速发展,无线产品在人们生活中扮演着越来越重要的角 色。然而,不同于传统的有线网络,无线网络由于其传播媒介特有的开放性,非常容易遭受 到恶意攻击。如在802. 11网络中,攻击者可W通过ifconfig命令轻易的改变MAC地址,冒 充网络中另外一个合法设备,向接收端发送信息,对接收端造成不利影响。因而,在无线网 络中,辨别发射机的身份,对合法用户的认证变得非常重要。
[0003] 许多利用物理层信息提高无线网络安全性的方法已经被提出来了。 C.Corbett等(C.Corbett,R.Beyah,andJ.Copeland,"Apassiveapproachto wirelessNICidentification, "inProc.IEEEInternationalConferenceon Communications,vol. 5,pp. 2329 - 2334,June2006)通过分析频谱来识别不同类型的无线 网卡,从而区分那些使用不同类型无线网卡的用户。
[0004]D.Faria等(D.FariaandD.Cheriton,"Detectingidentity-based attacksinwirelessnetworksusingsignalprints, "inProc.ACMWorkshopon WirelessSecurity,pp. 43 - 52,LosAngeles,CA,S巧t. 2006.)提出了 一 种利用多 个接入节点的信号强度来区分不同发射机的方法。M.Demirbas等人(M.Demirbas andY.Song,"AnRSSI-basedschemeforsybilattackdetectioninwireless sensornetworks, "inProc.InternationalWorkshoponAdvancedExperimental Activity,pp. 564 - 570,化ne, 2006)提出了一种与之相似的适用于无线传感网络的辨别发 射机的方法。
[0005]A.Varshavsky等(A.Varshavsky,A.Scannell,A.LaMarca,and E.Lara,Amigo:Proximity-basedauthenticationofmobiledevices, "inProc.Int. Conf.UbiquitousComput. , 2007,pp. 1 - 18.)提出了 一种计算周围共享的WiFi信号的 RSSI,通过比较欧氏距离,来对相邻区域的用户进行认证。
[0006]L.Xiao等(L.Xiao,L.Greenstein,N.Mandayam,andW.Trappe,"Fingerprintsin theether:Usingthephysicallayerforwirelessauthentication, "inProc.IEEE InternationalConferenceonCommunications,Glasgow,Scotland,June2007.)提出了 一种基于信道探测和假设检验的物理层认证算法。该算法主要通过检测当前通信用户的信 道频率响应与之前存储的合法通信用户的信道频率响应进行比较,判断当前通信用户是否 为合法用户。
【发明内容】
[0007] 本发明的目的在于提供一种基于强化学习的无线信道指纹方法。
[000引本发明包括W下步骤:
[0009] 1)无线接收机在M个频点上预先测量和存储各用户发射机的接收信号强度 巧SS),每个用户发射机的信道指纹由接收机在M个不同频点测得的RSS构成,即用户发射 机r的信道指纹可表示为Hf=巧SS。RSS2,. . .,RSS。,. . .,RSSm),其中RSS。为接收机在第n 个信道测得的用户发射机r的RSS,1《n《M;无线接收机将存储的各个用户发射机的信 道指纹作为对该用户进行物理层认证的参考指纹;
[0010] 2)无线接收机收到某用户发射机发射的数据包之后,将提取该用户发射机的信道 指纹对该用户进行物理层认证,若该用户声称自己为用户r,接收机将调取预存用户r的参 考指纹,计算该用户信道指纹与用户r的参考指纹之间的欧氏距离,并将归一化处理后的 欧氏距离与接收机系统设定的阔值0进行比较,若归一化处理后的欧氏距离大于接收机 系统设定的阔值,则认定属于电子欺骗攻击,将接收到的数据包丢弃,否则进一步执行上层 认证;若通过上层认证判定属于合法数据包,则存储下来,并将提取出来的信道指纹作为该 用户r新的参考指纹;
[0011] 3)接收机系统对时间T内接收到的由各用户发射机发射的N个数据包进行统计汇 总,计算出虚警率Pp( 0 )和漏报率Pm( 0 ),获得接收机系统在此刻的状态S,S由系统计算 出的虚警率Pp(0)和漏报率Pm(0)构成,此时接收机系统获得即时收益R(S,0),即接收 机系统收益函数:
[001引R(S, 0 ) =p(-Pm( 0 )Ch+(l-Pm( 0 ))a-Cp) + (1-P) (-Pf( 0 ) 丫+ (1-Pf( 0 )) (0 -Ch) -Cp)
[0013] 其中丫为丢失合法数据包系统遭受的损失,a为接收机系统物理层认证正确识 别出合法数据包的收益,0为接收机系统物理层认证正确识别出属于电子欺骗攻击的数据 包的收益,P为接收机系统遭受电子欺骗攻击的概率,Cp为接收机系统物理层认证所需消 耗,Ch为接收机系统上层认证所需消耗;
[0014] 4)接收机系统通过强化学习算法中的Q学习,在最优阔值0不确定的情况下,学 习如何设置阔值,并进行实时调节,从而可W自适应各种无线环境,确保较高的认证精度, 获得较好的系统收益,对于不同无线环境,有不同的最优阔值e,在一次学习过程中,最多 可更换Z次阔值,每一次更换阔值后,接收机会有一个观察期,W探测更换阔值对系统造 成的影响,Q学习确定最优阔值0的过程包括W下步骤:
[0015] 4. 1)初始化Q值矩阵,对于每一个接收机系统状态S下,接收机可W选择一个a, aGA,A=[al,a2,a3,...,aT],作为阔值0,T为可选阔值的个数,对每个状态下的可选择 的阔值分配一个对应的Q值即Q(S,0),对每个初始Q值赋值为0。并设置学习因子a(0 <曰< 1),和折扣因子5 (0 < 5 < 1);
[0016] 4. 2)接收机观察系统当前所处状态S\W概率e选择阔值0 \进行第k次更换 阔值,Z,化S'k,巧,即W概率e选择使得9炒,0)最大的0值作为阔 值0k,W概率1-e选择使得9炒,0)非最大的0值作为阔值0k,在更换阔值后,接收机 连续对时间T内接收到的由各用户发射机发射的N个数据包进行认证,并观察系统下一个 状态SW;
[0017] 4. 3)根据公式;
[001 引
[0019] 对Q值矩阵更新。9炒,0k)是接收机系统在Sk状态下采用0k值为阔值时的Q 值,R(Sk,0k)为在sk状态下采用阔值0k得到的系统即时收益,I,6^)是服务器在 sw状态下,采用让Q值最大化的阔值0 ;
[0020]4. 4)重复步骤4. 2)、4. 3),直到第k次更换阔值后接收机系统满足
巧,阔值0收敛,0k即是接收机系统最优阔值.
[0021] 4. 5)接收机将0k设定为该无线环境中最优阔值,并利用该值进行物理层认证。
[0022] 在步骤1)中,所述RSS是在相对稳定的具有丰富多径效应的室内环境中测得,接 收机与各用户发射机的位置保持不动,各用户发射机相对位置距离大于0. 5m,所述信道指 纹由接收机在M个不同频点测得的RSS构成,且相邻频点的频率间隔不小于50MHz,为保证 利用该信道指纹进行物理层认证的有效性,频点的个数应不少于3个,即M> 3。
[0023] 在步骤2)中,所述归一化处理后的欧氏距离的计算公式为:
[0024]
[0025] 其中Hu为用户发射机j发射声称自己来自于用户i的数据包附带的信道指纹, 自为用户发射机i的参考信道指纹;所述物理层认证过程为:
[0026]
[0027] 所述上层认证为通过采用基于哈希链RSA的MAC层数字签名认证等来实现。
[00測在步骤3)中,所述虚警率Pp( 0 )和漏报率Pm( 0 )均为离散化的值,Pp(0)GX,Pm(0)GY,故接收机系统状态S可表示为[Pp(0),Pm(0)],X和Y可根据接 收机系统要求进行划分,比如X=Y= {0:0.001:0. 1,0. 15:0. 05:1}。
[0029] 本发明的无线接收机根据多个信道上的接收信号强度化S巧等物理层信息构造 各用户发射机相对应的信道指纹。该信道指纹算法采用强化学习算法,根据接收机系统收 益函数,实时自动调节物理层认证的阔值等关键参数,通过对比各用户发射机信道指纹及 其历史记录值检测电子欺骗。本发明可W自适应各种无线环境,具有较高的认证精度。
【具体实施方式】
[0030] 为了能够更清楚理解本发明的技术内容,W下实施例将对本发明作进一步说明。
[0031] 一种基于强化学习的无线网络认证方法,具体步骤如下:
[0032] 1)无线接收机在M个频点上预先测量和存储各用户发射机的接收信号强度 化SS),每个用户发射机的信道指纹由接收机在M个不同频点测得的RSS构成,即用