一种基于强化学习的无线信道指纹方法_2

文档序号:9203149阅读:来源:国知局
户发射 机r的信道指纹可表示为Hf=巧SS。RSS2,. . .,RSS。,. . .,RSSm),其中RSS。为接收机在第n 个信道测得的用户r的RSS,1《n《M;无线接收机将存储的各个用户发射机的信道指纹 作为对该用户进行物理层认证的参考指纹。
[0033] 2)无线接收机收到某用户发射机发射的数据包之后,将提取该用户发射机的信道 指纹对该用户进行物理层认证。若该用户声称自己为用户r,接收机将调取预存用户r的参 考指纹,计算该用户信道指纹与r用户的参考指纹之间的欧氏距离,并将归一化处理后的 欧氏距离与接收机系统设定的阔值0进行比较。若归一化处理后的欧氏距离大于接收机 系统设定的阔值,则认定属于电子欺骗攻击,将接收到的数据包丢弃,否则进一步执行上层 认证,若通过上层认证判定属于合法数据包,则存储下来,并将提取出来的信道指纹作为该 用户r新的参考指纹。
[0034] 3)接收机系统对时间T内接收到的由各用户发射机发射的N个数据包进行统计汇 总,计算出虚警率Pp( 0 )和漏报率Pm( 0 ),获得接收机系统在此刻的状态S,S由系统计算 出的虚警率Pp(0)和漏报率Pm(0)构成,此时接收机系统获得即时收益R(S,0),即接收 机系统收益函数:
[003引 R(S, 0 ) =p(-Pm( 0 )Ch+(l-Pm( 0 ))a-Cp) + (1-P) (-Pf( 0 ) 丫+ (1-Pf( 0 )) (0 -Ch) -Cp)
[0036] 其中丫为丢失合法数据包系统遭受的损失,a为接收机系统物理层认证正确识 别出合法数据包的收益,0为接收机系统物理层认证正确识别出属于电子欺骗攻击的数据 包的收益,P为接收机系统遭受电子欺骗攻击的概率,Cp为接收机系统物理层认证所需消 耗,Ch为接收机系统上层认证所需消耗。
[0037] 4)接收机系统通过强化学习算法中的Q学习,在最优阔值0不确定的情况下,学 习如何设置阔值,并进行实时调节,从而可W自适应各种无线环境,确保较高的认证精度, 获得较好的系统收益。对于不同无线环境,有不同的最优阔值9,在一次学习过程中,最多 可更换Z次阔值,每一次更换阔值后,接收机会有一个观察期,W探测更换阔值对系统造 成的影响,Q学习确定最优阔值0的过程包括W下步骤:
[003引 4. 1)初始化Q值矩阵。对于每一个接收机系统状态S下,接收机可W选择一个a, aGA,A=[al,a2,a3,...,aT],作为阔值0,T为可选阔值的个数,对每个状态下的可选择 的阔值分配一个对应的Q值即Q(S,0),对每个初始Q值赋值为0。并设置学习因子a(0 <曰< 1),和折扣因子5 (0 < 5 < 1);
[0039] 4.。接收机观察系统当前所处状态S\W概率e选择阔值0 \进行第k次更换 阔值,Z,
即W概率e选择使得9炒,0)最大的0值作为阔 值0k,W概率1-e选择使得9炒,0)非最大的0值作为阔值0k,在更换阔值后,接收机 连续对时间T内接收到的由各用户发射机发射的N个数据包进行认证,并观察系统下一个 状态SW;
[0040] 4. 3)根据公式;
[0041]
[0042] 对Q值矩阵更新。Q(Sk,0k)是接收机系统在Sk状态下采用0k值为阔值时的Q 值,R(Sk,0k)为在sk状态下采用阔值0k得到的系统即时收益,I,巧是服务器在 Sw状态下,采用让Q值最大化的阔值0。
[0043] 4. 4)重复步骤4. 2)、4. 3),直到第k次更换阔值后接收机系统满足
时,阔值0收敛,ek即是接收机系统最优阔值。
[0044] 4. 5)接收机将0k设定为该无线环境中最优阔值,并利用该值进行物理层认证。
【主权项】
1. 一种基于强化学习的无线信道指纹方法,其特征在于包括以下步骤: 1) 无线接收机在M个频点上预先测量和存储各用户发射机的接收信号强度(RSS),每 个用户发射机的信道指纹由接收机在M个不同频点测得的RSS构成,即用户发射机r的信 道指纹可表示为札=(RSSi,RSS2,. . .,RSSn,. . .,RSSM),其中RSSn为接收机在第n个信道测 得的用户发射机r的RSS,1 <n<M;无线接收机将存储的各个用户发射机的信道指纹作 为对该用户进行物理层认证的参考指纹; 2) 无线接收机收到某用户发射机发射的数据包之后,将提取该用户发射机的信道指 纹对该用户进行物理层认证,若该用户声称自己为用户r,接收机将调取预存用户r的参考 指纹,计算该用户信道指纹与用户r的参考指纹之间的欧氏距离,并将归一化处理后的欧 氏距离与接收机系统设定的阈值9进行比较,若归一化处理后的欧氏距离大于接收机系 统设定的阈值,则认定属于电子欺骗攻击,将接收到的数据包丢弃,否则进一步执行上层认 证;若通过上层认证判定属于合法数据包,则存储下来,并将提取出来的信道指纹作为该用 户r新的参考指纹; 3) 接收机系统对时间T内接收到的由各用户发射机发射的N个数据包进行统计汇总, 计算出虚警率PF( 0 )和漏报率Pm( 0 ),获得接收机系统在此刻的状态S,S由系统计算出的 虚警率PF(0)和漏报率Pm(0)构成,此时接收机系统获得即时收益R(S,0),即接收机系 统收益函数: R(S, 0) =p(-Pm(0)Ch+(l-Pm(0))a-Cp) + (l-p) (-PF(0)y+ (l-PF(0)) (0-Ch)-Cp) 其中Y为丢失合法数据包系统遭受的损失,a为接收机系统物理层认证正确识别出 合法数据包的收益,0为接收机系统物理层认证正确识别出属于电子欺骗攻击的数据包的 收益,P为接收机系统遭受电子欺骗攻击的概率,(;为接收机系统物理层认证所需消耗,Ch 为接收机系统上层认证所需消耗; 4) 接收机系统通过强化学习算法中的Q学习,在最优阈值0不确定的情况下,学习如 何设置阈值,并进行实时调节,从而可以自适应各种无线环境,确保较高的认证精度,获得 较好的系统收益,对于不同无线环境,有不同的最优阈值9,在一次学习过程中,最多可更 换Z次阈值,每一次更换阈值后,接收机会有一个观察期,以探测更换阈值对系统造成的 影响,Q学习确定最优阈值0的过程包括以下步骤: 4. 1)初始化Q值矩阵,对于每一个接收机系统状态S下,接收机可以选择一个a, &£欠六=[&1,&2, &3,...,&1],作为阈值0,1为可选阈值的个数,对每个状态下的可选 择的阈值分配一个对应的Q值即Q(S,0 ),对每个初始Q值赋值为0,并设置学习因子a(〇 <a< 1),和折扣因子S(〇 <S< 1); 4.2)接收机观察系统当前所处状态Sk,以概率e选择阈值0\进行第k次更换阈值, 1彡k彡Z,,即以概率e选择使得Q(Sk,0 )最大的0值作为阈值0 k, 以概率1-e选择使得Q(Sk,0)非最大的0值作为阈值0k,在更换阈值后,接收机连续 对时间T内接收到的由各用户发射机发射的N个数据包进行认证,并观察系统下一个状态 Sk+1; 4. 3)根据公式:对Q值矩阵更新,Q(Sk,0k)是接收机系统在Sk状态下采用0k值为阈值时的Q值,R(Sk,0k)为在Sk状态下采用阈值0囀到的系统即时收益是服务器在Sk+1状态下,采用让Q值最大化的阈值0 ; 4. 4)重复步骤4. 2)、4. 3),直到第k次更换阈值后接收机系统满足时,阈值9收敛,9k即是接收机系统最优阈值; 4.5)接收机将0k设定为该无线环境中最优阈值,并利用该值进行物理层认证。2. 如权利要求1所述一种基于强化学习的无线信道指纹方法,其特征在于在步骤1) 中,所述RSS是在相对稳定的具有丰富多径效应的室内环境中测得,接收机与各用户发射 机的位置保持不动,各用户发射机相对位置距离大于〇.5m,所述信道指纹由接收机在M个 不同频点测得的RSS构成,且相邻频点的频率间隔不小于50MHz,为保证利用该信道指纹进 行物理层认证的有效性,频点的个数应不少于3个,即M多3。3. 如权利要求1所述一种基于强化学习的无线信道指纹方法,其特征在于在步骤2) 中,所述归一化处理后的欧氏距离的计算公式为:其中Hu为用户发射机j发射声称自己来自于用户i的数据包附带的信道指纹,6,为 用户发射机i的参考信道指纹;所述物理层认证过程为:所述上层认证为通过采用基于哈希链RSA的MAC层数字签名认证等来实现。4. 如权利要求1所述一种基于强化学习的无线信道指纹方法,其特征在于在步骤3) 中,所述虚警率PF( 9 )和漏报率?"( 9 )均为离散化的值,PF( 9 )eXJJ0 )gY,故接收 机系统状态S可表示为[PF ( 0 ),Pm ( 0 ) ],X和Y可根据接收机系统要求进行划分。5. 如权利要求4所述一种基于强化学习的无线信道指纹方法,其特征在于所述X=Y ={0:0.001:0. 1,0. 15:0.05:1}。
【专利摘要】一种基于强化学习的无线信道指纹方法,涉及无线通信网络安全。无线接收机根据多个信道上的接收信号强度等物理层信息构造各用户发射机相对应的信道指纹,该信道指纹算法采用强化学习算法,根据接收机系统收益函数,实时自动调节物理层认证的阈值等关键参数,通过对比各用户发射机信道指纹及其历史记录值检测电子欺骗。可以自适应各种无线环境,具有较高的认证精度。
【IPC分类】H04W12/06, H04W12/04, H04L9/32
【公开号】CN104918249
【申请号】CN201510219184
【发明人】肖亮, 刘国隆, 李燕
【申请人】厦门大学
【公开日】2015年9月16日
【申请日】2015年5月4日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1