一种基于强化学习的反蜜罐伪装攻击方法与流程

文档序号:36874103发布日期:2024-02-02 20:53阅读:55来源:国知局
一种基于强化学习的反蜜罐伪装攻击方法与流程

本发明涉及网络攻防安全领域,具体涉及一种基于强化学习的反蜜罐伪装攻击方法。


背景技术:

1、电网作为一种信息物理系统正在变得越来越信息化。智能计量、无线连接以及与其他基础设施的集成为电网的控制和连接提供了灵活性与便捷性。软件定义网络已成为管理电网设备的一种新兴趋势,但是作为敏感数据存储和业务交互的核心,软件定义网络容易遭受网络攻击,而蜜罐与强化学习联合防御技术在抵御各种网络攻击方面表现出了巨大的潜力。

2、蜜罐技术与强化学习算法的结合方式在网络安全领域应用广泛。如中国专利授权公布号为cn116405258a的专利提出了一种基于强化学习的智能电网蜜罐设计方法及系统,该方法包括利用离线和在线方式从网络和测试环境中获取大量的针对电力电网的原始请求响应数据,将攻防行为建模之后利用强化学习方法基于收集的原始请求响应数据智能地学习电力设备行为特征;中国专利申请公布号为cn116132190a的专利提出了一种基于强化学习的物联网蜜网系统及动态调度方法,利用强化学习的q学习算法提升蜜网中蜜罐的动态调度能力,来整体优化物联网蜜网的资源利用率;中国专利申请公布号为cn115883129a的专利提出了一种诱骗博弈均衡与强化学习模型对抗反蜜罐的方法,通过策略欺骗满足状态,同时将此状态嵌入智能体和环境模块中,提高针对蜜罐反制问题的能力。

3、p.radoglou-grammatikis等人[p.radoglou-grammatikis et al.,"strategichoneypot deployment in ultra-dense beyond 5g networks:a reinforcementlearning approach,"in ieee transactions on emerging topics in computing,2022,doi:10.1109/tetc.2022.3184112.]提出一种策略性蜜罐部署方法,其中使用了e-greedy和q-learning两种强化学习技术来确定保护实际设备所能部署的蜜罐的最佳数量。a.h.anwar等人[a.h.anwar,c.a.kamhoua,n.o.leslie and c.kiekintveld,"honeypotallocation for cyber deception under uncertainty,"in ieee transactions onnetwork and service management,vol.19,no.3,pp.3438-3452,sept.2022,doi:10.1109/tnsm.2022.3179965.]使用博弈论和强化学习模型的组合来开发欺骗方法,将反应式欺骗问题建模为一个基于博弈论动态模型的部分可观测马尔科夫决策过程,以适应攻击者行为的不完全监测。

4、现有研究工作主要集中在蜜罐、反蜜罐或博弈论的单机利用,而在现实场景中攻击者有多种攻击措施,如伪装攻击、反蜜罐和正常攻击等。此外,攻防网络模型总是高度动态的,攻击者和防御者之间的相互作用通常会重复多次,直到达到一种平衡或其中一方失败。近年来现有工作将强化学习主要用于如何高效部署蜜罐,但强化学习作为一种自适应决策和方法在高度动态的攻防网络模型中是十分适用的。


技术实现思路

1、本发明的目的在于提供一种基于强化学习的反蜜罐伪装攻击方法,基于强化学习算法将考虑伪装攻击、反蜜罐、正常攻击、蜜罐、正常服务等多种攻防方式,从而推导最优攻击策略。

2、为实现上述目的,本发明的技术方案是:一种基于强化学习的反蜜罐伪装攻击方法,包括如下步骤:

3、步骤1、初始化参数:

4、设目标系统软件定义网络中存在n个服务器,攻击者在第k个时隙对第n个服务器发起攻击;将攻防场景定义为元组g(k)=<di(k),xi(k),ud(k),ua(k)>,其中防御者策略集定义为di(k)∈{d1(k),d2(k)},d1(k)表示提供正常服务,d2(k)表示提供蜜罐服务;攻击者策略集定义为xi(k)∈{x1(k),x2(k),x3(k)},x1(k)表示发起正常攻击,x2(k)表示发起反蜜罐攻击,x3(k)表示发起伪装攻击,攻击者以概率θi(k)∈{θ1(k),θ2(k),θ3(k)}选择三种攻击策略,ud(k)和ua(k)分别表示防御者以及攻击者在一个时隙内的总收益;其中,攻击者采取每种动作收益定义为un(k),成功攻击正确目标收益ar(k)、成功识别蜜罐收益ir(k);攻击者采取每种动作成本定义为cn(k),攻击行为被蜜罐捕获时攻击方受到惩罚-ap(k),发动攻击成本-ac(k),识别成本-ic(k),发动伪装攻击额外成本-ec(k);初始化状态集s(k)={ai(k),θi(k),ua(k),un(k),ar(k),ir(k),cn(k)-ap(k),-ac(k),-ic(k),-ec(k)};

5、步骤2、根据防御者能够选择提供正常服务和蜜罐服务的特征定义攻击者单次攻击过程收益ua为:当攻击者发起正常攻击x1(k),防御者提供正常服务d1(k)时,ua=ar-ac,若防御者提供蜜罐服务d2(k),ua=-ap-ac;当攻击者发起反蜜罐攻击x2(k),防御者提供正常服务d1(k)时,ua=-ic,若防御者提供蜜罐服务d2(k),ua=ir-ic;当攻击者发起伪装攻击x3(k),防御者提供正常服务时d1(k),ua=ar-ac,若防御者提供蜜罐服务d2(k),ua=-ap-ac-ec;

6、步骤3、初始化q值矩阵:对于攻击者的每一个可能状态s(k),对其所有可选择的动作xi(k)分配一个对应的q值;其中攻击者的状态s(k)为当前时刻所有策略集合以及上一时刻的所有策略收益集合;初始化学习因子α和折扣因子γ,其中0≤α≤1,0<γ≤1;

7、步骤4、第k个时隙开始时攻击者首先选择攻击动作,防御者在观察攻击者动作后选择策略进行回应;攻击者执行动作xi(k),进入状态s′并获得环境反馈r;

8、步骤5、攻击者根据环境反馈值r及当前q表计算出状态s′的现实价值:

9、q(s(k),xi(k))现实=r+γ*max q(s′)

10、max q(s′)是状态s′下最大的价值取值;

11、步骤6、观察本次攻防过程攻击方每种动作产生的有效收益:

12、

13、步骤7、更新q值矩阵:

14、

15、q(s(k),x(k))表示发送方在状态s(k)下选择x(k)时的q值;

16、步骤8、重复步骤3-7,直到q(s(k),x(k))收敛,即攻击方学习到稳定的传输选择策略。

17、在本发明一实施例中,在步骤1中,反蜜罐策略收益只与蜜罐有关,与正常服务无关。

18、在本发明一实施例中,在步骤3中,攻击方构建q值矩阵用于选择最优攻击策略,为当前时刻所有策略集合以及上一时刻的所有策略收益集合。

19、在本发明一实施例中,在步骤5中,攻击方通过观察上一攻击周期中每一种攻击策略的有效收益,并将q表更新,以在下周期中选择最优攻击策略;攻击方无法预知防御方提供何种服务,但能够根据市场公开信息预测蜜罐部署比例,从而预测两种防御策略比例。

20、相较于现有技术,本发明具有以下有益效果:本发明一种基于强化学习的反蜜罐伪装攻击方法,基于强化学习算法将考虑伪装攻击、反蜜罐、正常攻击、蜜罐、正常服务等多种攻防方式,从而推导最优攻击策略。本发明方法站在攻击者的角度分析攻击策略,使其在不完全了解防御机制的条件下实现最大化收益。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1