本发明涉及智能交通安全,特别涉及一种基于生成对抗模仿学习的车联网环境智能渗透测试方法及系统。
背景技术:
1、随着信息技术的快速发展,特别是物联网(iot)和车联网(vehicular network)技术的广泛应用,车辆信息化、智能化程度不断提高,但也带来了日益严重的网络安全风险。ivi车联网环境因其复杂性、动态性和开放性,容易受到各类恶意攻击,使得车辆系统及其相关基础设施的安全防护工作变得尤为关键。传统的渗透测试(penetration testing,pt)方法在识别和暴露这些潜在威胁方面发挥了重要作用,但它高度依赖于安全专家的手工操作和决策,这不仅耗费大量人力成本,而且在面对庞大而复杂的状态空间以及高维离散动作空间时,往往难以快速收敛至有效的渗透策略。
2、鉴于此,近年来业界逐渐转向采用强化学习(reinforcement learning,rl)和深度强化学习(deep reinforcement learning,drl)等人工智能算法来自动化渗透测试过程,以此降低人力投入并提高测试效率。然而,直接应用rl/drl方法在实际的车联网车载信息娱乐系统ivi渗透场景中依然存在一系列挑战,例如因动作空间巨大导致的收敛难度增大,以及缺乏在真实环境下的验证等问题。因此,急需开发一种ivi车联网环境下能够自动化且高效地执行渗透测试的技术方案。
技术实现思路
1、为此,本发明提供一种基于生成对抗模仿学习的车联网环境智能渗透测试方法及系统,通过集成生成对抗模仿学习机制,在深度强化学习或强化学习的基础上实现车联网车载信息娱乐环境的渗透测试,解决现有车联网车载信息娱乐环境下渗透测试中存在的大规模状态空间、高维度离散动作空间导致的收敛困难的问题,满足实时变化、物理特性复杂等车载娱乐环境下的模拟攻击测试。
2、按照本发明所提供的设计方案,一方面,提供一种基于生成对抗模仿学习的车联网环境智能渗透测试方法,包含:
3、接收目标对象的渗透测试请求,并根据所述渗透测试请求,收集目标对象车联网环境数据,所述目标对象为目标车辆或目标车联网环境,所述车联网环境为车载信息娱乐系统网络环境;
4、将目标对象车联网环境数据输入至预先训练得到的生成对抗模仿学习模型,利用生成对抗模仿学习模型对目标对象进行模拟攻击;
5、其中,所述生成对抗模仿学习模型是基于预先获得的车联网环境数据和车联网安全专家经验知识库训练得到的模拟攻击智能体。
6、作为本发明基于生成对抗模仿学习的车联网环境智能渗透测试方法,进一步地,生成对抗模仿学习模型的训练过程,包含:
7、在车联网环境的仿真网络中执行渗透测试,并在渗透测试过程中依据入侵程度设置对应奖励值,通过奖励值高低收集状态-动作对样本数据,并将状态-动作对样本数据存入车联网安全专家经验知识库中,所述状态为车联网环境中车机配置及漏洞信息,所述动作为对车机执行的测试相关操作;
8、收集车联网环境数据,基于生成器和判别器构建生成对抗模仿学习模型,所述生成器为依据车联网环境状态数据确定智能体动作空间概率分布,判别器为依据智能体动作和车辆网安全专家经验知识库中状态-动作对获取用于指导学习的折扣奖励;
9、利用车联网安全专家经验知识库损失和智能体损失构建模型训练的目标函数,基于该目标函数下在模型训练中更新判别器和生成器网络参数。
10、作为本发明基于生成对抗模仿学习的车联网环境智能渗透测试方法,进一步地,所述生成器为强化学习模型或深度强化学习模型,利用强化学习模型或深度强化学习模型获取车联网环境状态对应的动作,以输入至判别器中与车联网安全专家经验知识库中的状态-动作进行比较。
11、作为本发明基于生成对抗模仿学习的车联网环境智能渗透测试方法,进一步地,所述生成器包括策略网络和价值网络,策略网络和价值网络在训练过程设置为最大最小博弈过程,最小最大博弈过程的目标函数表示为:其中,d为判别器,π表示学习策略,ve表示专家策略,log d(s,a)表示判别器对状态-动作对(s,a)事实数据的判断,log(1-d(s,a))表示判别器对状态-动作对(s,a)生成数据的判断,lgail为生成对抗模仿学习损失。
12、作为本发明基于生成对抗模仿学习的车联网环境智能渗透测试方法,进一步地,模型训练的目标函数表示为:其中,其表示模仿策略的熵,λ为策略正则项控制系数,且λ≥0,ω和θ分别表示判别器和生成器网络参数,s为状态集合,a为动作集合。
13、作为本发明基于生成对抗模仿学习的车联网环境智能渗透测试方法,进一步地,利用生成对抗模仿学习模型对目标对象进行模拟攻击,包含:
14、针对目标车辆的渗透测试请求,将渗透测试过程建模为马尔科夫博弈模型,其中,智能体的状态设置为通过端口扫描信息,动作设置为渗透测试有效载荷序列列表中对应行动;
15、使用多线程机制训练利用深度强化学习算法训练智能体,将智能体通过动作获取目标车辆车联网环境根权限的状态作为渗透测试攻击成功状态标志,并利用奖惩机制激励智能体参与目标车辆车联网环境的渗透测试。
16、作为本发明基于生成对抗模仿学习的车联网环境智能渗透测试方法,进一步地,利用生成对抗模仿学习模型对目标对象进行模拟攻击,包含:
17、针对车联网环境渗透测试请求,将渗透测试过程建模为马尔科夫博弈模型,其中,智能体状态设置为智能体在不同网络环境下所收集的车机配置信息及漏洞信息,动作设置为智能体对网络环境中车机进行模拟攻击的操作,依据智能体在网络环境中不同车机上执行的对应动作来组建模拟攻击向量;
18、利用强化学习算法自动生成渗透测试路径并优化路径寻优,其中,路径寻优中,智能体选取动作并获取动作概率空间,并依据车机价值和对车机执行动作的成本获取奖励值;通过最大化累计奖励来探索最优渗透路径,以尽可能少的动作执行来获取最有价值的敏感车机信息。
19、再一方面,本发明还提供一种基于生成对抗模仿学习的车联网环境智能渗透测试系统,包含:测试接收模块和模拟测试模块,其中,
20、测试接收模块,用于接收目标对象的渗透测试请求,并根据所述渗透测试请求,收集目标对象车联网环境数据,所述目标对象为目标车辆或目标车联网环境,所述车联网环境为车载信息娱乐系统网络环境;
21、模拟测试模块,用于将目标对象车联网环境数据输入至预先训练得到的生成对抗模仿学习模型,利用生成对抗模仿学习模型对目标对象进行模拟攻击;
22、其中,所述生成对抗模仿学习模型是基于预先获得的车联网环境数据和车联网安全专家经验知识库训练得到的模拟攻击智能体。
23、本发明的有益效果:
24、本发明针对车联网ivi复杂系统的特性,构建包含车联网ivi安全专家经验知识库,利用该经验知识库存储在不同渗透场景下的状态-动作对,使得专家知识能够在较低成本下参与到决策过程中,实现更高效、精确的渗透测试路径规划;通过修改gail网络的整体损失更新机制,结合rl/drl模型和discriminator的损失函数来优化rl/drl模型在渗透测试中的表现,将改进后的gail应用于车联网ivi安全的drl/rl渗透测试中,使训练过程更加稳定和高效,并可通过能够自动收集并运用专家知识库指导智能代理行动,使得在不断变化的车联网ivi环境中,智能代理能迅速接近并模拟专家级的渗透行为,进而快速发现潜在的安全漏洞,在智能交通安全领域中具有较好的应用前景。